Lightsky's Daily Story

해당 포스팅은 개인적으로 파이썬을 공부한 부분을 기록해 두기 위한 포스팅입니다. 개발자는 아니지만 기획자로서 데이터분석을 위해 파이썬을 공부하고 있습니다. 오늘은 첫번째 포스팅으로 Bloter (http://www.bloter.net/) 사이트의 특정 URL 의 기사를 크롤링해 보도록 하겠습니다.

 

# http 요청을 보내는 request 모듈 임포트하기

import requests

from bs 4 import BeautifulSoup

 

# 크롤링할 URL 주소를 res 변수에 저장하기

res = request.get('http://www.bloter.net/archives/370231')

# BeautifulSoup 를 이용하여 html 파싱하기

soup = BeautifulSoup(res.content, 'html,parser')

 

data = soup.find('h2', 'title')

print(data.get_text())

 

# find_all 은 해당 태그에 속한 모든 값을 가져온다

# find_all 을 사용하기 위해서는 리스트에 담아야 하기 때문에 for 문을 사용하여 값을 하나씩 저장하여 출력해야 한다

예제 )

data = soup.find_all('p')

for item in data:

     print(item.get_text())

     print(item[1].get_text())

 

# 결과값

안드로이드10 먹은 'V50 씽큐' 참신한 기능