웹 크로울러 예제가 올라와서 한 번 해본다고 하는데
위에서 실습한 소스코드는 아래에 있다.
import requests
from bs4 import BeautifulSoup
def spider(max_pages):
page = 1
while page < max_pages:
url = 'http://creativeworks.tistory.com/' + str(page)
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, 'lxml')
for title_list in soup.find_all(['h3','class']):
title = title_list.text
href = url
print(href)
print(title)
page += 1
spider(10)
결과 화면은 아래와 같다. 싸이트를 아주 잘 읽어서 보여준다.
C:\Python34\python.exe M:/Dev-python/webcrawl.py
http://creativeworks.tistory.com/1
[Ruby] Install nokogiri on Ubuntu.
http://creativeworks.tistory.com/2
[Bash] Photos, Files auto sorting script on Windows,Linux,Mac by dates
http://creativeworks.tistory.com/3
[Ruby] Node.js를 이용하여 웹 사이트 데이터 가져오기(web scraping, Phantomjs)
http://creativeworks.tistory.com/3
Phantomjs로 웹사이트 데이터 가져오기
http://creativeworks.tistory.com/3
Phantomjs를 node에서 사용하기
http://creativeworks.tistory.com/4
[python2] scapy 기초
http://creativeworks.tistory.com/4
scapy 기초.
http://creativeworks.tistory.com/5
[python2] 파이썬의 멀티쓰레딩과 멀티프로세싱.
http://creativeworks.tistory.com/5
파이썬의 멀티쓰레딩과 멀티프로세싱.
http://creativeworks.tistory.com/6
데이터마이닝, 머신러닝 공부관련
http://creativeworks.tistory.com/7
151014 Democratic Debate Turns Hillary Clinton’s Way After Months of Difficulties
http://creativeworks.tistory.com/8
Hacking for Security, and Getting Paid for It
http://creativeworks.tistory.com/9
El Capitan 10.11.1 Beta and Public Beta Release on 151015. 엘 케피탄 10.11.1 네번째 릴리즈
Process finished with exit code 0
lxml 패키지가 설치하는데 문제가 생겨 헤메다가 해결했다.
lxml 이라는 파이썬 관련 libxml2 windows install 패키지를 설치해야 한다.
다운로드 URL : https://pypi.python.org/pypi/lxml
32비트 번전이라서 다운 받은 파일은 lxml-3.5.0.win32-py3.4.exe (md5) 이 파일을 다운 받았고
실행해서 설치가 되니 잘 되었다.
'개발자 > 파이썬 Python' 카테고리의 다른 글
티스토리 글올리기 API (2) | 2020.01.13 |
---|---|
파이선 버전 확인 (0) | 2019.12.25 |
파이선 학습자료 (2) | 2019.12.24 |
한국산업기술 대학교 재직자 대상 파이선 강의, 꼭 수강하세요. (0) | 2019.11.26 |
파이선 에러 ImportError: No module named bluetooth 에러 (0) | 2019.05.22 |
Data Science Summer School at Gachon University (0) | 2017.02.15 |
K-MOOC: 데이터 과학을 위한 파이썬 입문 (0) | 2017.02.15 |
파이썬 실행하고 import this 명령하면 나오는 문장 번역 (6) | 2016.06.03 |
더욱 좋은 정보를 제공하겠습니다.~ ^^