웹 크로울러 예제가 올라와서 한 번 해본다고 하는데
위에서 실습한 소스코드는 아래에 있다.
import requests
from bs4 import BeautifulSoup
def spider(max_pages):
page = 1
while page < max_pages:
url = 'http://creativeworks.tistory.com/' + str(page)
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, 'lxml')
for title_list in soup.find_all(['h3','class']):
title = title_list.text
href = url
print(href)
print(title)
page += 1
spider(10)
결과 화면은 아래와 같다. 싸이트를 아주 잘 읽어서 보여준다.
C:\Python34\python.exe M:/Dev-python/webcrawl.py
http://creativeworks.tistory.com/1
[Ruby] Install nokogiri on Ubuntu.
http://creativeworks.tistory.com/2
[Bash] Photos, Files auto sorting script on Windows,Linux,Mac by dates
http://creativeworks.tistory.com/3
[Ruby] Node.js를 이용하여 웹 사이트 데이터 가져오기(web scraping, Phantomjs)
http://creativeworks.tistory.com/3
Phantomjs로 웹사이트 데이터 가져오기
http://creativeworks.tistory.com/3
Phantomjs를 node에서 사용하기
http://creativeworks.tistory.com/4
[python2] scapy 기초
http://creativeworks.tistory.com/4
scapy 기초.
http://creativeworks.tistory.com/5
[python2] 파이썬의 멀티쓰레딩과 멀티프로세싱.
http://creativeworks.tistory.com/5
파이썬의 멀티쓰레딩과 멀티프로세싱.
http://creativeworks.tistory.com/6
데이터마이닝, 머신러닝 공부관련
http://creativeworks.tistory.com/7
151014 Democratic Debate Turns Hillary Clinton’s Way After Months of Difficulties
http://creativeworks.tistory.com/8
Hacking for Security, and Getting Paid for It
http://creativeworks.tistory.com/9
El Capitan 10.11.1 Beta and Public Beta Release on 151015. 엘 케피탄 10.11.1 네번째 릴리즈
Process finished with exit code 0
lxml 패키지가 설치하는데 문제가 생겨 헤메다가 해결했다.
lxml 이라는 파이썬 관련 libxml2 windows install 패키지를 설치해야 한다.
다운로드 URL : https://pypi.python.org/pypi/lxml
32비트 번전이라서 다운 받은 파일은 lxml-3.5.0.win32-py3.4.exe (md5) 이 파일을 다운 받았고
실행해서 설치가 되니 잘 되었다.
'개발자 > 파이썬 Python' 카테고리의 다른 글
| 티스토리 글올리기 API (2) | 2020.01.13 |
|---|---|
| 파이선 버전 확인 (0) | 2019.12.25 |
| 파이선 학습자료 (2) | 2019.12.24 |
| 한국산업기술 대학교 재직자 대상 파이선 강의, 꼭 수강하세요. (0) | 2019.11.26 |
| 파이선 에러 ImportError: No module named bluetooth 에러 (0) | 2019.05.22 |
| Data Science Summer School at Gachon University (0) | 2017.02.15 |
| K-MOOC: 데이터 과학을 위한 파이썬 입문 (0) | 2017.02.15 |
| 파이썬 실행하고 import this 명령하면 나오는 문장 번역 (6) | 2016.06.03 |
취업, 창업의 막막함, 외주 관리, 제품 부재!
당신의 고민은 무엇입니까? 현실과 동떨어진 교육, 실패만 반복하는 외주 계약,
아이디어는 있지만 구현할 기술이 없는 막막함.
우리는 알고 있습니다. 문제의 원인은 '명확한 학습, 실전 경험과 신뢰할 수 있는 기술력의 부재'에서 시작됩니다.
이제 고민을 멈추고, 캐어랩을 만나세요!
코딩(펌웨어), 전자부품과 디지털 회로설계, PCB 설계 제작, 고객(시장/수출) 발굴과 마케팅 전략으로 당신을 지원합니다.
제품 설계의 고수는 성공이 만든 게 아니라 실패가 만듭니다. 아이디어를 양산 가능한 제품으로!
귀사의 제품을 만드세요. 교육과 개발 실적으로 신뢰할 수 있는 파트너를 확보하세요.
지난 30년 여정, 캐어랩이 얻은 모든 것을 함께 나누고 싶습니다.
귀사가 성공하기까지의 긴 고난의 시간을 캐어랩과 함께 하세요.
캐어랩