기억에 의존한 생각은 현실과 기억에 대한 분별력을 잃게 되는 가장 쉬운 길이다. 기억을 하지 말라고 하는 말이 아니다. 기억이 현실에 영향을 미치는 것을 최소화해야 한다. 아무런 힘도 미치지 못하면 가장 좋겠지만 절대 그럴 수는 없다. 사건과 상황의 그늘을 지나쳐 왔다면 어떤 식으로든 우리는 영향을 받는다.
이것을 만드는 이유는 나중에 목록화를 자동으로 하려고 한다. 블로그 글 쓴 것을 리스트로 만들어 일정 기간 포스팅 한 글을 분석하고 개수를 세고 정리하기 위해서다. 결과가 잘 나온다면 아래와 같은 결과를 자동으로 얻을 수 있다. 전문가는 쉬워 보여도 배우는 사람은 한참 고생해야 얻을 수 있는 결과다. 모든 것들이 그렇다. 쉽게 할 수 있을 때까지 반복, 반복, 또 반복하는 수밖에 없다.
아름다운 차호는 많지만 자사호를 만나면 이야기가 다르지.
1. 날짜 자릿수가 맞아야 한다. 연월일시 분초로 저장하는 파일 이름을 만드는데 자릿수가 맞지 않아 들쭉날쭉한 파일 이름을 예쁘게 만든다.
2. 결국 문자열은 위의 예처럼 문단으로 구분이 되고, 링크가 들어가야 한다. 완벽한 문장이 되도록 포맷을 맞춘다.
3. 카테고리도 읽어와 저장한다. 카테고리 정보 추가.
여기까지 잘 나오는 코드가 아래다. 아주 잘 돌아가고, 오~ 아름답다. 환상적이야. 어디 있었니? ㅎㅎ
from requests import get
from bs4 import BeautifulSoup
from datetime import datetime
now = datetime.now()
def extract_fishpoint(startblognum, lastblognum):
base_url = "https://xxxxxxxxxxxxxxx/"
results = []
lastblognum = lastblognum + 1
for textnum in range (startblognum, lastblognum):
response = get(f"{base_url}{textnum}")
if response.status_code != 200:
print(f"Can't request website {base_url}{textnum}")
else:
#print(response.status_code)
soup = BeautifulSoup(response.text, "html.parser")
#list = soup.select_one('div.article_content') # https://xxxxxx/
list = soup.select_one('div.post-meta')
category = soup.select_one('div.category').get_text()
date = list.select_one('span.date').get_text()
#list = soup.find('div', class_ = "date")
print(date)
#pubdate = find("div", class_="mosaic-zone")
#print(f"{soup.title.string} {base_url}{textnum+1}")
title_data = {
'number': textnum,
'date': date,
'category': category,
'title': soup.title.string,
'link': f"{base_url}{textnum}"
}
print(textnum)
results.append(title_data)
return results
startblognum = int(input("Input start Blog Number?"))
lastblognum = int(input("Input last Blog Number?"))
title_lists = extract_fishpoint(startblognum, lastblognum)
#print(title_lists)
savedtime = now.strftime('%Y%m%d%H%M%S%Z')
print(savedtime)
file = open(f"{savedtime}.csv", "w", encoding="utf-8")
file.write(f"Start Num: {startblognum}\n")
file.write(f"Last Num: {lastblognum}\n")
file.write("Number, Date, Title, URL\n")
for title_list in title_lists:
file.write(f"{title_list['number']}, {title_list['date']}, {title_list['category']},{title_list['title']}, {title_list['link']}\n")
file.close()
결과를 잠깐 보면
Start Num: 3
Last Num: 5
Number, Date, Title, URL
3, 2010. 2. 17. 11:04, 사진 갤러리,한밤중에 현대 미술관 배회, https://fishpoint.tistory.com/3
4, 2010. 2. 17. 11:19, 사진 갤러리,국립과천 과학관 특별전, https://fishpoint.tistory.com/4
5, 2010. 2. 17. 15:04, 사진 갤러리,과천 국립과학관 기초과학관, https://fishpoint.tistory.com/5

'개발자 > 파이썬 Python' 카테고리의 다른 글
| 파이썬 파일 찾고 읽고 쓰고 복사 이동 삭제 코드 (0) | 2023.01.02 |
|---|---|
| 파이썬 pptx 파일 자동화 python-pptx 라이브러리 (0) | 2022.12.29 |
| 파이썬 퀴즈 문제 만들고 정답 확인하는 코드 (0) | 2022.12.27 |
| 파이썬 가위 바위 보 게임 코드 (1) | 2022.12.26 |
| [Python] datetime 날짜와 시간 포맷 출력하기 (1) | 2022.11.26 |
| 블로그 제목 파일로 저장하기 1 (0) | 2022.11.25 |
| 파이선 웹 스크래퍼 만들어 보자. 코드 2 (0) | 2022.11.22 |
| 파이선 웹 스크래퍼 만들어 보자. 코드 1 (1) | 2022.11.22 |
취업, 창업의 막막함, 외주 관리, 제품 부재!
당신의 고민은 무엇입니까? 현실과 동떨어진 교육, 실패만 반복하는 외주 계약,
아이디어는 있지만 구현할 기술이 없는 막막함.
우리는 알고 있습니다. 문제의 원인은 '명확한 학습, 실전 경험과 신뢰할 수 있는 기술력의 부재'에서 시작됩니다.
이제 고민을 멈추고, 캐어랩을 만나세요!
코딩(펌웨어), 전자부품과 디지털 회로설계, PCB 설계 제작, 고객(시장/수출) 발굴과 마케팅 전략으로 당신을 지원합니다.
제품 설계의 고수는 성공이 만든 게 아니라 실패가 만듭니다. 아이디어를 양산 가능한 제품으로!
귀사의 제품을 만드세요. 교육과 개발 실적으로 신뢰할 수 있는 파트너를 확보하세요.
지난 30년 여정, 캐어랩이 얻은 모든 것을 함께 나누고 싶습니다.
귀사가 성공하기까지의 긴 고난의 시간을 캐어랩과 함께 하세요.
캐어랩