Beautiful Soup
도서 쪽수 가져오기


파서(parser) - 입력 데이터를 받아 데이터 구조를 만드는 소프트웨어 라이브러리
파싱(parsing) - 위와 같은 과정
html.parser - 파이썬에 기본 내장된 HTML 파서
find() : 지정된 이름을 가진 첫 번째 태그를 찾음
- 첫 번째 매개변수 : 찾을 태그 이름 지정
- attrs 매개변수 : 찾으려는 태그의 속성을 딕셔너리로 지정
class 속성이 gd_name인 <a>태그를 찾아라

prd_link를 딕셔너리 처럼 사용해서 태그 안의 속성을 참조한다
이 방법으로 링크 주소인 href 속성의 값을 얻는다


id 속성이 infoset_specific인 div태그 찾기
상세 페이지 안에서 항상 유일한 것인지 확인해야함 : HTML 태그를 특정할 수 있어야함.
HTML 대신 자바스크립트를 사용하는 웹 페이지 : Selenium 사용

find_all() : 지정된 이름을 가진 모든 태그를 찾아서 리스트로 반환
get_text() : 태그 안에 담긴 텍스트를 가져오기
요약
1. 검색 결과 페이지 URL 만들기
2. request.get()으로 검색 결과 페이지의 HTML 가져오기
3. BeautifulSoup으로 HTML 파싱
4. find(), find_all(), get_text()
5. 함수로 이 과정을 만드는 게 좋음
6. 데이터프레임(apply, merge 등)
'Python > data' 카테고리의 다른 글
웹 기반 API(JSON, XML) (0) | 2023.01.14 |
---|