본문 바로가기
  • 공부한 것들과 여러가지를 기록해요
Python/data

크롤링(Beautiful Soup)

by 티권 2023. 1. 18.

Beautiful Soup

도서 쪽수 가져오기

 

파서(parser) - 입력 데이터를 받아 데이터 구조를 만드는 소프트웨어 라이브러리

파싱(parsing) - 위와 같은 과정

html.parser - 파이썬에 기본 내장된 HTML 파서

 

 

find() : 지정된 이름을 가진 첫 번째 태그를 찾음

- 첫 번째 매개변수 : 찾을 태그 이름 지정

- attrs 매개변수 : 찾으려는 태그의 속성을 딕셔너리로 지정

class 속성이 gd_name인 <a>태그를 찾아라

 

 

prd_link를 딕셔너리 처럼 사용해서 태그 안의 속성을 참조한다

이 방법으로 링크 주소인 href 속성의 값을 얻는다

 

 

 

id 속성이 infoset_specific인 div태그 찾기

상세 페이지 안에서 항상 유일한 것인지 확인해야함 : HTML 태그를 특정할 수 있어야함.

HTML 대신 자바스크립트를 사용하는 웹 페이지 : Selenium 사용

 

 

find_all() : 지정된 이름을 가진 모든 태그를 찾아서 리스트로 반환

get_text() : 태그 안에 담긴 텍스트를 가져오기

 

요약

1. 검색 결과 페이지 URL 만들기

2. request.get()으로 검색 결과 페이지의 HTML 가져오기

3. BeautifulSoup으로 HTML 파싱

4. find(), find_all(), get_text()

 

5. 함수로 이 과정을 만드는 게 좋음

6. 데이터프레임(apply, merge 등)

 


 

'Python > data' 카테고리의 다른 글

웹 기반 API(JSON, XML)  (0) 2023.01.14