Python35 토큰화(Tokenization) 토큰화(tokenization) - 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 - 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의 토큰화에서 고려해야할 상황 - 구두점이나 특수 문자를 단순 제외해서는 안됨. - 구두점조차도 하나의 토큰으로 분류하기도 함. ex) 마침표(.)는 문장의 경계를 알 수 있게 해줌 - 단어 자체에 구두점이나 특수문자를 갖고 있는 경우도 있음. ex) $45.55, 01/02/06, 숫자 사이의 컴마 - 줄임말과 단어 내에 띄어쓰기가 있는 경우 ex) we're, New York - 사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지 - 100% 정확도를 얻는 건 쉽지 .. 2023. 2. 17. 나이브 베이즈(Naive Bayes) 분류 나이브 베이즈(Naive Bayes) 분류 - 베이즈 정리에 기반한 통계적 분류 기법 - 지도 학습 - feature끼리 서로 독립이어야 함. -> 실제로 모든 feature가 독립인 경우는 드물다. - 빠르고 정확(feature들의 연관 관계를 고려하지 않기 때문) - feature들의 연관 관계를 모두 고려하면 복잡해지기 때문에 단순화 시켜 처리하는 경우 주로 사용됨 ex) 스팸 메일 분류, 질병 진단, 문서 분류, 비정상 행위 탐지(binary classfication) 등 - 연속형 보다는 이산형에서 성능이 좋다 - 범주형 데이터에 효과적, 수치형 데이터에는 부적합 : 이렇게 베이즈 정리를 기반으로 스펨 메일일 확률이 스펨 메일이 아닐 확률 보다 크다면 스펨 메일로 분류하는 것. 의문점 : fea.. 2023. 2. 9. tensorflow 설치 과정에서 오류 해결 C:\Users\LG>conda install -c conda-forge tensorflow 명령어 입력 오류발생Collecting package metadata (current_repodata.json): failedCondaHTTPError: HTTP 000 CONNECTION FAILED for url https://repo.anaconda.com/pkgs/main/win-64/current_repodata.json>Elapsed: -An HTTP error occurred when trying to retrieve this URL.HTTP errors are often intermittent, and a simple retry will get you on your way. tensorflow 설치.. 2023. 2. 8. 크롤링(Beautiful Soup) Beautiful Soup도서 쪽수 가져오기 파서(parser) - 입력 데이터를 받아 데이터 구조를 만드는 소프트웨어 라이브러리파싱(parsing) - 위와 같은 과정html.parser - 파이썬에 기본 내장된 HTML 파서 find() : 지정된 이름을 가진 첫 번째 태그를 찾음- 첫 번째 매개변수 : 찾을 태그 이름 지정- attrs 매개변수 : 찾으려는 태그의 속성을 딕셔너리로 지정class 속성이 gd_name인 태그를 찾아라 prd_link를 딕셔너리 처럼 사용해서 태그 안의 속성을 참조한다이 방법으로 링크 주소인 href 속성의 값을 얻는다 id 속성이 infoset_specific인 div태그 찾기상세 페이지 안에서 항상 유일한 것인지 확인해야함 : HTML 태그를 특정할 수 있어.. 2023. 1. 18. 웹 기반 API(JSON, XML) API란 - Application Programming Interface - 두 프로그램이 서로 대화하기 위한 방법을 정의한 것 웹 브라우저 -> 웹 서버 : 웹 데이터 요청(HTTP) 웹 서버 -> 웹 브라우저 : 웹 데이터 전송(HTML) : HTTP 프로토콜을 사용해 웹 페이지를 구성하는 HTML 데이터를 주고 받음. HTTP 프로토콜(통신규약)을 사용해 API를 만드는 것이 웹 기반 API 웹 기반 API를 사용하는 방법을 아는 것이 중요. 웹 기반 API 프로그램 A -> 프로그램 B : 데이터 요청(HTTP) 프로그램 B -> 프로그램 A : 데이터 전송(CSV, JSON, XML) : HTML은 구조가 복잡해서 다른 걸 선호, 프로그램 간의 약속대로 전송하는API에서는 적절하지 않음. JSO.. 2023. 1. 14. 이전 1 ··· 3 4 5 6 다음