본문 바로가기
  • 공부한 것들과 여러가지를 기록해요

Python/ML3

SVR(Support Vector Regression) 서포트 벡터 머신 회귀(support vector machine regression) - 비모수적 방법 - 커널 함수를 기반으로 함 - 제한된 마진 오류 안에서 가능한 한 많은 관측치가 마진에 포함되도록 학습하는 방법 - 마진 안에 관측치가 많은 초평면이 좋은 초평면이다 - svm과 마진을 고려하는 건 똑같지만, svr은 마진 밖에 있는 error가 최소가 되도록 동작함 - 마진의 폭은 하이퍼파라미터 ε(입실론)으로 조절(slack variable 과 혼동 x) - 마진을 통해 오차에 반응하지 않는 영역 마련 -> 노이즈에 영향을 받지 않도록 - 마진에 들어가는 학습데이터를 추가 -> 예측 능력에 영향 X - 모델은 입실론에 민감하지 않다 - 입실론이 아니라 규제 C에 민감하다 - SVR의 규제 C - .. 2023. 4. 1.
SVM(Support Vector Machine) 서포트 벡터 머신(SVM) - 분류 방법론 - 선형, 비선형 분류에 모두 사용 - 분리 초평면에서 출발하여 서포트 벡터 머신으로 발전 분리 초평면(Separating Hyperlane) - 초평면 : p차원 공간에서 p-1 차원의 부분공간 - 초평면에 임의의 관측치를 대입하여 결과의 부호에 따라 두 집단으로 분류(1,-1) - 분리 초평면은 무수히 많이 존재 가능. 어떤 걸 이용할까? -> 최대 마진 분류기 최대 마진 분류기 - 분리 초평면 중 최대 마진을 갖는 초평면을 선택하는 방법 - 마진(margin) : 주어진 관측치와 초평면 사이의 수직 거리. 관측치들에서 초평면까지의 가장 짧은 거리 - 마진이 최대가 되게 하는 초평면(최대마진초평면)을 찾는다! H+와 H- 위의 점들에서 초평면까지의 거리를 d.. 2023. 3. 26.
나이브 베이즈(Naive Bayes) 분류 나이브 베이즈(Naive Bayes) 분류 - 베이즈 정리에 기반한 통계적 분류 기법 - 지도 학습 - feature끼리 서로 독립이어야 함. -> 실제로 모든 feature가 독립인 경우는 드물다. - 빠르고 정확(feature들의 연관 관계를 고려하지 않기 때문) - feature들의 연관 관계를 모두 고려하면 복잡해지기 때문에 단순화 시켜 처리하는 경우 주로 사용됨 ex) 스팸 메일 분류, 질병 진단, 문서 분류, 비정상 행위 탐지(binary classfication) 등 - 연속형 보다는 이산형에서 성능이 좋다 - 범주형 데이터에 효과적, 수치형 데이터에는 부적합 : 이렇게 베이즈 정리를 기반으로 스펨 메일일 확률이 스펨 메일이 아닐 확률 보다 크다면 스펨 메일로 분류하는 것. 의문점 : fea.. 2023. 2. 9.