Python35 트랜스포머(Transformer) - 입력(포지셔널인코딩) https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org 트랜스포머란? - 인코더-디코더 구조를 따르면서, RNN을 사용하지 않고 어텐션으로만 구현한 모델 인코더-디코더 구조 - 인코더 :.. 2023. 7. 15. 신경망, 오차역전파법 신경망이란? - 인간의 뉴런 구조를 본떠 만든 기계학습과정의 유형 활성화 함수 - 입력신호의 총합을 출력신호로 변환하는 함수 - 입력신호의 총합이 활성화를 일으키는지 정하는 역할 입력신호의 총합, a라는 노드가 h(x)라는 활성화함수를 거쳐 y라는 노드로 변환됨 활성화함수로 신호를 변환하고 그 변환된 신호를 다음 뉴런에 전달 : 노드 마다 입력과 출력이 있는데 노드의 입력이 활성화함수를 거쳐 그 노드의 출력이 되고, 다음 뉴런에 그 값이 전달 됨 h(x)는 임계값(0)을 경계로 출력이 바뀌는 함수 -> 계단 함수 퍼셉트론은 활성화함수로 계단함수를 이용함 딥러닝에서는 활성화함수로 계단함수를 사용하지 않음. 역전파과정에서 미분가능해야하기 때문에 계단함수 처럼 불연속이면 안되기 때문 계단 함수가 아닌 다른 함.. 2023. 7. 14. 어텐션(인코더-디코더 Attention, Dot-Product Attention) https://tgwon.tistory.com/52 시퀀스-투-시퀀스(seq2seq) 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) - 입력된 시퀀스를 다른 시퀀스로 변환하는 작업을 수행하는 딥러닝 모델 - 주로 자연어 처리(NLP) 분야에서 활용 - ex) 챗봇, 기계 번역, 요약, STT 아래 그 tgwon.tistory.com RNN에 기반한 seq2 seq 모델의 한계 - 컨텍스트 벡터로 정보 압축 과정에서 정보 손실 발생, 입력 시퀀스가 길어지면 심함 - RNN의 고질적인 문제인 기울기 소실 문제 -> 그래서 등장한 게 어텐션(attention) -> 입력 시퀀스가 길어지면 출력 시퀀스의 정확도가 떨어지는 것을 보정 어텐션 아이디어 디코더에서 출력 단어를 예측하는 매 .. 2023. 6. 27. CNN 이해하기 (2) https://ganghee-lee.tistory.com/43 translation invariance 설명 및 정리 translation invariance를 설명하기 위해 먼저 Classification에 대해 살펴보자. Classification은 Image가 주어졌을때 이 이미지가 어떤 사진인지, 어떤 Object를 대표하는지 분류하는 문제이다. 따라서 아래 그림 ganghee-lee.tistory.com Dense 층은 입력 특성 공간에 있는 전역 패턴을 학습하지만( ex) mnist 숫자 이미지 모든 픽셀에 걸친 패턴) 합성곱 층은 아래 그림처럼 지역 패턴을 학습한다 지역 패턴을 학습한다는 CNN의 특징은 두 가지 성질을 제공함 1. 학습된 패턴은 평행 이동 불변성(translation inv.. 2023. 5. 8. CNN 이해하기 (1) CNN 1. 합성곱 신경망(Convolutional neural network, CNN)은 시각적 영상을 분석하는 데 사용 2. 딥러닝에서 심층 신경망으로 분류 3. 시각적 영상 분석에 주로 적용 4. 상 및 동영상 인식, 추천 시스템, 영상 분류, 의료 영상 분석 및 자연어 처리 등에 응용 왜 CNN인가? 일반 DNN(Deep Neural Network)의 문제점 - 기본적으로 1차원 형태의 데이터를 사용 - 이미지가 입력값이 되는 경우, 이것을 flatten시켜서 한줄 데이터로 만들어야 함 - 이 과정에서 이미지의 공간적/지역적 정보(spatial/topological information)가 손실 - 한줄로 된 row데이터에서는 연산관계(픽셀들이 모여 객체를 만듦, 픽셀 간의 상관관계)가 제거 됨... 2023. 5. 2. 시퀀스-투-시퀀스(seq2seq) 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) - 입력된 시퀀스를 다른 시퀀스로 변환하는 작업을 수행하는 딥러닝 모델 - 주로 자연어 처리(NLP) 분야에서 활용 - ex) 챗봇, 기계 번역, 요약, STT 아래 그림은 seq2seq 모델을 간략하게 표현한 그림 ex) - 'I am a student'라는 영어 문장을 입력 - 'je suis étudiant'라는 프랑스 문장을 출력 seq2seq 구조 -> 인코더와 디코더로 구성됨 인코더 - 입력 문장의 모든 단어들을 순차적으로 입력받음 - 입력받은 뒤에 마지막에 모든 단어 정보들을 압축해서 하나의 벡터로 만듦 -> 컨텍스트 벡터(context vector) 디코더 - 컨텍스트 벡터를 받아서 번역된 단어를 한 개씩 순차적으로 .. 2023. 4. 11. 이전 1 2 3 4 5 6 다음