NLP

3.1 사전 학습된 BERT 모델 탐색BERT를 처음부터 사전 학습시키는 것은 계산 비용 많이 듦 사전 학습된 공개 BERT 모델을 다운로드하여 사용하는 것이 효과적[그림 3-1]과 같이 다양한 구성으로 사전 학습된 BERT 공개L: 인코더 레이어의 수H: 은닉 유닛 크기(표현 크기) 사전 학습된 모델BERT-uncased - 모든 토큰이 소문자인 상태로 학습 진행한 모델- 가장 일반적으로 사용되는 모델BERT-cased- 토큰에 대해 소문자화하지 않은 상태로 학습 진행한 모델- 대소문자를 보존해야 하는 개체명 인식(Name Entity Recognition, NER)과 같은 특정 작업 수행하는 경우 사용 사전 학습된 모델을 사용하는 두 가지 방법임베딩을 추출해 특징 추출기로 사용사전 학습된 BERT 모..
2.1 BERT의 기본 개념BERT(Bidirectional Encoder Representation from Transformer)구글에서 발표한 최신 임베딩 모델* 임베딩 모델 : 정보를 다차원 공간의 조밀한 표현으로 캡슐화하도록 훈련된 알고리즘질문 대답, 텍스트 생성, 문장분류 등의 태스크에서 좋은 성능을 도출해 자연어 처리 분야에 크게 기여문맥을 고려한 임베딩 모델 (성공 요인)- 문맥(context)이 없는 워드투벡터(word2vec)와 차별점 문맥 기반(context-based) 임베딩 모델 VS. 문맥 독립(context-free) 임베딩 모델ex)A 문장 : He got bit by Python. B 문장 : Python is my favorite programming language.두 ..
트랜스포머(transformer)자연어 처리에서 주로 사용하는 딥러닝 아키텍처RNN(순환 신경망), LSTM(장단기 메모리)가 트랜스포머로 대체되고 있음BERT, GPT, T5 등과 같은 다양한 자연어 처리(NLP) 모델에 트랜스포머 적용됨 1.1 트랜스포머 소개RNN과 LSTM의 한계다음 단어 예측, 기계번역, 텍스트 생성 등의 순차적 태스크에 사용됨장기 의존성 문제(long-term dependency) : RNN이 은닉 상태를 통해 과거의 정보를 저장할 때 문장의 길이가 길어지면 앞의 과거 정보가 마지막 시점까지 전달되지 못하는 현상이를 극복하기 위해 「Attention Is All You Need」 에서 트랜스포머 아키텍처 제안 트랜스포머RNN의 순환 방식을 사용하지 않고 순수하게 어텐션만 사용셀..
kk_______yy
'NLP' 카테고리의 글 목록