일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- CV
- 선형회귀
- 코딩애플
- 딥러닝
- RNN
- 42서울
- 모델
- mnist
- 선형대수학
- Flutter
- 크롤러
- Computer Vision
- 피플
- 42경산
- pytorch
- filtering
- 지정헌혈
- map
- 데이터분석
- 자연어처리
- 인공지능
- 앱개발
- 회귀
- 플러터
- 머신러닝
- Regression
- 파이썬
- AI
- 크롤링
- 유데미
- Today
- Total
목록자연어처리 (5)
David의 개발 이야기!

1. 딥러닝 기반의 기계 번역 발전 과정 기계번역 발전과정은 위 표과 같다. GPT와 BERT의 차이는 아래와 같다. GPT : Transformer 의 디코더(Decoder) 아키텍처 활용 BERT : Transformer 의 인코더(Encoder) 아키텍처 활용 2. 기존 Seq2Seq 모델들의 한계점 (1) bottleneck 현상 - seq2seq 는 context vector v에 소스문장의 정보를 압축하는 구조 -> 병목(bottleneck)이 발생하여, 성능하락의 원인이 된다. (2) 디코더가 context vector를 매번 참고하는 문제 -> 그럼에도 여전히 소스문장을 하나의 벡터로 압축해야함. [ 문제 정리 ] => 하나의 context vector 가 소스 문장의 모든 정보를 가지고 ..

1. Seq2seq - Sequence to sequence 모델 개요 seq2seq 모델은, 입력된 sequence로부터 다른 도메인의 시퀀스를 출력하는 모델이다. 주로 seq2seq는 번역기에서 대표적으로 사용되는 모델로, RNN을 어떻게 조립했느냐에 따라, seq2seq 구조가 만들어진다. 위 그림은, "나는 너를 사랑해" 라는 한국어 문장을 "I love you" 영어로 번역해 출력하는 모습을 보여준다. 2. Seq2seq 구조도 seq2seq 모델은 크게 인코더(encoder) 와 디코더(decoder) 두개의 모듈로 구성되어있다. 인코더는 입력문장의 모든 단어들을 순차적으로 입력받아, 마지막에 이 모든 단어 정보들을 압축해서, context vector로 만든다. Input값의 단어의 정보들이..

RNN(Recurrent Neural Network) 는 입력과 출력을 시퀀스 단위로 처리하는 시퀀스(Sequence) 모델이다. 1. RNN 예시 1. POS tagging RNN은 아래그림 같이, POS tagging(품사 분류)를 할 수 있다. 모델 구조를 좀 더 자세히 보면, 이렇게 구성되어있고, POS tagging 인경우, Supervised Learning 이므로, Softmax 를 통해 품사를 분류 할 수 있다. target값과 pred 값을 비교해, gradient descent 이용해 조정해 정확도를 높여간다. 각 변수는 다음과 같은 뜻을 지닌다. 모델에 있는 변수들이 Whh, Wxh, b가 결국 같은 변수고, 시간에 따라, 변하는 것이기에 Back Propagation 이 아니라 Ba..

TF-IDF 를 사용하면, 기존의 DTM 보다 더 많은 것을 고려해 문서들을 비교할 수 있다. 많은 경우에서, TF-IDF 가 DTM 보다 좋은 성능을 낸다. 2023.08.09 - [인공지능공부] - DTM 에 대해 알아보자 - Document-Term Matrix DTM 에 대해 알아보자 - Document-Term Matrix 1. DTM 이란? 문서 단어행렬(DTM)은 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것임 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저 david-kim2028.tistory.com 1. TF-IDF(단어 빈도-역문서 빈도) TF-IDF 는 단어의 빈도와 역문서빈도(문서의 빈도에 특정 식을 취함)을..
1. Bag of Words 란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현빈도(frequency)에만 집중하는 텍스트데이터의 수치화 표현 방법이다. BoW를 직역하면, 단어들의 가방이라는 뜻으로, 어떤 텍스트의 단어들을 전부가방에 넣고, 섞었을때, 해당 가방에서, 특정 단어가 N번 등장했다면, 해당 문서에는 그 특정 단어가 N개 있다고 생각하는 것이다. (단어의 순서는 섞어서 진행했기에 중요하지 않다.) BoW를 만드는 과정은 아래와 같다. (1) 각 단어에 고유한 정수 인덱스를 부여합니다. # 단어 집합 생성. (2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만들기 2. 기본 구현 코드 from konlpy.tag import Okt okt = Okt() def build_b..