일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Computer Vision
- AI
- 자연어처리
- pytorch
- Regression
- 데이터분석
- RNN
- 파이썬
- 42서울
- 회귀
- 크롤링
- 딥러닝
- 지정헌혈
- 모델
- 코딩애플
- mnist
- 플러터
- map
- 앱개발
- 피플
- 선형대수학
- 인공지능
- filtering
- 크롤러
- Flutter
- 42경산
- 유데미
- 선형회귀
- CV
- 머신러닝
- Today
- Total
목록자연어처리 (9)
David의 개발 이야기!

1. 딥러닝 기반의 기계 번역 발전 과정 기계번역 발전과정은 위 표과 같다. GPT와 BERT의 차이는 아래와 같다. GPT : Transformer 의 디코더(Decoder) 아키텍처 활용 BERT : Transformer 의 인코더(Encoder) 아키텍처 활용 2. 기존 Seq2Seq 모델들의 한계점 (1) bottleneck 현상 - seq2seq 는 context vector v에 소스문장의 정보를 압축하는 구조 -> 병목(bottleneck)이 발생하여, 성능하락의 원인이 된다. (2) 디코더가 context vector를 매번 참고하는 문제 -> 그럼에도 여전히 소스문장을 하나의 벡터로 압축해야함. [ 문제 정리 ] => 하나의 context vector 가 소스 문장의 모든 정보를 가지고 ..

1. Seq2seq - Sequence to sequence 모델 개요 seq2seq 모델은, 입력된 sequence로부터 다른 도메인의 시퀀스를 출력하는 모델이다. 주로 seq2seq는 번역기에서 대표적으로 사용되는 모델로, RNN을 어떻게 조립했느냐에 따라, seq2seq 구조가 만들어진다. 위 그림은, "나는 너를 사랑해" 라는 한국어 문장을 "I love you" 영어로 번역해 출력하는 모습을 보여준다. 2. Seq2seq 구조도 seq2seq 모델은 크게 인코더(encoder) 와 디코더(decoder) 두개의 모듈로 구성되어있다. 인코더는 입력문장의 모든 단어들을 순차적으로 입력받아, 마지막에 이 모든 단어 정보들을 압축해서, context vector로 만든다. Input값의 단어의 정보들이..

2023.08.19 - [자연어처리] - RNN 에 대해 알아보자 RNN 에 대해 알아보자 RNN(Recurrent Neural Network) 는 입력과 출력을 시퀀스 단위로 처리하는 시퀀스(Sequence) 모델이다. 1. RNN 예시 1. POS tagging RNN은 아래그림 같이, POS tagging(품사 분류)를 할 수 있다. 모델 구조를 좀 더 자세 david-kim2028.tistory.com 1. Vanilla RNN 의 한계 앞선 글에서 알수 있듯이, 바닐라 RNN 은 "Long-Term Dependencies" 라는 문제가 있다. 이러한 문제를 극복하기 위한 방법중 하나가 LSTM 이다. "Long-Term Depedencies"를 좀 더 자세히 설명하면, 아래 그림과 같다. RNN..

RNN(Recurrent Neural Network) 는 입력과 출력을 시퀀스 단위로 처리하는 시퀀스(Sequence) 모델이다. 1. RNN 예시 1. POS tagging RNN은 아래그림 같이, POS tagging(품사 분류)를 할 수 있다. 모델 구조를 좀 더 자세히 보면, 이렇게 구성되어있고, POS tagging 인경우, Supervised Learning 이므로, Softmax 를 통해 품사를 분류 할 수 있다. target값과 pred 값을 비교해, gradient descent 이용해 조정해 정확도를 높여간다. 각 변수는 다음과 같은 뜻을 지닌다. 모델에 있는 변수들이 Whh, Wxh, b가 결국 같은 변수고, 시간에 따라, 변하는 것이기에 Back Propagation 이 아니라 Ba..
n-gram 언어 모델은 단어 빈도에 기반한 통계적 접근을 사용하고 있으며, 이전에 등장한 모든 단어를 고려하는 것이 아닌, 일부 단어만 고려하는 접근 방법을 사용한다. 이때, 일부 단어를 몇개 보느냐를 결정하는데, 이것이 n-gram 에서 n이 가지는 의미이다. P(is | The best AI developer) == P(is | developer) The best AI developer가 나왔을때, is 가 나올 확률을, developer 가 나왔을때 is가 나올 확률로 생각해보자. 갖고 있는 Corpus(말뭉치) 에 The best AI developer가 있을 가능성 보다는 developer is 라는 더 짧은 단어 시퀀스가 존재할 가능성이 더 높다. 즉, 단어의 확률을 구하고자 기준 단어의 앞..

1. 1D 합성곱(1D Convolutions) 'wait for the video and don't rent it'이라는 문장이 있을 때, 이 문장이 토큰화, 패딩, 임베딩 층(Embedding layer)을 거친다면 다음과 같은 문장 형태의 행렬로 변환된다. 아래 그림에서 k은 문장의 길이, l는 임베딩 벡터의 차원입니다. 그렇다면 1D 합성곱 연산의 경우, 이러한 행렬은 어떻게 처리할까? 1D 합성곱 연산에서, 커널의 너비는, 문장 행렬에서 임베딩 벡터의 차원과 동일하게 설정된다. 따라서, 1D 합성곱 연산에서는 커널의 높이만으로 해당 커널의 크기로 간주한다. 즉, 아래 그림의 경우, 커널의 크기는 2이다. 커널의 너비가 임베딩 벡터의 차원이라는 의미는 결국, 커널이 2D 합성곱 연산과는 달리(2D..