일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- map
- 머신러닝
- 파이썬
- 앱개발
- 인공지능
- 자연어처리
- 모델
- AI
- CV
- 42서울
- filtering
- Regression
- 크롤러
- 선형대수학
- 유데미
- mnist
- 42경산
- pytorch
- 데이터분석
- RNN
- Computer Vision
- 코딩애플
- 딥러닝
- 피플
- 회귀
- 선형회귀
- 플러터
- 크롤링
- Flutter
- 지정헌혈
Archives
- Today
- Total
목록원핫벡터 (1)
David의 개발 이야기!

1. DTM 이란? 문서 단어행렬(DTM)은 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것임 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요 띄어쓰기 단위 토큰화를 수행한다고 가정하고, 문서 단어 행렬로 표현하면 다음과 같다. 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표현하면, 문서들을 서로 비교할 수 있도록 수치화할 수 있다는 장점이 있다. 2. DTM의 한계 1) 희소 표현(Sparse representation)으로 인한 리소스 낭비 원-핫 벡터는 단어 집합의 크기가 벡터 차원이 되고 대부분이 0이 되는 벡터이다. 원-핫 벡터는 공간적 낭비와 계산 리소스를 증가시킬 수 있다. DTM도 결국 마찬가지로, ..
자연어처리
2023. 8. 9. 18:51