일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 인공지능
- 피플
- pytorch
- 딥러닝
- 42서울
- 지정헌혈
- Computer Vision
- AI
- 코딩애플
- RNN
- 42경산
- 머신러닝
- 데이터분석
- 크롤러
- 선형대수학
- Flutter
- 크롤링
- filtering
- 선형회귀
- 파이썬
- map
- 회귀
- 플러터
- 모델
- 앱개발
- 자연어처리
- CV
- Regression
- mnist
- 유데미
Archives
- Today
- Total
목록DTM (1)
David의 개발 이야기!

1. DTM 이란? 문서 단어행렬(DTM)은 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것임 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요 띄어쓰기 단위 토큰화를 수행한다고 가정하고, 문서 단어 행렬로 표현하면 다음과 같다. 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표현하면, 문서들을 서로 비교할 수 있도록 수치화할 수 있다는 장점이 있다. 2. DTM의 한계 1) 희소 표현(Sparse representation)으로 인한 리소스 낭비 원-핫 벡터는 단어 집합의 크기가 벡터 차원이 되고 대부분이 0이 되는 벡터이다. 원-핫 벡터는 공간적 낭비와 계산 리소스를 증가시킬 수 있다. DTM도 결국 마찬가지로, ..
자연어처리
2023. 8. 9. 18:51