'원핫벡터' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

목록원핫벡터 (1)

David의 개발 이야기!

DTM 에 대해 알아보자 - Document-Term Matrix

1. DTM 이란? 문서 단어행렬(DTM)은 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것임 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요 띄어쓰기 단위 토큰화를 수행한다고 가정하고, 문서 단어 행렬로 표현하면 다음과 같다. 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표현하면, 문서들을 서로 비교할 수 있도록 수치화할 수 있다는 장점이 있다. 2. DTM의 한계 1) 희소 표현(Sparse representation)으로 인한 리소스 낭비 원-핫 벡터는 단어 집합의 크기가 벡터 차원이 되고 대부분이 0이 되는 벡터이다. 원-핫 벡터는 공간적 낭비와 계산 리소스를 증가시킬 수 있다. DTM도 결국 마찬가지로, ..

자연어처리 2023. 8. 9. 18:51

Prev 1 Next

목록원핫벡터 (1)

David의 개발 이야기!

티스토리툴바