David의 개발 이야기!

DTM 에 대해 알아보자 - Document-Term Matrix 본문

자연어처리

DTM 에 대해 알아보자 - Document-Term Matrix

david.kim2028 2023. 8. 9. 18:51
반응형

1. DTM 이란?

문서 단어행렬(DTM)은 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것임

 

문서1 : 먹고 싶은 사과
문서2 : 먹고 싶은 바나나
문서3 : 길고 노란 바나나 바나나
문서4 : 저는 과일이 좋아요

 

띄어쓰기 단위 토큰화를 수행한다고 가정하고, 문서 단어 행렬로 표현하면 다음과 같다.

 

Document Term Matrix

각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표현하면, 문서들을 서로 비교할 수 있도록 수치화할 수 있다는 장점이 있다.

 

2. DTM의 한계

 

1) 희소 표현(Sparse representation)으로 인한 리소스 낭비

원-핫 벡터는 단어 집합의 크기가 벡터 차원이 되고 대부분이 0이 되는 벡터이다. 원-핫 벡터는 공간적 낭비와 계산 리소스를 증가시킬 수 있다. DTM도 결국 마찬가지로, 전체 단어 집합의 크기를 가지고, 문서 벡터 대부분 값이 0을 가질 수 있다. 

 

원-핫 벡터나 DTM과 같은 대부분의 값이 0인 표현을 희소 벡터(sparser vector) 또는 희소 행렬(sparser matrix)f라고 하는 데, 희소벡터는 많은 양의 저장공간과 높은 계산복잡도를 요구한다. 이러한 이유로 전처리를 통해 단어 집합의 크기를 줄이는 일은 BoW 표현을 사용하는 모델에서 중요하다. 

 

2) 빈도적 접근에 따른 문제

the 이런 조사등이 자주 나오나, 많이 나온다고 해서 중요한것은 아니다.(혹은 두 문서에 같이 많이 나온다고 유사한 것은 아니다) 

 

 

반응형
Comments