일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 42경산
- 자연어처리
- 선형회귀
- 지정헌혈
- 42서울
- AI
- 유데미
- RNN
- 회귀
- 파이썬
- 인공지능
- 코딩애플
- 딥러닝
- 머신러닝
- pytorch
- 크롤러
- 선형대수학
- 피플
- Flutter
- 데이터분석
- Computer Vision
- map
- filtering
- 크롤링
- CV
- 앱개발
- 플러터
- Regression
- mnist
- 모델
- Today
- Total
목록자연어처리 (9)
David의 개발 이야기!

TF-IDF 를 사용하면, 기존의 DTM 보다 더 많은 것을 고려해 문서들을 비교할 수 있다. 많은 경우에서, TF-IDF 가 DTM 보다 좋은 성능을 낸다. 2023.08.09 - [인공지능공부] - DTM 에 대해 알아보자 - Document-Term Matrix DTM 에 대해 알아보자 - Document-Term Matrix 1. DTM 이란? 문서 단어행렬(DTM)은 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것임 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저 david-kim2028.tistory.com 1. TF-IDF(단어 빈도-역문서 빈도) TF-IDF 는 단어의 빈도와 역문서빈도(문서의 빈도에 특정 식을 취함)을..

1. DTM 이란? 문서 단어행렬(DTM)은 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것임 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요 띄어쓰기 단위 토큰화를 수행한다고 가정하고, 문서 단어 행렬로 표현하면 다음과 같다. 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표현하면, 문서들을 서로 비교할 수 있도록 수치화할 수 있다는 장점이 있다. 2. DTM의 한계 1) 희소 표현(Sparse representation)으로 인한 리소스 낭비 원-핫 벡터는 단어 집합의 크기가 벡터 차원이 되고 대부분이 0이 되는 벡터이다. 원-핫 벡터는 공간적 낭비와 계산 리소스를 증가시킬 수 있다. DTM도 결국 마찬가지로, ..
1. Bag of Words 란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현빈도(frequency)에만 집중하는 텍스트데이터의 수치화 표현 방법이다. BoW를 직역하면, 단어들의 가방이라는 뜻으로, 어떤 텍스트의 단어들을 전부가방에 넣고, 섞었을때, 해당 가방에서, 특정 단어가 N번 등장했다면, 해당 문서에는 그 특정 단어가 N개 있다고 생각하는 것이다. (단어의 순서는 섞어서 진행했기에 중요하지 않다.) BoW를 만드는 과정은 아래와 같다. (1) 각 단어에 고유한 정수 인덱스를 부여합니다. # 단어 집합 생성. (2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만들기 2. 기본 구현 코드 from konlpy.tag import Okt okt = Okt() def build_b..