'분류 전체보기' 카테고리의 글 목록 (14 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (110)

David의 개발 이야기!

상관관계와 공분산에 대해 알아보자!

1. 공분산이란 무엇인가? 분산이란? -> 내가 가진 데이터가 평균값을 중심으로 퍼져 있는 평균적인 거리 공분산이란? -> 두 변수의 평균값을 중심으로 퍼져 있는 평균적인 거리 2. 공분산과 분산의 차이 거리라고 되어있지만, "거리"의 개념은 아니고, 방향의 개념이 옳음! 2차원 = 변수 2개 --> 공변량이라고 부름 즉 방향의 개념! 3. 공분산을 계산해보자 이 데이터를 계산해보면 공분산 == 762 0 & y 편차(y - y평균) > 0 x 편차(x - x평균) 0 & y 편차(y - y평균) 0 이러한 관계를 그림과 함께 varian..

통계공부 2022. 5. 23. 01:46

NLP 에 대해 알아보자 (1) - 시소러스를 활용한 기법, 통계 기반 기법

1. 자연어 처리란? 한국어나, 영어처럼 우리가 평소에 쓰는 말을 자연어(natural language) 라고 한다. 자연어 처리(Natural Language Processing)는 자연어를 처리하는 분야이고, 즉, 자연어 처리가 추구하는 목표는 "사람의 말을 컴퓨터가 이해하도록 만들어서, 컴퓨터가 우리에게 도움이 되는 일을 수행하게 하는 것"이다. 2. 시소러스를 활용한 기법 시소러스란 유의어 사전으로, '뜻이 같은 단어(동의어)', 나 ' 뜻이 비슷한 단어(유의어)'가 한 그룹으로 분류되어 있다. 또한, 시소러스에서는 단어 사이의 '상위와 하위' 혹은 '전체와 부분' 등 더 세세한 관계까지 정의해둔 경우가 있다. "car"의 상위 개념으로 "motor vehicle"이라는 단어가 존재한다. 한편 "..

밑바닥부터 시작하는 딥러닝 2022. 5. 19. 03:16

One-way ANOVA 에 대해 알아보자!

1. One-way ANOVA의 등장 A 평균 178.5 cm B 평균 179.9cm C 평균 181.9cm 라고 한다면, 세 집단은 통계적으로 과연 같은 집단이라고 할수 있을까? 평균을 통해 두 집단의 동일성을 판단하는 t-test를 두번 사용하면 되지 않을까? 하는 생각도 든다. 하지만, 절대로 그렇게 하면 안된다. 그 이유는, 0.05 + 0.05 + 0.05 = 0.15 전체 p-value가 15%가 되는 문제가 발생하기 때문이다!!! 이러한 오류를 1종 오류라고 하는데, 1종오류를 계신하는 식은, 아래와 같다. 비교할 집단이 3개 이상인 경우, t-test 3번을 하면 1종 오류에 빠진다. 따라서 새로운 통계방법이 One-way ANOVA 이다! ( Analysis of Variance 의 약자..

통계공부 2022. 5. 17. 01:04

신경망 학습에 대해 알아보자

1. 데이터 주도 학습 2. 훈련데이터와 시험 데이터 기계학습 문제는 데이터를 훈련데이터와 시험데이터로 나누어서 학습과 실험을 수행한다. 훈련데이터만 사용해서 최적의 매개변수를 찾고, 시험데이터를 사용해 앞서 훈련한 모델의 실력을 평가한다. 이러한 방법을 사용하는 이유는, overfitting 문제를 피하기 위해서다. overfitting 문제는, 한 데이터셋에저만 지나치게 최적화된 상태를 의미한다.(과대적합) 3. 미니 배치 미니 배치를 이용하는 이유는 컴퓨터의 정보처리 효율성 때문이다. 컴퓨터는 10000개의 데이터를 1개씩 10000번 연산하는 것보다, batch_size 단위(100개 ) 의 데이터를 100번에 연산할때 보다 더 계산량이나 속도에 있어 효율적이다. 책에 따르면, 이미지 1장당 처리..

밑바닥부터 시작하는 딥러닝 2022. 5. 15. 17:58

모델의 예측값과 test_data의 라벨값 비교해 정확도 출력하는 프로그램 만들기 feat. MNIST data

1. MNIST 데이터셋 MNIST 는 기계학습 분야에서 아주 유명한 데이터셋으로 0-9까지 숫자 이미지로 구성된다. 훈련이미지가 6만장, 시험이미지가 1만장 준비되어 있다. 이러한 데이터를 통해 모델을 학습하고, 학습한 모델로 시험 이미지들을 얼마나 정확하게 분류하는지를 평가한다. load_mnist 함수는 읽은 MNIST 데이터를 (훈련이미지, 훈련레이블), (시험이미지, 시험레이블) 형식으로 반환한다. 인수로는 3가지를 설정할 수 있는데, normalize 는 입력 이미지의 픽셀 값을 0.0 ~ 1.0 사이의 값으로 정규화할지를 정한다. flatten 는 입력이미지를 평탄하게, 즉 1차원 이미지로 만들지를 결정한다. FALSE 설정하면 1*28*28의 3차원의 배열로, True로 하면 784개의 원..

밑바닥부터 시작하는 딥러닝 2022. 5. 15. 16:48

신경망이란 무엇일까?

1. 퍼셉트론에서 신경망으로 2. 활성화함수의 등장 활성화함수에 대한 더 자세한 설명은 아래글을 참고 바란다! 2022.01.16 - [인공지능공부] - 활성화 함수가 필요한 이유는 무엇일까? 활성화 함수가 필요한 이유는 무엇일까? 신경망 회로에서, 한 노드에 대해 입력값을 다음 노드에 보낼지 말지에 대해 결정하는 함수를 의미한다. 선형 함수가 아니라 비선형 함수를 사용하는 이유는 딥러닝 모델의 레이어 층을 깊게 가 david-kim2028.tistory.com 2-1 계단 함수 구현하기 2-2 시그모이드 함수 구현하기 2-3 ReLU 함수 구현하기 3. 다차원 배열의 계산 3-1 계산하기 위해 알아야할 것들 ndim() -> 배열의 차원수를 확인하는 함수! .shape -> 배열의 형상을 확인하는 인..

밑바닥부터 시작하는 딥러닝 2022. 5. 15. 15:44

Prev 1 ··· 11 12 13 14 15 16 17 ··· 19 Next

목록분류 전체보기 (110)

David의 개발 이야기!

티스토리툴바