일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 자연어처리
- 유데미
- AI
- 선형회귀
- 선형대수학
- RNN
- 데이터분석
- Flutter
- 42경산
- 머신러닝
- pytorch
- Regression
- 42서울
- 피플
- filtering
- 크롤링
- 모델
- 크롤러
- map
- CV
- 파이썬
- mnist
- 앱개발
- 딥러닝
- 코딩애플
- 회귀
- Computer Vision
- 플러터
- 지정헌혈
- 인공지능
- Today
- Total
목록파이썬 (5)
David의 개발 이야기!
백만개의 데이터를 수집한다고 가정해보자 url 하나 수집하는데, 0.1초가 걸린다고 하면, 대략적으로 10만초, 27시간이 걸린다. 해결책은, 멀티프로세싱 또는 멀티스레드를 사용하면된다. 파이썬 실행창 프로세스를 여러개 띄우는 멀티프로세스를 쓰거나, PC에 내장된 CPU 를 스레드 여러개로 작업을 나눠서 시키면 된다. 해당 예제에서는, mulitprocessing.Pool.map 이라는 함수를 사용해서 구현했다. 1. 기본 내장 라이브러리 불러오기 ( 멀티스레딩 하는 코드임. 멀티프로세스를 원한다면, .dummy를 제거하면 됌) 2. ThreadPool() 에다가 몇개의 프로세스/스레드 로 동시에 작업을 시킬지 숫자로 적음 3. map(적용시킬 함수, 리스트) 4. close(), join() 을 차례로..
크롤링을 하려다가 보면, 페이지가 넘어가야하는 부분들을 처리해야 할 때가 있다. 크게 두가지 종류로 나눌 수 있는데, 1. 페이지 넘버로 구분되어있을때 2. 스크롤을 계속해서 로딩을 계속 해주어야할때 로 나뉜다. 1. 페이지넘버로 구분되어있을때의 크롤링 방식 1번같은 예시는, 쿠팡처럼 쇼핑몰 같은데에서 잘 구현되어있다. 1번 같은 경우는 https://www.coupang.com/np/search?q=%EC%82%AC%EA%B3%BC&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=fal..
데이터마이닝 수업을 수강하며, 크롤링의 필요성을 다시 한번 느끼게 되어, 정리겸 공부할겸 포스팅을 하게 되었다. 인공지능수업이나, 데이터분석 수업을 수강하는 대학생이라면, 아마도, 데이터수집의 어려움을 겪을 텐데, 크롤링을 할줄 안다면, 큰 도움이 될 것이다. 단계별로 하나하나씩 진행하며, 포스팅을 해볼 예정이니, 뒷 내용까지 함께 봐보자! 1. 네이버 주식 현재가 크롤링 https://finance.naver.com/item/sise.naver?code=005930 네이버 증권페이지에서, 주가를 뽑아와 txt 파일에 저장하는 예제이다. 1-1 기본 코드 알아야할 모듈과 함수 1. requests : html 코드를 가져온다. 2. bs4 : html 코드를 가져와서 예쁘게(인간눈에) 바꿔준다 3. .c..
fit() -> "훈련해라", "머신러닝이 데이터에 머신러닝 모델을 맞추는 것(fit)" 학습데이터 세트에서 변환을 위한 기반 설정을 하는 함수이다! 데이터를 학습시키는 메서드라고 생각하면 된다. transform() -> fit 을 기준으로 얻은 mean, variance에 맞춰서 변형하는것! 1. fit을 통해 세운 기반으로 변형하는 함수! 2. 실제로 학습시킨 것을 적용하는 메서드라고 생각하면 된다! fit_transform() 이건 그냥 두개 합쳐 놓은 것이라 생각하면 됨! 그렇다면 왜 train dataset에서만 fit_transform 혹은 fit, transform을 할까? from sklearn.preprocessing import StandardScaler sc = StandardSca..
데이터 전처리 과정을 살펴보면, 1. 라이브러리를 불러온다. Importing the libraries 2. 데이터셋을 불러온다. Importing the dataset 3. 결측치를 어떻게 처리할 것인가? Taking care of missing data 4. 범주형 데이터를 처리해준다! Encoding the categorical data 5. 훈련데이터와 테스트데이터를 나눠준다 Spliting the dataset into the Training set and Test set 6. 표준화, 정규화를 해준다 Feature scaling 이렇게 해주어야한다. 각각에 해당하는 코드를 살펴보자. 1. Importing the libraries import numpy as np import pandas as..