일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- pytorch
- Regression
- 유데미
- AI
- 크롤링
- 인공지능
- Flutter
- 피플
- 회귀
- 데이터분석
- Computer Vision
- 42서울
- 앱개발
- 42경산
- map
- 파이썬
- 딥러닝
- 플러터
- 지정헌혈
- 자연어처리
- filtering
- 머신러닝
- 코딩애플
- 크롤러
- 모델
- CV
- 선형회귀
- mnist
- RNN
- 선형대수학
- Today
- Total
목록크롤링 공부 (11)
David의 개발 이야기!
인스타그램을 통한 데이터수집을 위한 크롤러를 만들어보려고 한다. 머신러닝과목들을 수강하면서, 캐글이나, 데이터허브 같은 곳의 데이터가 아닌, 직접 데이터를 수집해서, 가공하는 경우가 가끔 있다. 최근에 진행한 중고차 예측 프로젝트 또한, 그렇게 "보배드림"이라는 사이트에서 일일히 사진과 관련 정보를 수집해서 학습을 시키고 예측하는 모델을 만들었는데, 이번에는, 인스타에서 이미지를 수집해서 향후 CNN이나, 이미지 분류 등의 모델학습때 요긴하게 사용해보고자 한다. 우선 로직은 다음과 같다. 1. 웹에서 인스타그램 자동로그인 2. #{태그명} 검색페이지 이동 3. 첫 사진 클릭 4. 이미지 저장 5. 다음 버튼으로 누르기 6. 4,5번 반복 해당 포스트에서는 간단한 베이스라인만을 작성해 공개하며, 본 베이스..
백만개의 데이터를 수집한다고 가정해보자 url 하나 수집하는데, 0.1초가 걸린다고 하면, 대략적으로 10만초, 27시간이 걸린다. 해결책은, 멀티프로세싱 또는 멀티스레드를 사용하면된다. 파이썬 실행창 프로세스를 여러개 띄우는 멀티프로세스를 쓰거나, PC에 내장된 CPU 를 스레드 여러개로 작업을 나눠서 시키면 된다. 해당 예제에서는, mulitprocessing.Pool.map 이라는 함수를 사용해서 구현했다. 1. 기본 내장 라이브러리 불러오기 ( 멀티스레딩 하는 코드임. 멀티프로세스를 원한다면, .dummy를 제거하면 됌) 2. ThreadPool() 에다가 몇개의 프로세스/스레드 로 동시에 작업을 시킬지 숫자로 적음 3. map(적용시킬 함수, 리스트) 4. close(), join() 을 차례로..
import time print(time.time()) #1 현재시간 출력 #코드코드코드 a = time.time() #코드코드코드 b = time.time() print(b - a) # 2 현재 epoch 시간 출력하는 방법 #2 현재 ctime 출력하는 방법 & 인간이 읽을 수 있는 시간 시간 = time.time() 시간 = time.ctime(시간) #3. localtime() 으로 세부 항목만 출력하기 time2 = time.localtime() print(time2.tm_year, time2.tm_mon) print(time.strftime('%Y year %m month'), time2) #4. 시간 출력하고 싶은데, 복잡한 생각이 싫다면 import datetime a = datetime...
코인원 사이트에서, 그래프에 있는 종가 혹은, 주가 정보를 가져오고 싶다면 어떻게 해야할까? 우선 크롬 개발자도구 > 네트워크 탭에 들어간다. 그 후, 주가창을 이리저리 옮겼을때 네트워크 탭에 뜨는 무언가(?site=coinone&typpe=1d) 를 클릭해서 url 을 딴다. 해당 url 을 크롬에 복사 붙여넣기를 하면, 이런식으로 정보가 뜨는 것을 확인할 수 있다. DT는 시간, open 시작가격, close 는 종가 등 정보들을 가져올 수 있다. 이를 VS code에서 확인하면, (우클릭 format-document) 를 클릭하면 다음과 같이 확인할 수 있다. 이제, 해당 정보를 불러와서 작업할 수 있는 baseline 코드를 만들어보자 import json import requests import..
크롤링을 하려다가 보면, 페이지가 넘어가야하는 부분들을 처리해야 할 때가 있다. 크게 두가지 종류로 나눌 수 있는데, 1. 페이지 넘버로 구분되어있을때 2. 스크롤을 계속해서 로딩을 계속 해주어야할때 로 나뉜다. 1. 페이지넘버로 구분되어있을때의 크롤링 방식 1번같은 예시는, 쿠팡처럼 쇼핑몰 같은데에서 잘 구현되어있다. 1번 같은 경우는 https://www.coupang.com/np/search?q=%EC%82%AC%EA%B3%BC&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=fal..
데이터마이닝 수업을 수강하며, 크롤링의 필요성을 다시 한번 느끼게 되어, 정리겸 공부할겸 포스팅을 하게 되었다. 인공지능수업이나, 데이터분석 수업을 수강하는 대학생이라면, 아마도, 데이터수집의 어려움을 겪을 텐데, 크롤링을 할줄 안다면, 큰 도움이 될 것이다. 단계별로 하나하나씩 진행하며, 포스팅을 해볼 예정이니, 뒷 내용까지 함께 봐보자! 1. 네이버 주식 현재가 크롤링 https://finance.naver.com/item/sise.naver?code=005930 네이버 증권페이지에서, 주가를 뽑아와 txt 파일에 저장하는 예제이다. 1-1 기본 코드 알아야할 모듈과 함수 1. requests : html 코드를 가져온다. 2. bs4 : html 코드를 가져와서 예쁘게(인간눈에) 바꿔준다 3. .c..