목록크롤러 (3)
David의 개발 이야기!
인스타그램을 통한 데이터수집을 위한 크롤러를 만들어보려고 한다. 머신러닝과목들을 수강하면서, 캐글이나, 데이터허브 같은 곳의 데이터가 아닌, 직접 데이터를 수집해서, 가공하는 경우가 가끔 있다. 최근에 진행한 중고차 예측 프로젝트 또한, 그렇게 "보배드림"이라는 사이트에서 일일히 사진과 관련 정보를 수집해서 학습을 시키고 예측하는 모델을 만들었는데, 이번에는, 인스타에서 이미지를 수집해서 향후 CNN이나, 이미지 분류 등의 모델학습때 요긴하게 사용해보고자 한다. 우선 로직은 다음과 같다. 1. 웹에서 인스타그램 자동로그인 2. #{태그명} 검색페이지 이동 3. 첫 사진 클릭 4. 이미지 저장 5. 다음 버튼으로 누르기 6. 4,5번 반복 해당 포스트에서는 간단한 베이스라인만을 작성해 공개하며, 본 베이스..
코인원 사이트에서, 그래프에 있는 종가 혹은, 주가 정보를 가져오고 싶다면 어떻게 해야할까? 우선 크롬 개발자도구 > 네트워크 탭에 들어간다. 그 후, 주가창을 이리저리 옮겼을때 네트워크 탭에 뜨는 무언가(?site=coinone&typpe=1d) 를 클릭해서 url 을 딴다. 해당 url 을 크롬에 복사 붙여넣기를 하면, 이런식으로 정보가 뜨는 것을 확인할 수 있다. DT는 시간, open 시작가격, close 는 종가 등 정보들을 가져올 수 있다. 이를 VS code에서 확인하면, (우클릭 format-document) 를 클릭하면 다음과 같이 확인할 수 있다. 이제, 해당 정보를 불러와서 작업할 수 있는 baseline 코드를 만들어보자 import json import requests import..
크롤링을 하려다가 보면, 페이지가 넘어가야하는 부분들을 처리해야 할 때가 있다. 크게 두가지 종류로 나눌 수 있는데, 1. 페이지 넘버로 구분되어있을때 2. 스크롤을 계속해서 로딩을 계속 해주어야할때 로 나뉜다. 1. 페이지넘버로 구분되어있을때의 크롤링 방식 1번같은 예시는, 쿠팡처럼 쇼핑몰 같은데에서 잘 구현되어있다. 1번 같은 경우는 https://www.coupang.com/np/search?q=%EC%82%AC%EA%B3%BC&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=fal..