웹 크롤링[Web Scraping] 이란?
: 웹 사이트에서 원하는 정보를 자동으로 수집하는것
->데이터를 수집하고 분류
- How to make 크롤러
(1) 브라우저 조종하여 데이터 얻는방법
:Selenium
:브라우저 직접 띄우기 때문에 css나 image와 같이 굳이 필요없는 데이터도 다운로드 받게됨->속도가 느림
:동적 페이지도 크롤링 가능(JS 실행 가능)
(2) HTTP request를 날려서 데이터 얻는 방법
:request,scrapy
:속도가 빠르다
:JS 실행이 불가능함 -> Web page에 대한 사전 분석이 필요
파싱(Parsing)
-가공되지 않은 문자열에서 필요한 부분을 추출하여 의미있는(구조화된)데이터로 만드는 과정