본문 바로가기

Web

[Web Scraping]웹 크롤링



웹 크롤링[Web Scraping] 이란?

 

: 웹 사이트에서 원하는 정보를 자동으로 수집하는것

->데이터를 수집하고 분류

 

 

 

  •  How to make 크롤러

 

             (1) 브라우저 조종하여 데이터 얻는방법

              :Selenium

              :브라우저 직접 띄우기 때문에 css나 image와 같이 굳이 필요없는 데이터도 다운로드 받게됨->속도가 느림

              :동적 페이지도 크롤링 가능(JS 실행 가능)

 

             (2) HTTP request를 날려서 데이터 얻는 방법

             :request,scrapy

             :속도가 빠르다

             :JS 실행이 불가능함 -> Web page에 대한 사전 분석이 필요

 

 

 

 

 

 

 

 

 

 

 

 

    

 

 

파싱(Parsing)

 

-가공되지 않은 문자열에서 필요한 부분을 추출하여 의미있는(구조화된)데이터로 만드는 과정