[ 웹 크롤링 ] 웹 크롤링 개념 정리

2022. 1. 27. 02:44웹 크롤링

크롤링 Crawling 이란?


- 인터넷에서 데이터를 검색해 필요한 정보를 색인하는 것을 의미한다.

- 사용자가 데이터를 하나씩 검색하여 정보를 얻는 것부터 저장, 가공하는 과정을 대신 해주는 기술이라고 할 수 있다. 이러한 크롤링을 해주는 프로그램을 " 크롤러 "라고 한다.

- 수집한 데이터들을 분류하는 작업

- 주로 인터넷의 웹페이지를 수집해서 분류하고, 저장하는 작업

- 내가 원하는 데이터가 어느 위치에 저장되어 있는지 접근하는 것이 포인트!

 

스크래핑 Scraping이란? 


- 인터넷상에 존재하는 데이터 프로그램을 이용해서 자동화된 방법으로 해당 데이터를 수집하는 방법

 

파싱 Parsing이란?


- 사용하는 언어 (문법)에 맞게 데이터를 분석하고 가공하는 작업

- 받아온 웹페이지의 데이터를 이용할 형식에 맞게 추출하여 의미있는 값으로 변형하는 작업

 

크롤링의 중요성


- 업무 자동화로 인한 업무 효율성 증가

 

크롤링의 종류


✔ 정적 크롤링-정적인 데이터를 수집

  • 장점: 수집속도가 빠르다.
  • 단점: 수집대상에 한계가 있다.

✔ 동적 크롤링-동적인 데이터를 수집
  • 장점: 수집대상에 한계가 없다.
  • 단점: 수집속도가 느리다.