웹 크롤러란?

웹에 새로 올라오거나 갱신되는 컨텐츠를 추적하는 것이 주된 목적으로, 검색 엔진에서 널리 사용된다. 여기서 컨텐츠는 웹 페이지, 이미지, 비디오, pdf 파일 등을 포함한다. 몇개의 웹 페이지에서 시작해 링크를 따라 나가면서 새로운 컨텐츠를 수집한다.

사용 목적

웹 크롤러 기본 알고리즘

  1. 입력으로 주어진 URL 집합에 대해 해당 URL이 가리키는 모든 웹 페이지를 다운로드
  2. 다운로드한 웹 페이지에서 다시 URL 추출
  3. 추출된 URL들을 다운로드할 URL 목록에 추가하고 1부터 반복

웹 크롤러 설계 시 필요한 요구사항