웹 크롤러란?

웹에 새로 올라오거나 갱신되는 컨텐츠를 추적하는 것이 주된 목적으로, 검색 엔진에서 널리 사용된다. 여기서 컨텐츠는 웹 페이지, 이미지, 비디오, pdf 파일 등을 포함한다. 몇개의 웹 페이지에서 시작해 링크를 따라 나가면서 새로운 컨텐츠를 수집한다.

사용 목적

검색 엔진을 위한 로컬 인덱스 생성
웹 아카이빙으로 데이터 장기보관
웹 마이닝 : 인터넷에서 유용한 지식 도출
웹 모니터링 : 저작권이나 상표권 침해 사례 추적

웹 크롤러 기본 알고리즘

입력으로 주어진 URL 집합에 대해 해당 URL이 가리키는 모든 웹 페이지를 다운로드
다운로드한 웹 페이지에서 다시 URL 추출
추출된 URL들을 다운로드할 URL 목록에 추가하고 1부터 반복

웹 크롤러 설계 시 필요한 요구사항