크롤링‣ 정의: 웹 크롤링은 웹사이트에서 특정 데이터를 자동으로 수집하는 프로세스‣ 크롤링의 필요성: 대용량 데이터 수집, 가격 비교, 모니터링 등 다양한 활용 - 웹 크롤러 작동 원리 ‣ URL 관리- 크롤러는 방문할 URL을 관리하는 URL 관리자(URL Frontier)를 가지고 있음- 시작 URL(Seed URLs)로부터 시작하여 방문한 페이지에서 발견한 새로운 URL을 큐에 추가- 방문한 URL은 중복을 피하기 위해 별도로 추적 ‣ 웹 페이지 다운로드- 크롤러는 URL 관리자에서 URL을 가져와 해당 웹 페이지를 다운로드- HTTP 요청과 응답 처리를 위한 다운로더 모듈이 존재- 다운로드 실패 시 재시도 정책, 대기 시간, 속도 제한 등을 적용할 수 있음 ‣ 데이터 추출- 다운로드한 웹 페이지에..