알아두면 쓸 데 있는 정보들
크롤링으로 빅데이터를 수집한다고?
크롤링이란? 크롤링 또는 웹 크롤링은 웹 사이트에서 정보를 검색하고 수집하기 위해 자동으로 월드 와이드 웹을 탐색하는 과정이다. 크롤링은 검색 엔진이 웹 페이지를 인덱싱하고 사용자가 검색할 수 있도록 하기 때문에 검색 엔진 기술의 핵심 구성 요소다. 크롤링 프로세스는 일반적으로 웹 페이지에서 링크를 검색하거나 수동으로 입력하여 얻을 수 있는 URL 목록으로 시작한다. 일단 URL을 얻으면, 거미나 로봇으로도 알려진 크롤러가 데이터를 수집하기 위해 웹사이트로 보내진다. 크롤러는 한 페이지에서 다른 페이지로 연결된 링크를 따라 웹 사이트를 탐색하고 페이지의 내용, 메타데이터 및 다른 페이지에 대한 하이퍼링크와 같은 데이터를 수집한다. 크롤러는 또한 웹사이트의 구조에 대한 정보를 제공하는 파일인 사이트 맵을 ..
2023. 3. 14.