愛林

웹 크롤링과 스크래핑 (Web Crawling, Scraping) 본문

Data Science/Web Crawling, Scraping

웹 크롤링과 스크래핑 (Web Crawling, Scraping)

愛林 2022. 9. 6. 15:40
반응형

 


웹 크롤링과 웹 스크래핑, 웹 서버

 

크롤링과 스크래핑은 대충 비슷하게 쓰이는 말이라고 보면 된다.

그렇지만 정확하게 보면 다르다.

 

크롤링 (Crawling) 은 구글과 같은 검색 포털에서 수행되며,

웹페이지의 정보를 수집하고 분류하여 데이터베이스화 한다.

데이터를 수집하는 소프트웨어를 크롤러 (Crawler) 혹은 봇 (Bot) 이라고 한다.

크롤러는 개인이 작성한 블로그나 뉴스 기사 등의 페이지를 방문하여 페이지를 싹 다 긁어온다.

수집된 데이터를 데이터베이스화 시키기 때문에,

데이터 베이스 내에서 검색하면 그 결과를 데이터베이스에서 찾아서 보여줄 수 있다.

 

스크래핑 (Scraping) 은 넓게는 웹페이지의 정보를 수집하는 행위를 말한다.

따라서 크롤링은 스크래핑의 하나라고 볼 수 있다.

좁게는 특정한 웹 페이지에서 우리가 원하는 데이터 일부만 가져오는 것을 말한다.

 

우리는 웹 서버 (Web Server) 에서 정보를 가져오게 되는데,

웹 서버란 쉽게 말하면 고성능 PC 의 집합이다.

다양한 사람들이 웹 서버로 데이터를 요청하면, 이를 실시간으로 처리해서

응답을 준다. 

우리가 웹 브라우저 주소 표시줄에 www.naver.com  이라고 입력하면 네이버 웹서버로

데이터를 요청하게 되는 것이다.

이 요청을 받아서 표시해주는 것이 네이버 메인 창이다.

 


클라이언트 (Client)

 

클라이언트는 웹 브라우저와 같이 웹 서버로 데이터를 요청하는 대상을 부르는 말이다.

클라이언트는 웹 서버로 데이터를 요청하고 , 서버로부터 전달받은 데이터를 사람이 읽기 좋은 형태로

바꾸어 화면에 출력해준다.

클라이언트가 서버로 필요한 데이터를 요청하면 서버는 클라이언트가 요청한 내용에 따라

응답을 보낸다.

우리가 웹 브라우저에 www.google.co.kr  이라고 입력하는 것은,

구글 서버로 Http 라는 표준요청을 보내는 것과 같다.

구글 웹 서버는 요청을 전달 받으면 HTML 형태의 문서와 파일을 클라이언트로 보낸다.

클라이언트는 HTML 의 이 문서를 읽어 화면에 표시해주는 역할을 한다.

 

HTML 형태의 웹 페이지
클라이언트가 읽어서 보여주는 페이지

 

주소창에 주소를 쳐서 Enter 를 누르면 그것이 HTTP 를 요청한 것이 된다.

 

웹 서버는 사진/동영상/텍스트 문서를 반환하는 것이 가능하다.

HTML 이라는 텍스트 형태의 특수 문서는 웹 클라이언트가 해석하여 데이터를 시각화한 후

우리에게 보여준다.

웹 서버 입장에서는 HTML 이라는 형태로 데이터를 반환하면

Chrome 이나 Whale, FireFox 등의 브라우저에서 같은 화면이 출력될 수 있게 한다.

 

그러므로, 우리가 원하는 특정한 문서를 스크래핑하기 위해서는

우리가 특정한 HTML 을 긁어와야 한다는 말이기 때문에

HTML에 대한 기본적인 이해가 바탕이 되어야 한다.

 

다음에는 HTML 에 대해서 알아보자.

 

 

 


나는 공부중

 

https://wikidocs.net/82624

 

01) 웹서버와 스크래핑

[TOC] ## 웹 크롤링과 웹 스크래핑 크롤링 (crawling)과 스크래핑 (scraping)은 시장에서 혼용해서 사용하기 때문에 편한 용어를 사용해도 사람들 모 ...

wikidocs.net

 

Comments