일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- DL
- ML
- textmining
- 2023공빅데
- k-means
- 공빅데
- Kaggle
- NLP
- 2023공공빅데이터청년인재양성후기
- decisiontree
- 공공빅데이터청년인재양성
- 분석변수처리
- 공공빅데이터청년인턴
- 텍스트마이닝
- ADsP3과목
- machinelearning
- data
- 데이터분석
- 머신러닝
- 2023공공빅데이터청년인재양성
- DeepLearning
- 빅데이터
- 공빅
- 클러스터링
- SQL
- 데이터전처리
- 오버샘플링
- Keras
- ADSP
- datascience
- Today
- Total
愛林
웹 크롤링과 스크래핑 (Web Crawling, Scraping) 본문
웹 크롤링과 웹 스크래핑, 웹 서버
크롤링과 스크래핑은 대충 비슷하게 쓰이는 말이라고 보면 된다.
그렇지만 정확하게 보면 다르다.
크롤링 (Crawling) 은 구글과 같은 검색 포털에서 수행되며,
웹페이지의 정보를 수집하고 분류하여 데이터베이스화 한다.
데이터를 수집하는 소프트웨어를 크롤러 (Crawler) 혹은 봇 (Bot) 이라고 한다.
크롤러는 개인이 작성한 블로그나 뉴스 기사 등의 페이지를 방문하여 페이지를 싹 다 긁어온다.
수집된 데이터를 데이터베이스화 시키기 때문에,
데이터 베이스 내에서 검색하면 그 결과를 데이터베이스에서 찾아서 보여줄 수 있다.
스크래핑 (Scraping) 은 넓게는 웹페이지의 정보를 수집하는 행위를 말한다.
따라서 크롤링은 스크래핑의 하나라고 볼 수 있다.
좁게는 특정한 웹 페이지에서 우리가 원하는 데이터 일부만 가져오는 것을 말한다.
우리는 웹 서버 (Web Server) 에서 정보를 가져오게 되는데,
웹 서버란 쉽게 말하면 고성능 PC 의 집합이다.
다양한 사람들이 웹 서버로 데이터를 요청하면, 이를 실시간으로 처리해서
응답을 준다.
우리가 웹 브라우저 주소 표시줄에 www.naver.com 이라고 입력하면 네이버 웹서버로
데이터를 요청하게 되는 것이다.
이 요청을 받아서 표시해주는 것이 네이버 메인 창이다.
클라이언트 (Client)
클라이언트는 웹 브라우저와 같이 웹 서버로 데이터를 요청하는 대상을 부르는 말이다.
클라이언트는 웹 서버로 데이터를 요청하고 , 서버로부터 전달받은 데이터를 사람이 읽기 좋은 형태로
바꾸어 화면에 출력해준다.
클라이언트가 서버로 필요한 데이터를 요청하면 서버는 클라이언트가 요청한 내용에 따라
응답을 보낸다.
우리가 웹 브라우저에 www.google.co.kr 이라고 입력하는 것은,
구글 서버로 Http 라는 표준요청을 보내는 것과 같다.
구글 웹 서버는 요청을 전달 받으면 HTML 형태의 문서와 파일을 클라이언트로 보낸다.
클라이언트는 HTML 의 이 문서를 읽어 화면에 표시해주는 역할을 한다.
주소창에 주소를 쳐서 Enter 를 누르면 그것이 HTTP 를 요청한 것이 된다.
웹 서버는 사진/동영상/텍스트 문서를 반환하는 것이 가능하다.
HTML 이라는 텍스트 형태의 특수 문서는 웹 클라이언트가 해석하여 데이터를 시각화한 후
우리에게 보여준다.
웹 서버 입장에서는 HTML 이라는 형태로 데이터를 반환하면
Chrome 이나 Whale, FireFox 등의 브라우저에서 같은 화면이 출력될 수 있게 한다.
그러므로, 우리가 원하는 특정한 문서를 스크래핑하기 위해서는
우리가 특정한 HTML 을 긁어와야 한다는 말이기 때문에
HTML에 대한 기본적인 이해가 바탕이 되어야 한다.
다음에는 HTML 에 대해서 알아보자.
나는 공부중
'Data Science > Web Crawling, Scraping' 카테고리의 다른 글
웹 스크래핑을 위한 HTML (2) | 2022.09.06 |
---|---|
고급 웹 크롤러(Crawler) - 뉴스 기사 크롤링하기 (2) | 2022.07.19 |