'Data Science/Web Crawling, Scraping' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Data Science/Web Crawling, Scraping (3)

愛林

웹 스크래핑을 위한 HTML

HTML 웹 페이지는 HTML (Hyper Text Markup Language), 자바스크립트 (Java Script) CSS (Cascading Style Sheet) 으로 구성된다. HTML 은 데이터를 나열만 해준다. 그래서 HTML 으로만 구현된 웹페이지는 투박하다. CSS 는 이러한 웹 페이지에 색을 입히거나 디자인을 변경해서 웹페이지를 예쁘게 꾸미고, 자바스크립트는 행위를 지정해서 웹 페이지가 동적일 수 있도록 만들어준다. (클릭하면 실행되는 것 등등) 웹 자체를 구현해서 실행하기 위해서는 HTML, CSS, JS 의 지식이 모두 필요하지만, 우리는 웹을 구현한다기보다는 읽어오는 것이 목표이기 때문에 HTML 에 대해서만 간략하게 알아보고 가보자. HTML 에서 Hyper Text 라는 말은..

Data Science/Web Crawling, Scraping 2022. 9. 6. 17:43

웹 크롤링과 스크래핑 (Web Crawling, Scraping)

웹 크롤링과 웹 스크래핑, 웹 서버 크롤링과 스크래핑은 대충 비슷하게 쓰이는 말이라고 보면 된다. 그렇지만 정확하게 보면 다르다. 크롤링 (Crawling) 은 구글과 같은 검색 포털에서 수행되며, 웹페이지의 정보를 수집하고 분류하여 데이터베이스화 한다. 데이터를 수집하는 소프트웨어를 크롤러 (Crawler) 혹은 봇 (Bot) 이라고 한다. 크롤러는 개인이 작성한 블로그나 뉴스 기사 등의 페이지를 방문하여 페이지를 싹 다 긁어온다. 수집된 데이터를 데이터베이스화 시키기 때문에, 데이터 베이스 내에서 검색하면 그 결과를 데이터베이스에서 찾아서 보여줄 수 있다. 스크래핑 (Scraping) 은 넓게는 웹페이지의 정보를 수집하는 행위를 말한다. 따라서 크롤링은 스크래핑의 하나라고 볼 수 있다. 좁게는 특정한..

Data Science/Web Crawling, Scraping 2022. 9. 6. 15:40

고급 웹 크롤러(Crawler) - 뉴스 기사 크롤링하기

Daum IT 뉴스를 크롤링 해볼 것이다. https://news.daum.net/breakingnews/digital?page=3&regDate=20200819 전체뉴스 다음뉴스 news.daum.net Daum 뉴스의 첫 페이지에서 검사를 해본다. 가 있는 쪽이 loop 를 돌릴쪽이고, 우리가 주목하는 뉴스 기사가 있는 곳이다. 먼저 필요한 라이브러리를 import 해주자. import requests import lxml.html import pandas as pd import sqlite3 from pandas.io import sql import os REG_DATE = '20200819' lxml 이란, xml 과 html 문서를 아주 빠르게 처리하기 위하여 작성된 라이브러리이다. respon..

Data Science/Web Crawling, Scraping 2022. 7. 19. 19:25

이전 Prev 1 Next 다음

목록Data Science/Web Crawling, Scraping (3)

愛林

티스토리툴바