일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 2023공공빅데이터청년인재양성
- 머신러닝
- data
- ADsP3과목
- 분석변수처리
- DL
- 오버샘플링
- 데이터전처리
- Kaggle
- 2023공공빅데이터청년인재양성후기
- k-means
- 빅데이터
- DeepLearning
- ML
- datascience
- 공빅데
- 텍스트마이닝
- machinelearning
- 공공빅데이터청년인턴
- SQL
- decisiontree
- 공공빅데이터청년인재양성
- 클러스터링
- 2023공빅데
- Keras
- textmining
- NLP
- 데이터분석
- 공빅
- ADSP
- Today
- Total
목록Data Science/Web Crawling, Scraping (3)
愛林

HTML 웹 페이지는 HTML (Hyper Text Markup Language), 자바스크립트 (Java Script) CSS (Cascading Style Sheet) 으로 구성된다. HTML 은 데이터를 나열만 해준다. 그래서 HTML 으로만 구현된 웹페이지는 투박하다. CSS 는 이러한 웹 페이지에 색을 입히거나 디자인을 변경해서 웹페이지를 예쁘게 꾸미고, 자바스크립트는 행위를 지정해서 웹 페이지가 동적일 수 있도록 만들어준다. (클릭하면 실행되는 것 등등) 웹 자체를 구현해서 실행하기 위해서는 HTML, CSS, JS 의 지식이 모두 필요하지만, 우리는 웹을 구현한다기보다는 읽어오는 것이 목표이기 때문에 HTML 에 대해서만 간략하게 알아보고 가보자. HTML 에서 Hyper Text 라는 말은..

웹 크롤링과 웹 스크래핑, 웹 서버 크롤링과 스크래핑은 대충 비슷하게 쓰이는 말이라고 보면 된다. 그렇지만 정확하게 보면 다르다. 크롤링 (Crawling) 은 구글과 같은 검색 포털에서 수행되며, 웹페이지의 정보를 수집하고 분류하여 데이터베이스화 한다. 데이터를 수집하는 소프트웨어를 크롤러 (Crawler) 혹은 봇 (Bot) 이라고 한다. 크롤러는 개인이 작성한 블로그나 뉴스 기사 등의 페이지를 방문하여 페이지를 싹 다 긁어온다. 수집된 데이터를 데이터베이스화 시키기 때문에, 데이터 베이스 내에서 검색하면 그 결과를 데이터베이스에서 찾아서 보여줄 수 있다. 스크래핑 (Scraping) 은 넓게는 웹페이지의 정보를 수집하는 행위를 말한다. 따라서 크롤링은 스크래핑의 하나라고 볼 수 있다. 좁게는 특정한..

Daum IT 뉴스를 크롤링 해볼 것이다. https://news.daum.net/breakingnews/digital?page=3®Date=20200819 전체뉴스 다음뉴스 news.daum.net Daum 뉴스의 첫 페이지에서 검사를 해본다. 가 있는 쪽이 loop 를 돌릴쪽이고, 우리가 주목하는 뉴스 기사가 있는 곳이다. 먼저 필요한 라이브러리를 import 해주자. import requests import lxml.html import pandas as pd import sqlite3 from pandas.io import sql import os REG_DATE = '20200819' lxml 이란, xml 과 html 문서를 아주 빠르게 처리하기 위하여 작성된 라이브러리이다. respon..