일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- NLP
- decisiontree
- ADSP
- 공공빅데이터청년인재양성
- 데이터분석
- 분석변수처리
- DL
- 텍스트마이닝
- Keras
- ML
- 빅데이터
- datascience
- machinelearning
- 오버샘플링
- 2023공공빅데이터청년인재양성후기
- ADsP3과목
- data
- 공공빅데이터청년인턴
- 공빅
- 2023공공빅데이터청년인재양성
- 공빅데
- 클러스터링
- 2023공빅데
- k-means
- Kaggle
- DeepLearning
- 머신러닝
- SQL
- 데이터전처리
- textmining
- Today
- Total
목록데이터분석 (6)
愛林

짧다면 짧고, 길다면 길었던 공빅 교육이 끝났다. 사실 심화교육은 남아있어서 완전 끝은 아니지만 ! 프로젝트와 오프라인 수업은 무사히 끝냈다. 그래서 쓰는 프로젝트 후기! 조는 그냥 권역별 반 안에서 제비뽑기로 뽑혔다. 그래도 전공자, 비전공자 정도는 나누어서 넣어주었으면 했는데 각 권역별 반도 그냥 이름순으로 넣고.. 이런 프로젝트 조도 그냥 제비뽑기로 해서 좀 잉?스러웠음. ㅋ 우리 반에는 전공자도 몇 명 없었는데, 나는 전공자가 없는 조에 배치되었다 ..! 사실 컴공 전공자분이 한 분 계시긴 했으나 데이터 분석 전공은 아니셨다. 너무 막막했음.. ㅠㅠ 전공자분이 있는 조가 너무 부러웠다. (데이터 분석 관련 전공자) 프로젝트명은 "데이터로 같이, 가치있게(With Value)! 데이톤십 해커톤 제5..

이전에도 배웠던 적이 있는 K-NN 기법에 대해서 자세히 알아보도록 하자. K-NN (K-Nearest Neightbor) 입력과 결과가 있는 데이터들이 주어진 상황에서 , 새로운 입력에 대한 결과를 추정할 때, 결과를 아는 최근접한 k개의 데이터에 대한 결과 정보를 이용하는 방법이다. 데이터 간의 거리를 계산해서, 효율적으로 근접한 이웃을 탐색 후 이 탐색한 근접 이웃 k 개로부터 결과를 추정하게 된다. 분류(Classification) 알고리즘에 속한다.4 여기서 사용되는 데이터 간의 거리는, 유클리디언 거리(Euclidian Distance) 이다. 즉, 직선 거리를 사용한다. 최근접 k개로부터 결과를 추정하는 방법은, 분류와 예측(회귀) 가 있는데, 차이는 이와 같다. 구분 분류 예측(회귀) 목적..

Clustering 을 실습해보자. Mall_Customer 데이터를 이용한 Clustering 실습 전처리(Preprocessing) & EDA 먼저, 필요한 라이브러리들을 import 해주자. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.use('seaborn') sns.set_palette("hls") import warnings warnings.filterwarnings('ignore') import os if os.name == 'nt' : # windows OS font_family = "Malgun Gothic" else : #Mac OS font_fam..

이전에는 텍스트 마이닝의 토큰화, 불용어 제거, 어간추출, 표제어 추출을 알아보았다. https://wndofla123.tistory.com/50 텍스트 마이닝(Text Mining) - 텍스트 전처리 - 불용어 제거, 어간추출(Stemming), 표제어추출(Lemmatization 저번시간에는 텍스트 전처리의 토큰화(Tokenize) 에 대해 알아보았다. https://wndofla123.tistory.com/49 텍스트 마이닝(TEXT MINING) - 텍스트 전처리 - 토큰화(Tokenize) 텍스트마이닝 시작! 텍스트 마이닝 (Te.. wndofla123.tistory.com 품사 태깅 품사란, 명사,대명사,수사,조사,동사,형용사,관형사,부사,감탄사와 같이 공통된 성질을 가진 낱말끼리 모아 놓은 ..

이전에는 회귀모델들에 대해 알아보았다. 회귀가 궁금하다면 여기로 https://wndofla123.tistory.com/43 Python으로 배우는 데이터분석 이해 - 회귀분석 (Regression Analysis) 설명 회귀분석 (Regression Analysis) 회귀분석이란, 하나 혹은 그 이상의 원인(독립변수)이 결과(종속변수)에 미치는 영향을 추정하여 식으로 표현할 수 있는 통계 기법이다. 변수 사이의 인과관계를 분석 wndofla123.tistory.com 오늘은 회귀와는 좀 다른 분류 알고리즘에 대해 알아보자. 분류 알고리즘 먼저 분류 (Classification) 란, 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 기법으로, 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그..

드디어 전처리가.. 끝나간다...! Intro 전처리에 대해 배우고 있다. 전처리란 데이터에서 중요한 요소를 뽑아내고, 데이터의 다양성과 데이터 형태의 품질을 확보하는 것이다. 데이터 전처리 과정에는 데이터 정제와 분석변수처리가 있는데, 우리는 분석변수처리에 대해 공부하고 있다. 분석변수처리에는 데이터 축소, 파생변수 생성, 데이터 변환, 불균형 데이터 처리가 있다. 이전 시간에는 불균형 데이터를 처리하는 법에 대하여 알아보았다.불균형 데이터를 처리하는 방법에는 오버샘플링과, 언더샘플링이 있었다. 직전에는 오버샘플링(OverSampling) 을 진행했다.오버 샘플링은 낮은 클래스의 데이터를 높은 클래스의 데이터 양만큼 데이터 수를 늘려서비율을 맞추어 주는 것이다. https://wndofla123.tis..