| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 2023공빅데
- datascience
- 머신러닝
- 공빅데
- ADSP
- 텍스트마이닝
- DeepLearning
- 오버샘플링
- DL
- 공빅
- 공공빅데이터청년인턴
- Kaggle
- textmining
- 공공빅데이터청년인재양성
- decisiontree
- 데이터전처리
- machinelearning
- ML
- 데이터분석
- SQL
- 클러스터링
- data
- 2023공공빅데이터청년인재양성
- 분석변수처리
- Keras
- 빅데이터
- 2023공공빅데이터청년인재양성후기
- NLP
- ADsP3과목
- k-means
- Today
- Total
목록data (3)
愛林
House Prices Data Analysis www.kaggle.com/c/house-prices-advanced-regression-techniques House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 너무나도 유명한 House Prices Data 를 분석해보자. 내가 알기로는 Scikit Learn에서 제공하는 load 데이터에 보스턴 주택 가격 데이터가 있었던 걸로 알고 있는데, 그게 이 데이터랑 같은 지는 잘 모르겠다. 이번에도 다른 사람들의 코드를 참고하여 거의 필사 수준의 코딩을 했다. 나도 데이터분석 잘하고 싶어. 이 Competition 의 목적은 주어진 데이터로 집값을 예측하는 것이다. 데이터를 통해 각 요소..
이전에는 텍스트 마이닝의 토큰화, 불용어 제거, 어간추출, 표제어 추출을 알아보았다. https://wndofla123.tistory.com/50 텍스트 마이닝(Text Mining) - 텍스트 전처리 - 불용어 제거, 어간추출(Stemming), 표제어추출(Lemmatization 저번시간에는 텍스트 전처리의 토큰화(Tokenize) 에 대해 알아보았다. https://wndofla123.tistory.com/49 텍스트 마이닝(TEXT MINING) - 텍스트 전처리 - 토큰화(Tokenize) 텍스트마이닝 시작! 텍스트 마이닝 (Te.. wndofla123.tistory.com 품사 태깅 품사란, 명사,대명사,수사,조사,동사,형용사,관형사,부사,감탄사와 같이 공통된 성질을 가진 낱말끼리 모아 놓은 ..
이상값 (Outlier) 이상값은 데이터의 나머지 부분과 상당히 다른 데이터 요소 집합을 말한다. 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 극단값이다. 수집에서 문제가 생긴 Noise 와는 조금 다르다. (실무에서는 구별 안 한다고 한다.) 이상값의 유형에는 점 이상값(Point outlier), 상황값 이상값(Contextual outlier), 집단적 이상값(Collective outlier) 이 있다. 1) 점 이상값(Point outlier) : 다른 데이터와 비교하여 차이가 큰데이터가 발생하는 이상 2 ) 상황적 이상값 (Contextual outlier) : 상황에 따라 정상일 수도 있고 비정상일 수도 있는 데이터에 대해서 상황에 맞지 않는 데이터가 발생하는 이상 Ex ..