일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 공공빅데이터청년인턴
- data
- ADsP3과목
- datascience
- 공빅
- ML
- 머신러닝
- DeepLearning
- 클러스터링
- 데이터전처리
- 분석변수처리
- 데이터분석
- Keras
- 오버샘플링
- 공공빅데이터청년인재양성
- SQL
- k-means
- NLP
- 빅데이터
- ADSP
- 공빅데
- machinelearning
- DL
- 2023공공빅데이터청년인재양성
- textmining
- decisiontree
- 텍스트마이닝
- Kaggle
- 2023공공빅데이터청년인재양성후기
- 2023공빅데
- Today
- Total
목록Data Science/Machine Learning (18)
愛林

Optuna https://optuna.org/ Optuna - A hyperparameter optimization framework Optuna is an automatic hyperparameter optimization software framework, particularly designed for machine learning. It features an imperative, define-by-run style user API. optuna.org Machine Learning 에서 하이퍼 파라미터 튜닝은 모델의 성능을 결정짓는 매우 중요한 요소이다. 이 하이퍼 파라미터에 따라서 모델의 성능은 천차만별이 된다. 하이퍼 파라미터는 사용자가 직접 결정해야 하는 파라미터인 만큼 적절한 파라미터를 찾..

Pyod (Python Outlier Detection) https://github.com/yzhao062/pyod GitHub - yzhao062/pyod: A Comprehensive and Scalable Python Library for Outlier Detection (Anomaly Detection) A Comprehensive and Scalable Python Library for Outlier Detection (Anomaly Detection) - GitHub - yzhao062/pyod: A Comprehensive and Scalable Python Library for Outlier Detection (Anomaly Detection) github.com 머신러닝 대회에서 상위권을..

이상 탐지 (Anomaly Detection) 최근에 관심이 생긴 이상탐지 (Anomaly Detection) 에 대해 알아보자. 이상 탐지의 개념 이상 탐지 (Anormaly Detection) 이란, 예상되거나 기대되는 관찰값, item, event 가 아닌 데이터 패턴 (이상징후, anomalies) 을 찾아내는 것을 말한다. 이상값은 정상이 아닌 값이라고 할 수 있는데, 이 "정상" 이라는 것의 범주는 상황이나 분야마다 다르게 쓰일 수 있다. 이상치, 이상 징후 등으로 불리며, 영어로는 Anomalies, Outliers, Exceptions 와 같이 표현될 수 있다. 이상탐지는 다양한 산업 분야에 적용되며, IT보안, 의료진단, 제조공정의 모니터링 등에 이용된다. 자세한 적용사례로는 Cyber ..

음성 데이터 분석 (Sound Processing) https://wndofla123.tistory.com/94 [Python/DL] 음성 데이터 분석(Sound Processing) - (1) 음성 데이터 분석 (Sound Processing) 소리는 공기를 구성하는 입자들이 진동하며 만들어내는 현상이다. 정확하게 정의하자면, 어떠한 물체 또는 매질(Object)의 진동으로 인해 공기 입자들이 밀고 당 wndofla123.tistory.com 이전 글에서는 음성 데이터에 대한 간단한 소개와 기본적인 음파의 개념, wave 파일에 대해서 간략하게 말해보았었다. 이번에는 음성 파일 데이터에서 특징(Feature) 를 추출하는 방법인 푸리에 변환(Fourier transform) 과 스펙트럼(Spectrum..

음성 데이터 분석 (Sound Processing) 소리는 공기를 구성하는 입자들이 진동하며 만들어내는 현상이다. 정확하게 정의하자면, 어떠한 물체 또는 매질(Object)의 진동으로 인해 공기 입자들이 밀고 당겨지는 반복적인 과정(Oscilation)에서 생긴 파동(Wave) 이 진동으로 생긴 파동, 즉 음파가 우리의 귀를 때려 귀청을 울리면 그것이 우리가 듣는 소리가 된다. 공기의 진동을 측정할 때의 양적 기준을 음압(Sound Pressure) 라고 한다. 이 음압의 변화를 기록한 시계열 데이터를 우리는 사운드 데이터(Sound Data) 라고 한다. 이 음압의 변화를 나타낸 데이터 중 가장 간단한 형태가 사인 함수(Sine function) 이다. sin 함수는 3가지 특징을 가진다. 진폭(Amp..

분류 알고리즘에는 확률적 생성 모델과 확률적 판별 모델이 있다. 앞서서 살펴보았던 나이브 베이즈는 확률적 생성모델이었다. 확률적 생성모델은 y의 클래스 값에 따른 x의 분포에 대한 정보를 먼저 알아낸 후, 베이즈 정리를 이용하여 주어진 x에 대한 y의 조건부 확률 분포를 간접적으로 구하는 모델이었다. 확률적 판별모델은 직접 조건부 함수 모델을 추정하는 모델이다. 로지스틱 회귀와 의사결정나무가 여기에 해당하는데, 이번에는 제법 유명한 로지스틱 회귀에 대하여 알아보자. 로지스틱 회귀 (Logistic Regression) 로지스틱 회귀는 , 분석 대상이 여러 집단으로 나누어진 경우, 독립변수의 선형 결합을 이용하여 개별 관측치가 어느 집단에 속하는 지에 대한 확률을 계산하는 분류 기법이다. 보통 사건의 발생..

이전에는 분류에 대해서 알아보았다. https://wndofla123.tistory.com/48?category=1078831 분류 알고리즘 (Classification Algorithm), 분류 알고리즘의 종류 이전에는 회귀모델들에 대해 알아보았다. 회귀가 궁금하다면 여기로 https://wndofla123.tistory.com/43 Python으로 배우는 데이터분석 이해 - 회귀분석 (Regression Analysis) 설명 회귀분석 (Regression Analysi.. wndofla123.tistory.com 분류란, 변수의 범주를 예측하는 기법으로, 다수의 속성이나 변수를 가지는 객체들을 사전에 정해놓은 그룹이나 범주 중의 하나로 분류하는 것이다. 분류 알고리즘에는 나이브 베이즈, SVM, L..

저번 시간에는 배깅과 보팅에 대해서 알아보았다면, 배깅 https://wndofla123.tistory.com/67 [Python/MachineLearning] 앙상블 알고리즘 (Ensemble Algorithms) : 배깅 (Bagging) 이전에는 의사결정나무에 대해 알아보았다. 이번엔 앙상블 알고리즘에 대해 알아보자. 앙상블 알고리즘 (Ensemble Algorithms) 앙상블 알고리즘이란, 일련의 분류 기준을 구성한 후 예측 가중치 투표 wndofla123.tistory.com 보팅 https://wndofla123.tistory.com/68 [Python/MachineLearning] 앙상블 알고리즘 (Ensemble Algorithms) : 보팅 (Votting) https://wndofla..

랜덤 포레스트 (Random Forest) 랜덤 포레스트란, 여러 개의 결정 트리를 임의적으로 학습하는 방식의 앙상블 방법이다. Bagging 보다 더 많은 임의성을 주어서 학습기를 생성한 후, 이를 선형 결합하여 최종 학습기를 만드는 방법이다. (분류/회귀가 있다.) Bagging 처럼 데이터를 반복 복원추출을 진행할 뿐만 아니라, 거기에 더해서 변수 또한 random 하게 추출해서 다양한 모델을 만든다. 배깅 기법을 통해서 임의 복원추출되는 훈련용 데이터를 생성 후, 각각의 트리를 생성한다. 뽑을 변수의 개수는 분석가가 직접 선택해야 하는 하이퍼 파라미터이다. 예측 결과를 투표, 평균, 확률 등으로 종합해서 예측 결과를 도출해내는 모델이다. 의사결정나무가 하나의 큰 나무였다면, 랜덤포레스트는 하나의 ..

https://wndofla123.tistory.com/67 [Python/MachineLearning] 앙상블 알고리즘 (Ensemble Algorithms) : 배깅 (Bagging) 이전에는 의사결정나무에 대해 알아보았다. 이번엔 앙상블 알고리즘에 대해 알아보자. 앙상블 알고리즘 (Ensemble Algorithms) 앙상블 알고리즘이란, 일련의 분류 기준을 구성한 후 예측 가중치 투표 wndofla123.tistory.com 앙상블 알고리즘에 대한 지난 글. 지난 시간에는 여러 앙상블 알고리즘에 대해서 알아보고, 배깅을 실제로 실습해보았다. 앙상블 알고리즘이란, 일련의 분류 기준을 구성한 후, 예측 가중치 투표를 통해 새로운 데이터를 분류하는 방식이다. 주어진 데이터로부터 여러 개의 모델을 학습시..