일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터분석
- 2023공빅데
- SQL
- 텍스트마이닝
- datascience
- decisiontree
- DeepLearning
- NLP
- ML
- ADSP
- 공공빅데이터청년인재양성
- 데이터전처리
- 공공빅데이터청년인턴
- 분석변수처리
- Keras
- ADsP3과목
- 공빅데
- 클러스터링
- Kaggle
- 빅데이터
- 2023공공빅데이터청년인재양성후기
- k-means
- 머신러닝
- 2023공공빅데이터청년인재양성
- 오버샘플링
- 공빅
- data
- textmining
- DL
- machinelearning
- Today
- Total
愛林
ADsP 3과목 정리 (1) 본문
3과목 너무 많아서 쪼개서 올려야 겠다는 생각.
3과목 정리 (1)
■ 데이터 분석 처리 기법의 이해
- 대기업은 데이터 웨어하우스(DW) 나 데이터 마트(DM) 을 통해 데이터를 가져와서 사용한다.
- 신규 시스템이나 DW 에 포함되지 못한 자료의 경우, 기존 운영 시스템이나 스테이징 영역, ODS에서
데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다. - 그러나 기존 운영 시스템에 직접 접근하는 것은 위험하고, 스테이징 영역의 데이터는 똫한 운영 시스템에서 임시로
저장된 데이터이기 때문에 가급적이면 클린징 영역인 ODS에서 데이터 전처리 후 DW와 DM 에
결합하여 활용하는 것이 좋다.
■ R
R에서는 이상값을 주의 깊게 보고, 이후에는 분석 기법별 R 코드를 해석할 줄 알면 되는 것 같으므로
자세한 함수들은 안 다루어야지 ..
summary() 기억, melt() , cost() 를 이용하여 표준형식으로 변환할 수도 있다.
R에서 SQL문을 쓰기 위해서 sqldf 라는 함수를 쓴다.
plyr이라는 함수는 apply 함수에 기반하여 데이터와 출력변수를 동시에 배열로 치환하는 패키지이다.
data.table 패키지는 R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나이다.
큰 데이터를 연산,탐색,병합 하는 데에 아주 유용하다.
data.frame 보다 월등하게 빠른 속도이다.
특정 column 을 key 값으로 색인 지정 후 데이터를 처리한다.
빠른 그룹핑, ordering, 짧은 문장 지원 측면에서 데이터프레임보다 유용하다고 볼 수 있다.
● 이상값
- ESD
평균 - 3*표준편차, 평균 + 3*표준편차 밖의 값을 이상값이라고 정의하여 처리할 수 있다. - Q1 - IQR*1.5 , Q3 + IQR*1.5 밖의 값들을 이상값이라고 정의하여 처리할 수 있다.
IQR = Q3 - Q1 이다. - 기하평균 +- 2.5 표준편차
이상값도 분석 대상이 될 수 있기 때문에 무조건적인 삭제는 위험하다.
Boxplot() 으로 이상치의 존재를 확인한다.
IQR길이, 최소, 최대, 1사분위, 3사분위, 중위값을 확인할 수 있다.
NA 는 제거하고 그려지며, Boxplot 은 평균을 알려주지 않는다는 것을 기억하자.
이상값은 Complete Analysis (결측값 레코드 삭제), 평균 대치법, 단순확률대치법이 있다.
단순확률대치는 평균대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법이다.
Hot-Deck, Nearest Neighbor 등이 있다.
■ 통계분석
통계란, 특정 집단을 대상으로 수행한 조사나 실험이다.
총 조사(전수조사) 와 표본조사가 있으며 , 보통은 표본조사를 실행한다.
1. 기술 통계 (Descriptive Statistic)
주관이 섞일 수 있는 과정을 배제하고 통계 집단들의 여러 특성을 수량화하여 객관적인 데이터로
나타내는 통계 분석 방법론이다.
평균, 중위수, 최빈값, 왜도, 첨도 등이 있다.
최빈값 중앙값, 평균 순이다.
평균이 제일 낮은 언덕에 위치한다.
2. 추론 통계 (Inference Statistic)
수집된 자료를 이용해서 모집단을 추정하는 것이다.
모수추정, 가설 검정, 예측 등이 있다.
표본조사
- 모집단(Population) : 조사하고자 하는 집단 전체
- 원소(Element) : 모집단을 구성하는 개체
- 표본(Sample) : 조사하기 위해 추출한 모집단의 일부 원소
- 모수(Parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
표본 추출 방법
- 단순 랜덤 추출법 (Simple Random Sampling)
각 샘플에 번호를 부여하여 임의의 n개를 추출한다. 각 sample 은 선택될 확률이 동일하다.
복원 & 비복원 추출이 가능하다. - 계통 추출법 (Systematic Sampling)
번호를 부여한 샘플을 나열하여 k개씩 n개의 구간으로 나누고 구간마다 k개씩 띄워 n개의 샘플을
추출한다. - 집락 추출법 (Cluster Random Sampling)
군집을 나눈 후 군집별로 단순랜덤추출을 수행한다.
이 군집은 집단 간의 차이가 없다. - 층화 추출법 (Stratified Random Sampling)
모집단에서 성질을 가지는 층으로 구별 후 각 층에서 랜덤 추출한다.
이 군집은 집단 간의 차이가 있다. 집단 내의 차이가 없음
측정방법
- 명목척도 : 측정 대상이 어느 집단에 속하는 지 분류할 때 사용한다.
- 순서척도 : 측정 대상의 서열 관계를 확인하는 척도, 대소는 존재하기에 순위는 정해진다.
- 구간척도 (등간척도) : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이
의미가 있다. 더하기 빼기는 가능하나, 나누기와 곱하기가 의미가 없다.
절대기준 0 이 존재하지 않는다. Ex : ) 온도, 지수 - 비율척도 : 절대기준 0이 존재한다. 사칙연산이 가능하고 가장 많은 정보를 가진다.
확률분포
확률값은 0과 1 사이에 있다.
확률변수란, 특정값이 나타날 가능성이 확률적으로 주어지는 변수이다.
정의역이 표본공간, 치역이 실수값인 함수이다.
0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형, 연속형으로 구분된다.
시그마 붙어있으면 이산형, ∑
적분기호 붙어있으면 연속형이다. ∫
1. 이산형 확률 변수
0이 아닌 확률값을 갖는 확률변수를 셀 수 있는 경우.
확률질량함수라고 한다.
- 베르누이 확률분포
결과가 2개만 나오는 경우. 참/거짓, 합격/불합격
P(X=x) = P^x * (1-P)^(1-x) (x = 1 or 0)
E(x) = P, var(x) = P*(1-P) - 이항분포
베르누이 시행을 n번 반복했을 때 k번 성공할 확률이다.
E(x) = np 이다. - 기하분포
성공확률이 P 인 베르누이 시행에서 첫 번째 성공이 있기까지 X번 실패할 확률이다. - 초기하분포
- 다항분포
이항분포의 확장으로, 3가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포이다. - 포아송 분포
시간과 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률분포이다.
정해진 시간 내에 어떤 사건이 일어날 횟수에 대한 기대값에 초점을 둔다.
2. 연속형 확률 변수
가능한 값이 실수의 특정구간 전체에 해당하는 확률변수이다.
- 균일 분포 (일양 분포)
모든 확률변수 x가 균일한 확률을 가지는 확률분포이다. - 정규분포
종 모양의 그래프를 가진다.
중간에는 평균값을 나타내며, 표준편차, 분산이 큰 경우 그래프는 퍼져보인다. - 지수분포
어떤 사건이 발생할 때까지의 경과 시간에 대한 연속확률분포이다.
ex: 전자레인지 수명 기간 .. - t-분포
표준정규분포와 같이 평균 0 을 중심으로 좌우가 동일한 분포를 따른다.
표본이 커져서 자유도가 증가하면 표준 정규 분포와 거의 같은 분포가 된다.
데이터가 연속형인 경우 활용하며, 표본을 많이 뽑지 못한다의 대응책으로 정규분포보다 범위가 넓다.
표본의 개수에 따라서 그래프 모양이 변한다.
표본 수가 적을 때 사용하며, 신뢰구간, 가설설정에 이용된다.
두 집단의 평균이 동일한 지 알고자 할 때 검정 통계량으로 이용된다. - 카이제곱 분포
모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포이다.
두 집단 간 동질성 검정에 활용된다. - F-분포
두 집단간 분산의 동일성을 보여주는 검정 통계량이다.
확률 변수는 항상 양의 값만을 갖고, 자유도가 카이제곱과 달리 2개이며 ,
자유도가 커질수록 정규분포에 가까워진다.
■ 추정과 가설검정
추정
추정은, 표본으로부터 미지의 모수를 추측하는 것이다.
추정은 점추정과 구간추정으로 구분된다.
점추정은 모수가 특정한 값일 것이라고 추정하는 것이고.
구간추정은 모수가 특정한 구간에 있을 것이라고 추정하는 것이다.
분포에 대한 전제가 주어져 있어야 하고, 구간 안에 모수가 있을 가능성의 크기 (신뢰수준) 가 필요하다.
표본의 크기가 커질수록 신뢰구간의 길이는 줄어들게 된다.
점 추정량을 구하는 방법으로는
적률법, 최대가능도추정법(최대우도법), 최소 제곱법이 있다.
최대 가능도 추정법은 함수를 미분하여 기울기가 0인 위치에 존재하는 MLE 를 찾는 방법이며,
최소제곱법은 함수값과 측정값의 차이인 오차를 제곱한 합이 최소가 되는 함수를 구하는 방법이다.
가설검정
가설검정은 모집단에 대해서 어떤 가설을 설정한 뒤 표본 관찰을 통해서 그 가설의 채택여부를
결정하는 것이다. 귀무가설과 대립가설 중 하나를 선택한다.
- 귀무가설 : 비교값과 차이가 없다는 기본개념. H0 이다.
- 대립가설 : 뚜렷한 증거가 있을 때 주장하는 가설이다. H1
- 검정 통계량 : 관찰 표본으로부터 구하는 통계량이며, 가설 판단의 기준이 된다.
- 유의수준 : 귀무가설을 기각하게 되는 확률의 크기이다.
"귀무가설이 옳음에도 불구하고 이를 기각하는 확률의 크기" 이다. - 기각역 : 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 a 인 부분이다.
t분포에서 유의수준에 해당한다. - 제 1종 오류 : 귀무가설이 사실임에도 불구하고 귀무가설이 귀각된 오류
- 제 2종 오류 : 귀무가설이 사실이 아님에도 불구하고 귀무가설이 채택된 오류"
- 유의 확률 : 제 1종 오류를 범할 확률. p-value 라고 한다.
- 모수적 검정
검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과
검정 통계량의 분포를 유도하여 검정을 실시한다.
표본 평균 & 표본 분산 등을 이용하여 검정한다.
정규분포여야 하며, 등간 & 비율척도를 검정할 때 사용한다. (등분산) - 비모수적 방법
자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시한다.
모집단에 대한 가정을 하지 않는다. 오직 분포의 형태에 대해서만 설정한다.
관측된 자료가 특정 분포를 따른다고 가정할 수 없을 때 사용한다.
관측값의 순위나 두 관측값 차이 부호 등을 사용하여 검정한다.
ex : 부호검정, 스피어만 순위상관계수, U감정, 런검정.. 카이제곱, 사인검정...
■ T 검정
평균값이 올바른지, 두 집단의 평균 차이가 있는 지에 대해서 검증하는 방법으로 t값을 사용한다.
t값이 커질수록 p-value 는 작아지며, 집단간 유의한 차이를 보일 가능성이 높아진다.
- One - Sample t-test . 단일 표본 t-검정
단일 표본의 평균 검정을 위한 방법이다. - Paired t-test . 대응 표본 t-검정
동일 개체에 어떠한 처리를 하기 전, 후의 자료를 얻을 때 차이 값에 대한 평균검정을 위한 방법이다.
가능한 동일한 특성을 갖는 두 개체에 서로 다른 처리를 하여 그 처리의 효과를 비교한다. - Two - sample t-test . 독립 표본 t-검정
서로 다른 두 그룹의 평균을 비교하여 두 표본 간이 차이가 있는 지 검정하는 방법이다.
귀무가설 - 두 집단 평균의 차이가 없다. ex : 2학년과 3학년의 결석률은 같다.
■ 데이터 정규성 검정
- Q-Q Plot
그래프를 그려서 정규성 가정이 만족되는 지 시각적으로 확인하는 방법
대각선 참조선을 따라 값들이 분포하게 되면 정규성을 만족한다. - Histogram
구간별 도수를 그래프로 표시하여 시각적으로 정규분포를 확인하는 방법 - Shapiro - Wilk test
오차항이 정규분포를 따르는 지 알아보는 검정
귀무가설은 정규분포를 따른다로 하여 p-value 가 0.05보다 크면 정규성을 가정하게 된다.
회귀분석에서 모든 독립변수에 대해 종속변수가 정규분포를 따르는 지 알아보는 방법. - Kolmogorov-Smirnov test
K-S Test, 두 모집단의 분포가 같은 지 검정하는 것.
p-value 가 0.05보다 크면 정규성을 가정하게 된다.
■ 기술 통계
자료의 특성을 표, 그림, 통계량을 사용하여 쉽게 파악할 수 있도록 정리/요약한다.
통계량에 의한 자료 정리
- 중심 위치 측도
- 산포의 측도
- 분포 형태에 관한 측도
왜도 , 첨도
왜도는 입 벌린 쪽으로 두툼해져있다.
첨도는 클수록 뾰족하다.
인과 관계의 이해
- 종속변수 : 영향을 받는 변수
- 독립변수 : 영향을 주는 변수
- 산점도 : 점들로 표현한 그래프
- 공분산 (Covariance)
두 확률변수 X,Y 의 조합 (선형성) 이다.
공분산의 부호 안으로 두 변수 간의 방향성을 확인할 수 있다.
+는 양의 방향성, - 는 음의 방향성이다.
이를 -1과 1 사이로 표준화시킨 것이 상관계수이다.
독립이면 Cov(x,y) = 0 이다.
상관분석
위의 공분산을 표준화 시킨 것이 상관계수인데, 이 상관계수를 사용하여 하는 분석이 상관분석이다.
- 피어슨 상관계수
등간척도 이상으로 측정된 두 변수들의 상관 관계 측정 방식이다.
연속형 변수이고 정규성을 가정한다.
대부분 많이 사용하는 상관계수. - 스피어만 상관계수
서열척도인 두 변수들의 상관관계 측정 방식이다.
순서형 변수이며 비모수적 방법을 사용한다.
순위를 기준으로 상관관계를 측정한다.
순위상관계수를 사용한다.
상관계수가 0이면, 입력변수 x와 출력변수 y는 상관관계가 없다는 것을 의미한다.
t검정 통계량을 통해 얻은 p-value 가 0.05 이하인 경우,
대립가설을 채택하게 되어 우리가 얻은 데이터를 통해 구한 상관계수를 사용할 수 있게 된다.
'License > AdsP' 카테고리의 다른 글
35회 ADsP 합격 후기 (3) | 2022.11.22 |
---|---|
ADsP 3과목 정리 (2) (2) | 2022.10.21 |
ADsP 2과목 정리 (0) | 2022.10.17 |
ADsP 1과목 정리 (0) | 2022.10.17 |