일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 2023공공빅데이터청년인재양성
- 공빅
- 공빅데
- ADSP
- 오버샘플링
- ML
- textmining
- 텍스트마이닝
- 클러스터링
- DL
- 2023공공빅데이터청년인재양성후기
- 2023공빅데
- k-means
- 머신러닝
- datascience
- 분석변수처리
- machinelearning
- 데이터전처리
- ADsP3과목
- 공공빅데이터청년인재양성
- data
- 데이터분석
- 빅데이터
- DeepLearning
- decisiontree
- 공공빅데이터청년인턴
- Keras
- NLP
- Kaggle
- SQL
- Today
- Total
愛林
R로 배우는 통계 기초 이론 본문
고등학교 때 배운 확통 이후로는 통계를 접해 본 적이 없던 나..
통계 공부 시작하자 ..
1. 통계학의 중요 용어와 개념
모집단(Population) : 정보를 얻고자 하는 관심 대상의 전체 집합을 말함
표본(Sample) : 전체 집합의 데이터를 수집하는 것이 불가능하여 모집단 데이터의 일부만 수집한 것.
아무래도 전체 모집단은 큰 경우가 많기 때문에 .. 전수조사가 힘들 경우 표본을 추출해서 데이터를 수집한다.
여기서 모집단의 특성을 수치로 나타내면 모수(Parameters),
표본의 특성을 수치로 나타낸 것은 통계량 (statistic) 이라고 한다.
양적 변수 : 크기, 무게, 점수, 인구 수 등 수치로 나타낼 수 있는 변수.
양적 연수는 다시 연속형 변수, 이산형 변수가 있다.
연속형 변수는 주어진 범위 내에서 모든 연속적인 값을 취할 수 있는 변수. 그러니까 실수(0.0003 등이 가능)이고,
이산형 변수는 정수값만 취할 수 있는 변수이다. (주문 수량, 자녀 수 등 1 단위로 떨어지는 것)
질적 변수 : 수치로 나타낼 수 없는 변수.
성별, 거주지 등등 숫자적인 의미를 가지고 있지 않는 변수를 말한다.
2. 측정수준
측정을 할 때는 측정수준을 정확하게 아는 것이 중요한데, 이는 측정 수준에 따라서 분석하는 방법이 달라지기 때문이다.
명목척도, 서열척도, 구간척도, 비율척도가 있다.
명목 척도(nominal scale) : 관측 대상의 특성을 분류하는 척도이다. 위에서 말한 질적변수(성별, 거주지, 직업) 의 분류이다.
데이터 관리의 편리를 위해서 남자는 1, 여자는 2 등의 숫자로 표현이 가능하지만, 숫자로서의 크기를 갖는 데이터는 아니므로
정렬이나 사칙연산 등에 이용할 수 없다.
서열척도 Or 순서척도(ordinal scale) : 크고 작음 등 순서가 표현되는 척도로 정렬에 이용할 수 있지만, 사칙연산에는 이용이 불가능.
등급이나 석차 등이 이에 해당한다. Xs, S, M, L ,XL 등 옷 사이즈가 여기에 해당이 된다.
등간척도 or 구간척도(interval scale) : 측정 대상의 순서 뿐만 아니라 순서 사이의 간격을 알 수 있다.
차이를 계산할 수 있는 척도이지만 비율은 크게 의미가 없다. 이 예로 온도를 들 수 있다.
온도는 10도 20도의 차이가 계산이 가능하지만, 20도가 10도보다 두 배 더 더운 것은 아니므로, 비율은 의미가 없다.
비율척도(ratio scale) : 구간척도의 특징에 추가로 데이터 간 비율 계산도 가능한 척도로, 모든 통계적 분석이 가능하다.
명목, 서열, 간격, 비율까지 모두 계산이 가능하다. 무게, 거리, 자녀 수 등이 있다.
3. 데이터 추출의 방법
단순 랜덤 추출, 계통추출, 층화추출, 집락추출이 있다.
단순랜덤추출(Simple Random Sampling) : 모집단 전체 데이터에서 각 데이터가 표본으로 선택될 확률을 동일하게
갖도록 설계하는 표본 추출 방법이다. 가장 단순하지만 모든 개체가 확인이 되어야 하기 때문에 비용이 많이 들고, 실현 가능성이 적다.
복원 추출, 비복원 추출이 있다.
계통추출(Systematic Sampling) : 첫 번째 요소를 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집 방법이다.
주기성을 가지고 있는 경우, 매우 편향된 표본을 얻을 수 있다.
층화 추출(Startified Sampling) : 모집단을 먼저 중복되지 않도록 층으로 나눈 다음, 각 층에서 표본을 추출하는 방법이다.
각 층으로부터 표본을 추출할 때 단순임의추출 방법을 쓸 수도 있고 계통 추출 등 다른 추출 방법을 쓸 수 있다.
집락추출(Clster Sampling) : 임의로 몇 개의 집단을 골라 표본을 임의로 추출하는 방법이다.
모집단이 몇 개의 집단으로 구성되어 있는 경우에 사용할 수 있다. 각 단게의 집단은 모두 동일하다고 본다.
층화추출은 20대 계층, 30대 게층 등 집단이 다르지만, 집락추출은 모든 집단을 동일하게(예를 들면 20대,30대 비율이 적절하게 섞여져있는 여러 개의 집단, 근데 여기서 뽑은 데이터는 연령대와 관계가 없어야겠지 ..) 취급한다.
1. 평균(mean, 산술평균)
평균은 주어진 수의 합을 수의 개수로 나눈 값이다. 양극단값의 영향을 많이 받는것이 특징이다.
모집단의 평균은 μ 로 나타내고,
표본의 평균은 x바 로 나타낸다.
2. 중앙값 (median)
어떤 주어진 값을 크기 순서대로 정렬했을 때, 가장 중앙에 위치하는 값이다.
3. 최빈값 (mode)
가장 많이 관측되는 수이며, 주어진 값 중에서 가장 자주 나오는 값이다.
4. 분산도
범위(Range) : 단순하게 최대값과 최소값의 차를 나타내는 값이다. 분포의 양상은 설명하지 못한다.
평균편차(mean deviation) : 절대 편차라고도 부르며, 평균과 개별 관측값 사이 거리의 평균이다.
분산(variance) : 각 관측값에서 전체 평균을 뺀 값의 제곱 평균을 말한다.
데이터가 얼마나 흩어져있는 지에 대한 척도를 보여준다.
변화가 얼마나 크고 작은 지에 대해 알 수 있다.
가령, 평균은 같을 지라도 분산이 더 큰 경우, 변화 폭이 크다는 것을 알 수 있다.
표준편차(standard devation) : 편차를 제곱하면 단위가 없어지는 분산의 단점을 해결하기 위해서 분산에 제곱근을 하여
원래 단위로 돌리기 위한 값이다. 그냥 분산에 루트 해주면 된다.
확률 이론
1. 확률 개념
확률이 100%에 가까울 수록 발생할 가능성이 많은 것이고, 확률이 0%에 가까울 수록 발생할 가능성이 없다는 의미이다. (당연함)
발생할 가능성이 있는 전체 경우의 수를 부분 집합인 사건 A 경우로 나누어서 계산한다.
동등발생정의 : 2가지 경우의 수가 있을 때, 각각이 나올 가능성이 동일하다는 가정(동전의 앞뒤 확률이 같은 경우)
경험적 확률 : 모의 실험을 수없이 반복하여 구한 확률
사건B가 일어났을 때,A의 조건부 확률 : 두 사건 A, B에 대하여 B가 일어났다는 조건에서 사건 A가 일어날 확률
종속 사건(dependent event) : 한 사건의 발생이 다음에 발생할 사건에 영향을 주는 경우
독립 사건(independent event) : 처음에 어떤 결과가 나왔느냐 하는 것이 다음에 발생할 사건에 영향을 주지 않는 경우
이산확률변수 : 표본 공간에서 모든 사건을 정수와 일대일로 대응할 수 있는 변량을 가지는 변수.
가령, 동전을 세 번 던져서 앞면이 나오는 횟수는 0,1,2,3 중 하나의 변량을 가지게 되므로 이는 이산확률변수이다.
이산확률변수가 가지는 확률분포를 이산확률분포(discrete probability distribution) 이라고 한다.
연속확률변수 : 어떤 구간의 모든 실수값을 가지는 확률변수
연속확률변수가 가지는 확률분포를 연속확률분포(continuous probability distribution) 이라고 한다.
확률밀도함수라는 것을 통해 분포를 알 수 있다. 함수 f(x) 의 식으로 나온다.
여기서 확률은 어떤 구간의 넓이. 면적으로 나온다.
기대값 : 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값으로 어
떤 확률적 사건에 대한 평균이다.
만약, 동전이 한 번 던져서 앞면이 나오면 친구에게 500원을 주기로 하고, 뒷면이 나오면 내가 1000원을 받기로 한다.
이 때 동전을 던졌을 때의 기대값은
앞면확률 * -500 + 뒷면확률 * 1000 이다.
0.5 * -500 + 0.5 * 1000 = 250 이므로 기대값은 250원이 된다.
정규분포와 표준화
1. 정규분포(normal distribution)
가우시안 분포라고도 부르며 연속확률분포 중에 하나이다.
정규분포 모양은 평균과 표준편차에 의해서 결정된다.
정규분포의 특징은
1) 정규분포 모양은 평균과 표준편차에 의해서 결정된다.
2) 평균을 중심으로 좌우대칭인 종모양이다.
3) 양극단으로 갈수록 X축에 무한하게 근접하지만 X축에 닿지는 않는다.
4) 분포의 평귡과 표준편차가 어떤 값을 갖더라도, 정규분포의 곡선과 축 사이의 전체 면적은 1이다.
5) 관찰값의 99.7%가 +- 3시그마 안에 속해있다.
중심극한정리
'모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다.'
한 번 추출한 표본의 수가 클수록 정규분포의 중심은 모집단의 평균 값에 가까워진다. (진짜 당연함)
표준화 : 값의 스케일이 다른 두 변수가 있을 때, 스케일 차이를 제거하고, 각 관측값이 평균을 기준으로
얼마나 떨어져 있는지를 나타낼 때 사용한다. 예를 들어, 모의고사에서 과목별 난이도가 다름에도 점수 평균이 동일하게
평가 되는 문제를 해결한다.
● 표준화의 과정
1) 원래 값에서 평균을 뺀다. (중심화 시켜주는 과정)
같은 점수라도 어느 쪽이 상대적으로 평균보다 크고 작은 값인지 확인이 가능하다.
예시 : 각 학생의 과학점수 - 과학평균
각 학생의 국어점수 - 국어평균
2) 1)의 결과값을 표준편차로 나누어준다. (단위를 같게 만들어주는 과정)
척도화(scaling) : 얼마나 평균에서 먼 값인지 상대적인 척도로 계산한다.
표준정규분포(standard normal distribution)
정규분포를 표준화한 것이다.
평균이 0이고, 표준편차가 1인 정규분포이다.(0, 1^2)
X대신에 Z를 확률변수로 쓰기 때문에 Z-분포 라고도 한다.
가설 검정
통계적 가설 : 통계학에서 사용하는 용어로, 하나의 특정 주장을 모수를 이용해서 나타낸 형태를 지칭한다.
sample data의 가설로 모수에 대해 다시 적용하는 것이다.
귀무가설(null hypothesis, H0) , 영가설 : 통계학에서 처음부터 버릴 것을 예상하는 가설
처음부터 진실로 하는, 통상적으로 믿고 있는 가설들.
ex : '새로운 감기 치료제로 치료한 환자의 평균 치료 기간에 변화가 없다.'
대립가설(alternatvie hypothesis, H1), 연구가설 : 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용.
ex : '새로운 감기 치료제로 치료한 환자의 평균 치료 기간에 변화가 있다.'
단측 대립가설 : 관련성을 검정할 때, 그 방향이 어느 한쪽으로 미리 결정되어 있는 경우
양측 대립가설 : 차이가 존재하는가 ? 라는 면에서만 관심을 보이고, 그 방향을 따지지 않는 가설이다.
귀무가설을 채택할 시에 대립가설은 기각되게 되고, 귀무가설을 기각 시에는 대립가설이 채택된다.
유의확률(Significance probability, p-value) : 실제로는 차이가 없는데 우연히 집단 간의 차이가 있는 데이터가 추출되었을 확률
유의 확률이 크면, 집단 간 차이가 통계적으로 유의하지 않다. 라는 해석이 되어 귀무가설이 채택된다.
유의확률이 작다면, 집단 간 차이가 통계적으로 유의하다. 라는 해석으로 대립가설이 채택된다.
유의확률의 판단 기준은 유의수준(significance level) 로 판단하는데, 일반적으로 0.05로 사용한다.
1-유의수준(1-a) 가 신뢰구간 또는 신뢰기준이다.
0.05 가 유의수준이라면 95%의 신뢰 수준을 기준으로 한다는 의미이다.
가설 검정은 모집단에 대한 가설을 설정한 후, 표본 관찰을 통해서 그 가설의 채택 여부를 결정하는 분석방법이다.
귀무가설과 대립가설 중에 하나를 선택하는 과정이다.
귀무가설이 옳다는 전제하에 p-value 를 구한 후, 유의수준보다 p-value 가 크면 귀무가설을 채택하고, 작으면 대립가설을 채택.
T-검정
t-검정(t-test) : 두 집단이 유의하게 차이가 있는지를 판별할 때 표본의 평균값을 활용하는 검정이다.
관찰 대상 전체에 해당하는 모집단의 관측값을 수집하는 것을 불가능한 경우가 대다수이므로 표본을 추출하고,
그 표본의 평균을 이용해서 모집단 간 차이를 검증한다.
비교 대상이 같은 경우 - > 대응 이표본 t-검정 시행
비교 대상이 다른 경우 - > 독립 이표본 t-검정 시행
하나의 모집단에서 추출한 표본으로 모집단의 모수를 추정한다. -> 일표본 t- 검정
t-검정의 과정
1) t-value 와 자유도(n-1) 을 구한다. (n : 표본의 수)
2) 자유도(n-1)의 t-분포를 구한다.
3) t-분포에서 t-value 의 위치를 찾아서 p-value 를 계산한다.
4) p-value(유의확률) 를 유의수준(0.05)와 비교한다.
여기서, 유의수준이 0.05라면, 5%를 기준으로 하여 특이케이스로 판단한다는 의미이다.
예시로, 다이어트 약에 대한 효과를 판정한다면
p-value(우연히 몸무게가 빠진 결과가 나왔을 확률) 가 0.02라면 다이어트 약을 먹지 않은 사람들 중
우연히 몸무게가 빠진 사람들이 2%정도만 발생하고,
98%에는 발생하지 않는 케이스로 판단이 가능하다.
(우연히 -2kg정도는 빠질 수 있다 = p-value 이므로 -3kg 이상은 빠져야 우연이 아닌 결과라고 할 수 있다.)
즉, t-value와 비교했을 때, 다이어트 약을 복용하지 않은 자연스러운 체중 감소 현상이라고 보기 어려우므로
이 다이어트약은 효능이 있다고 말할 수 있다.
p-value 가 0.02로 유의수준 0.05보다 작으므로, 귀무가설은 기각되고, 대립가설이 채택된다.
'이 다이어트 약은 효과가 있다.' = 대립가설
ANOVA(analysis of variance,분산분석) : 집단 간 차이를 검정하는데 표본의 분산을 활용하는 검정
세 개 이상의 집단을 비교해서 집단 간, 집단 내 분석을 비교할 때 쓰인다.
일원분산분석 (One-way ANOVA) 는 종속변수가 1개이며, 범주형 독립변수도 1개인 경우이다.
한 가지 변수의 변화가 종속변수에 미치는 영향을 보기 위해 사용한다.
예시로, 학력에 따른 소득 정도의 차이를 검정하고자 할 때, 소득은 종속변수, 학력은 독립변수(or 설명변수)
무학력/초졸/중졸/고졸/대졸/석사 등등 학력별로 집단을 나누면 3개 이상의 집단(열)이 생긴다.
이원분산분석(Two-way ANOVA) 는 범주형 독립변수가 2개 이상일 때, 집단 간 차이가 유의한 지를 검증하는 데 사용된다.
예시로, 타이타닉 호의 생존률 차이를 분석할 때, 생존률은 종속변수이고, 독립변수로 1등칸/2등칸/3등칸/기타의 객실 등급 변수와
남/여 성별변수, 승무원/승객의 변수 , 성인/어린이 변수 등을 사용할 수 있다.
집단 간 분산과 집단 내 분산의 비를 f-value(f 통계량) 이라고 하고 이를 f-검정에서 활용한다.
분산분석의 기본 가정
1) 각 집단에 해당되는 모집단의 분포가 정규분포다.
2) 각 집단에 해당되는 모집단의 분산이 같다.
3) 각 모집단 내에서의 오차나 모집단 간의 오차는 서로 독립적이다.
f-검정의 과정
1) f-value와 자유도(n-1)을 구한다.
2) 자유도(n-1)의 f-분포에서 f-value의 위치를 찾아 p-value를 계산한다.
3) p-value의 값을 유의수준(0.05) 와 비교한다.
가설검정의 결과와 오류
1종 오류 : 귀무가설이 사실인데 귀무가설을 기각했을 때의 오류
2종 오류 : 대립가설이 사실인데 귀무가설을 채택했을 때의 오류
'Data Science > 통계' 카테고리의 다른 글
[Python/statistics] 카이제곱 검정(Chi Square test , 교차분석) (2) | 2022.07.30 |
---|---|
[Python/Statistics] 기초통계실습 - 기술 통계(Descriptive Statistics) (3) | 2022.07.20 |
통계 기초 이론 (2) (2) | 2022.06.20 |
통계 기초 이론 (1) (0) | 2022.06.19 |