愛林

통계 기초 이론 (1) 본문

Data Science/통계

통계 기초 이론 (1)

愛林 2022. 6. 19. 22:15
반응형

어제에 이어 계속되는 통계 기초 이론 ..

이 강사님은 되게 강의를 체계적으로 ? 교수님같이 잘 해주셨다. 근데 진짜 교수님인 것 같았음.

 


1. 통계학

 

어디서든 데이터가 수집되고, 그 정보를 유용하게 하기 위해서는 통계적 지식이 요구된다.

직업에 상관없이 세상을 이해하고 본인의 직업에 정통하기 위해서는 통계학 지식이 필요하다.

통계학은 결국 좀 더 효과적인 개인적 및 전문적 의사결정에 기여한다.

 

통계(statistic) 란, 수치적인 사실이며 분석의 대상이 되는 집단에 대해 실시한 조사나 실험의 결과로 얻은 결과치,

혹은 그 결과치들이 요약된 상태이다.

ex : 연간 물가상승률은 0.7%다. 

주가지수, 물가지수, 일기예보, 실업률, 대학 입시 경쟁률 등등 모두 통계이다.

 

통계학(statistics) 은 효과적인 의사결정을 도와주는 데이터의 수집, 정리, 표현, 분석 및 해석에 대한 과학이다. (의외로 과학 ?!)

불확실성 하의 의사결정이며, 주어진 자료에 근거하여 여러가지 자연현상 또는 사회 현상에 대한 보편 타당한

과학적인 추론과 불확실한 미래를 대비하기 위해 합리적인 의사결정을 도출하는 학문이다.

위에서 말한 통계를 가지고 의사결정을 하는 게 통계학이다!

ex : 연간 물가상승률은 0.7% 다. -> 통계학을 적용하여 올해의 물가상승률과 과거의 관측치들을 비교할 수 있다.

높아졌는지, 낮아졌는지, 아니면 비슷한지. 물가상승률의 증,감소 경향을 보고 미래를 예측할 수 있다.

 


2. 통계학의 종류

기술통계학(descriptive statistics) 과 추론통계학(inferential statistics)가 있다. 

 

기술통계학(Descriptive statistics) 은 데이터를 유용한 정보를 주는 방식으로 체계화하고, 요약하고, 표현하는 방법이다.

ex: 2014년 보통의 미국인은 전통적인 발렌타인데이 상품구입에 $133.91을 사용했다. 이는 2013년보다 $2.94가 증가한 것이다.

일 때, 평균데이터로 전반적인 미국인의 데이터를 요약한 것이라고 할 수 있다.

 

추론통계학(inferential statistics) 는 표본에 기반해서 모집단의 특성을 추정하기 위한 방법이며, 한정된 크기의

데이터인 표본(sample) 을 사용해서 의사결정을 하게 된다.

ex :) 2015년 11월 2일이 있는 주에 TV를 소유한 표본 가정의 9.0%가 빅뱅이론을 시청하였다.

이 측정치는 방송국이 TV시청자들의 선호도에 대한 표본조사를 위해 닐슨 또는 다른 여론조사 기관을 고용하여

프로그램에 대한 인기를 상시적으로 모니터링 한 것이다.

추론통계학에서는 모집단(population) 과 표본(sample) 을 구분한다.

모집단의 수가 클 경우, 전수조사가 불가능할 때가 많으므로 표본을 사용한다.

용어를 살펴보면,

 

모집단(population) 은 통계분석의 대상이 되는 모든 개체들의 집합이다.

모수(parameter) 는 모집단의 특성을 나타내는 수치로 모평균,모분산,모비율이 쓰인다.

표본(sample) 은 모집단으로부터 임의로 추출된 모집단의 부분집합이다.

표본통계량(sample statistic) 은 표본의 특성을 나타내는 척도로 표본평균, 표본분산, 표본비율이 쓰인다.

 


3. 변수의 종류

정성적(qualitative)변수와 정량적(quantitative)변수가 있다.

 

정성적(qualitative)변수는 비수치적인 특성치 또는 속성으로서 관찰 또는 기록된 변수로, 성별, 음료수 선호도, 눈 색깔 등이 있다.

정량적(quantitative)변수는 수치적인 특성을 가지고 있는 변수로 계좌잔액, 회사의 직원 수, 자동차 배터리 수명 등이 있다.

 

정량적변수는 다시 이산형변수와 연속형변수로 분류된다.

이산형변수(discrete variable) 는 대개 수를 센 것의 결과로 정수로 딱딱 떨어지는 변수이다. (사람 수 등)

연속형변수(continuous variable) 은 대개 측정의 결과로 실수가 나오는 변수이다. 특정 범위 내의 어떤 값도

가질 수 있다고 가정한다. (공기압, 비행시간, 온도 등)

 

변수의 유형 요약

4. 측정의 척도(levels of measurement)

측정의 척도는 명목, 순서, 등간, 비율 4가지로 구분이 된다.

 

어제도 살펴봤던 것..

명목척도는 가장하위의 측정척도로, 레이블이나 명칭으로 대표된다. 분류가 가능하고, 빈도 수 정도는 셀 수 있음

순서척도는 순위가 매겨지거나 빈도수가 세어지는 측정척도이다. 각 그룹 간의 차이는 알 수 없으며 의미가 없다.

등간척도는 순서척도의 모든 특징을 포함하면서 값들 사이의 간격 또는 차이가 의미가 있다. 알려진 측정단위의 척도를

기반으로 한다. 온도 체계, 의복 사이즈가 이에 해당한다.

가장 상위의 측정척도는 비율척도이다. 등간척도의 모든 특성을 포함하면서 숫자 사이의 비율이 의미가 있다.

 

가능한 수학적 계산에 주목하기.
 
측정의 척도

 


5. 데이터 기술하기

여기서 우리가 살펴볼 것은 기술 통계이다. 데이터를 요약하는 통계 !

 

점도표(Dot plot) 은 자료의 가능한 값들을 나타내는 수평선을 따라서 각 관측치를 하나의 점으로 표현한 것이다.

분포의 모양, 최대값, 최소값, 최빈값을 한 눈에 볼 수 있다.

 

복잡한 데이터를 점도표로 한 눈에 알아볼 수 있게 만든다.

 

 

줄기-잎 도표(Stem-leaf display) 는 각 값들의 정확한 값을 알 수 없는 도수분포표나 히스토그램의 단점을

극복한 표로, 각 관측치의 실제값은 유지하면서 각 자리수의 값들이 도표에 표시되게 만든다.

 

단순하면서 실제값은 유지시켜주는 줄기-잎 도표

분위수는 산포, 분포의 형태를 측정하는 방법 중 하나로, 그림을 그려준다.

특정 백분위 수의 위치는 

특정 백분위수의 위치

사분위수는 (p=25), 십분위수는 10개의 하위집합으로 나누는 것이다.

 

상자도표(Box plot) 은 사분위수들을 활용해서 최소값, 1사분위수, 중위수, 3사분위수, 최대값.

이 5개의 통계량을 표시해주는 도표이다.  여기서 Q3은 Quater3 으로 3분위수이다.

 

상자도표

 

산점도(scatterel plot) 은 두 변수 사이의 관계를 나타내주는 도표로, 양,음의 상관관계를 보여주는 데에 효과적이다.

두 변수 모두 등간 척도이거나 비율 척도로 측정되어야 한다.

두 양적 변수 사이의 관계 확인에 효과적이다.

여기서 주의할 점은 두 변수 사이의 관계만 확인시켜주는 것이지 무엇이 원인이고 결과인 지 인과관계는 확인시켜주지 않는다는 것.

차례대로 양, 음, 상관관계 없음(모름) 이다.

 

분할표는 두 가지 식별 가능한 특성에 따라서 관측치들을 분류할 때 사용하는 표이다.

순서척도나 명목척도로 측정된 관측치들을 2개의 특성에 따라 분류하며, 2개의 변수를 동시에 요약할 수 있다.

2개의 변수들은 명목 척도이거나 순서 척도일 필요가 있다.

이러한 시각적 묘사를 사용한 데이터를 보거나, 구성할 때 이런 시각적 효과를 왜곡하지 않도록 주의하고,

의도적으로 현혹하려는 시도를 경계해야 한다.

같은 표지만 생김새가 달라보인다. 시각적 효과를 이용한 왜곡


6. 이산형 확률분포

 

확률분포란 어떤 실험에서 발생할 수 있는 모든 결과들과 결과의 확률을 나열하는 것이다.

 

확률분포의 특징은 어떤 특정 결과의 확률은 0과 1을 포함하여 그들 사이에 있다는 것이다.

결과들은 상호 배타적이고, 결과 리스트는 총망라이기에 결과들 확률의 합은 1이다.

확률변수(random variable) 는 어떤 실험의 결과로서 측정되거나 관측된 변수이다.

변수는 우연성에 따라 다양한 값으로 결정되며, 확률변수는 대문자 X,Y,Z 로 나타내어지고 변수가 취하는 값은

x,y,z 등 영어 소문자로 나타내어진다.

ex:) 특정 요일 교대 근무에 결근한 직원들의 수, 그 수는 0.1.2.3.. 일 수 있다. 결근 직원 수는 정량적 확률변수이다.

확률을 표기할 때는 함수같은 형태로 표현하는데,

확률 변수 X의 값이 0일 확률이 0.125일 때엔

P(X=0) = 0.125                 [P(X=x) = ~ 형태]

로 표현한다.

 

이산확률변수는 어떤 정해진 값만 가질 수 있고 값들 사이에 간격이 있는 확률변수를 말한다.

이 이산확률변수의 평균은 기댓값이라고 부르기도 한다.

이 자료에서 변동성의 정도는 분산에 의해 표현하고, 확률분포의 표준편차는 분산의 제곱근으로 계산한다.

확률의 합은 1이다.

 


7. 이항확률분포(Binomial distribution)

 

이항확률분포는 각각의 시행에서 상호배타적인 두 가지 결과만 나타나는 현상일 때 사용한다.(Ex:동전던지기,모아니면도)

이런 시행은 베르누이 시행(Bernoulli trial) 이라고 한다. 실험의 결과가 성공/실패 두 가지의

상호배반적인 사건으로 나누어 진다. (동전던지기, 양품/불량품, 찬성/반대, 성공/실패)

 

이항확률분포의 특징

1) 베르누이 시행이어야 한다. (보통 성공과 실패)

2) 확률변수 x : 정해진 횟수의 시행에서 성공이 나온 횟수

3) 각 시행은 통계적으로 독립이다. (Ex : 복원추출)

4) 각 시행은 이전 시행 결과로부터 영향을 받지 않고, 나중 시행의 결과에도 영향을 주지 않는다. (독립이라는말)

5) 각 시행에서 성공의 확률은 처음부터 끝까지 불변이다.

 

이항 확률의 계산 식
평균(E(x)) 와 분산(Var(X)) 의 식

 

포아송 확률분포 (Poisson distribution) 

포아송 확률실험을 진행했을 때 나오는 분포이다. 이 실험에서의 확률변수는 정해진 간격 안에서 어떤 사건이 발생하는 빈도이다.

사건이 발생할 확률은 간격의 크기에 비례하게 된다.

이 간격들은 겹치지 않고 상호 독립이다. 

Ex : 일정 기간 동안 복잡한 사거리에서 발생하는 자동차 접촉사고의 수

일정 기간동안 걸려오는 전화의 수 , 일정기간동안 은행창구를 찾는 고객의 수, 단위 면적당 ~, 페이지당 ~

 

포아송 분포 식
예제

여기서 하루 평균이므로 평균값은 1.2 이다.

어린아이가 태어나지 않을 확률이므로 x = 0 이 된다.

위의 식에 대입해서 계산하면 0.3012가 나오게 된다.


8. 연속확률분포(Countinuous probability distribution)

 

연속확률변수의 확률분포이다. 연속확률변수는 주어진 구간 내에서 어떤 실수 값이라도 가질 수 있는 변수이다.

주로 측정에 의해서 값을 할당할 수 있다. 이의 확률분포는 주어진 구간 내 무한 개의 측정값이 가능해진다.

균등분포, 정규분포가 있다.

 

연속확률분포의 특징은 특정한 하나의 값이 나타날 확률은 0이다. (값을 가지는 이산확률분포와는 다름)

특정 구간의 확률만이 의미가 있다.

특정 구간의 값이 나타날 확률은 0과 1 사이이다. 여기서 확률은 확률밀도함수의 면적이다.

총 확률은 모두 합치면 1이 된다. 그러므로 밀도함수의 총 면적은 무슨 일이 있어도 1이다.

정규분포그래프

균등분포(Uniform probability distribution) 는 연속확률변수를 묘사하는 가장 간단한 확률분포이다.

균등분포는 최소값과 최대값으로 규정된 범위 내의 모든 지점에서 확률밀도함수 f(x) 의 값이 일정하다.

최대값과 최소값 사이에 모든 확률이 존재하며, 그 범위 외에는 존재 확률이 0이다.

균등분포그래프

확률은 그냥 면적을 구해버리면 된다.

 

정규분포 (normal probability distribution)

 

정규분포의 특징은

1) 종 모양이고 중앙에 하나의 정점을 가진다.

2) 평균을 중심으로 대칭으로 분포된다.

3) pdf 이하 영역의 면적은 1이다.

4) 정규분포의 위치는 평균에 의해 정의되고, 산포는 표준편차에 의해 정의된다.

5) 수평축 양 끝으로 갈수록 곡선은 수평선에 점근하게 되나, 절대 만나지 않으며 무한대까지 이어진다.

정규분포의 모양과 위치

 

표준정규분포(Standard Normal Probability Distribution)

Z분포라고도 불리며 평균=0, 표준편차=1 인 정규분포이다.

표준화 과정을 거쳐서 만들어낼 수 있다.

표준정규분포로 전환 시, 표준정규분포표를 이용해서 쉽게 원하는 구간의 확률을 알아낼 수 있다.

ㅎㅎ 강의자료를 그대로 쓰니까 ;; 필기가 있다.

 

Comments