모집단, 표본집단
사회조사를 실시할 경우 조사대상 전체를 조사하는 전수조사가 이상적이지만
전체를 조사하기에는 시간∙비용∙노력이 많이 소요되므로
전체로부터 추출된 부분인 표본을 관찰∙파악함으로써 유추함
모집단 (population) : 관심의 대상이 되는 집단전체
모수 (population parameter) : 모집단의 특성을 나타내는 수치
표본 (sample) : 모집단을 대표할 수 있는 모집단의일부
통계량(statistic) : 표본의 특성을 나타내는 수치
확률의 개념
시행 :동일한 조건이 유지되고,여러번 반복가능하고,결과가 우연에 지배되는 실험이나 관찰
ex. 주사위 던지기
표본공간 : 시행의 결과들의집합
사건 : 표본공간의부분집합
근원 사건 : 원소의 개수가 한 개인 사건
합사건 : $ A \cup B $ , 4의 약수 또는 홀수 {1,2,3,4,5}
곱사건 : $ A \cap B $ , 4의 약수 그리고 홀수 {1}
여사건 : $ A^c $ , 4의 약수가 나오지 않는 사건
배반사건 : $ A \cap B = \varnothing $ , 홀수가 나오는 사건과 짝수가 나오는 사건
순열 (permutation) :순서를 고려하여 $n$개 중 $r$개를 선택하여 나열하는 것
$$ _{n}\mathrm{P}_{r} = \frac{n!}{(n-r)!} $$
조합 (combination) :순서를 고려하지 않고$n$개 중 $r$개를 선택하는 것
$$ _{n}\mathrm{C}_{r} = \frac{_{n}\mathrm{P}_{r}}{r!} =\frac{n!}{(n-r)!r!} $$
순열 - 이웃해야 하는 조건, 이웃하면 안되는 조건, 조합
조건부 확률 (conditional probability) : 어떤 사건이 일어났다는 조건 하에 다른 사건이 일어날 확률
$$ P(A|B) = \frac{P(A \cap B)}{P(A)} $$
확률변수와 확률분포
동전을 던져서 앞면(Head), 뒷면(Tail)이 나올 수 있음
총 4가지의 표본공간 X(TT, TH, HT, HH)가 있고
'앞면이 몇 번 나온 것인가'를 0, 1, 2라고 할 때
TT→0, TH→1, HT→1, HH→2 처럼 대응시킬 수 있음
즉, 표본공간 X를 어떤 목적으로 얻어낼 실수 Y에 대응시켜주는 함수를 확률변수라고 함
그리고 그 실수 Y를 확률값 Z로 대응시켜주는 함수를 확률분포라고 함
앞면이 1개 나올 확률 → ${1 \over 2}$, 앞면이 0개 또는 2개 나올 확률 → ${1 \over 4}$
확률변수 (random variable) :
표본공간에서 정의되는 실수의 값을 갖는 함수
(real valued function defined on sample space)
확률분포 (probability distribution) :
확률변수가 특정한 값을 가질 확률을 나타내는 함수
이산확률분포와 연속확률분포
고등교육과정에서 배우는 확률분포의 큰 그림을 먼저 그려보고 시작하자
이산확률분포 (discrete probability distribution) : 확률변수를셀 수 있는이산확률변수가 가지는 확률분포
연속확률분포 (continuous probability distribution) : 확률변수를셀 수 없는연속확률변수가 가지는 확률분포
이산확률분포 - 이항분포, 이산균등분포, 푸아송분포, 베르누이분포, 다항분포 등
연속확률분포 - 정규분포, 연속균등분포, 카이제곱분포, 감마분포 등
확률질량함수 (probability mass function, pmf) :이산확률변수의 분포를 나타내는 함수, 함수의 값이 곧 확률
확률밀도함수 (probability density function, pdf) :연속확률변수의 분포를 나타내는 함수, 함수의 넓이가 확률
이산확률분포
이산확률변수의 기댓값
이산확률변수의 기댓값은 고등교육과정에서는 평균과 같은 개념으로 그냥 가르치라 하지만
실제로 기댓값과 평균의 의미는 다르다
총 인원이 6명인 어떤 반에서 시험을 봤는데
30점이 2명, 40점이 3명, 50점이 1명인 상황
평균은 위와 같이 구할 수 있는데
이를 각 분자별로 묶어서 다르게 표현해보면 아래와 같음
$ (30 \times {2 \over 6}) $에서 $ {2 \over 6} $는 6명중에 아무나 한 명을 뽑았을 때 30점 맞은 사람일 확률이라고 볼 수 있음
이는 $ \sum 점수\times확률 $이 평균과 같음을 알 수 있음
그렇다면 만약 시험을 본 게 6명이 아니라 1000명이라고 할 때
1000명의 시험지를 전부 채점할 시간적 여유가 없다고 가정해보자
그래서 1000명 중 임의로 6명을 뽑아서 점수를 봤더니 위와 같이 나왔다
6명 중 ${2 \over 6}$의 확률로 30점을 맞았으니까
1000명중에도 약 ${2 \over 6}$의 확률로 30점을 맞은 사람들이 나올 것이다 라고 기대
6명의 데이터만 가지고 1000명의 데이터를 미루어 짐작할 수가 있는데
그럴 때에는 이 ${2 \over 6}$가 가능성의 개념으로 사용됨
기댓값 (Expectation Value) : 가능성의 개념을 가지고 구한 평균값
$$ E(X) = \sum_{i} X_{i}P(X_{i}) $$
동전을 두 번 던져서 앞면이 나오는 개수
X | 0 | 1 | 2 |
P(X) | ${1 \over 4}$ | ${2 \over 4}$ | ${1 \over 4}$ |
이 확률분포표에서
$1$에 대응하는 ${2 \over 4}$의 의미는
동전 던지기를 4번 했을 때 반드시 2번은 앞면이 1개만 나와야 된다는 의미가 아니라
동전 던지기를 4번 했을 때 2번 정도는 앞면이 1개 나올 것으로 기대가 된다는 의미
기댓값 $ E(x) = (0 \times {1 \over 4}) + (1 \times {2 \over 4}) + (2 \times {1 \over 4}) = 1 $
여기서 $1$의 의미는
동전을 두 번 던지는 시행을 여러번 해봤을 때 평균적으로 2번 중에 1번은 앞면이 나올 것으로 기대됨
이산확률변수의 분산과 표준편차
시험을 봤는데 A반은 100점, 0점 / B반은 50점, 50점 각각 2명씩 있는 상황
이 상황에서 '평균' 이라는 대표값이 A반과 B반의 차이를 설명할 수 있는가? → X
흩어져 있는 정도인 산포도에 대한 새로운 개념이 필요
편차 (deviation) : 변량에서 평균을 뺀 값
$$ X_{i} - m $$
단순히 편차를 적어놓고 눈으로 슥 보면 알 수 있다고 생각했는데
데이터의 개수가 많을 때 그 편차들을 슥 보고서
어느 그룹이 평균으로부터 멀리 떨어져 있는지 판단하기 어려움
- 편차를 다 더하면? → 0
- 편차의 절대값을 다 더하면? → 다른 통계량과 호환이 어려움
그래서, 편차의 제곱값을 다 더하기로 함
단순히 제곱한 값을 다 더하면 값이 너무 크므로 $n$으로 나눠줌
분산 (variance) : 변량이 평균으로부터 떨어져 있는 정도를 나타내는 값
$$ V(X) = {\sum_{i} (X_{i}-m)^{2} \over n} = (편차)^{2}합의\ 평균 $$
$$ = E[(X-m)^{2}] = \sum_{i} (X_{i}-m)^{2} P(X_{i}) $$
$$ = E(X^{2}) - m^{2} = E(X^{2}) - (E(X))^{2} $$ 제평 평제 : 제곱의 평균, 평균의 제곱
분산을 구할 때 n으로 나눠주는게 아니라 n-1로 나눠주는 이유?
표준편차 (standard deviation) : 변량이 평균으로부터 떨어져 있는 정도를 나타내는 값
$$ \sigma(X) = \sqrt{V(X)} = 분산의\ 제곱근 $$
분산과 표준편차가 크면, 평균으로부터 멀리 떨어져 있음
$a,b,c$가 임의의 상수이고, $X,Y$가 확률변수일 때,
$$ E(c) = c $$
$$ E[aX+b] = aE[X] + b $$
$$ E[X \pm Y] = E[X] \pm E[Y] $$
$$ V(aX+b) = a^{2}V(X) $$
$X,Y$의 공분산이 존재할 때,
$$ V(X \pm Y) = V(X) + V(Y) \pm 2Cov(X,Y) $$
$$ V(aX \pm bY) = a^{2}V(X) + b^{2}V(Y) \pm 2abCov(X,Y) $$
만약, $X,Y$가 독립이라면 $Cov(X,Y) = 0$이다
$$ \sigma(aX+b) = |a|\sigma(X) $$
$$ +\alpha $$
+ 공분산과 상관계수
공분산 (covariance) : 두 확률변수의 선형관계를 나타내는 값
$$ Cov(X,Y) = \frac{\sum_{i} (X_{i}-\mu_{X})(Y_{i}-\mu_{Y})}{n} $$
$$ = E[(X-\mu_{X})(Y-\mu_{Y})] $$
공분산이 양의 값을 가지면, 두 데이터는 양의 관계가 있고 (어느 한쪽이 증가하면, 다른 한쪽도 증가)
공분산이 음의 값을 가지면, 두 데이터는 음의 관계가 있음 (어느 한쪽이 증가하면, 다른 한쪽은 감소)
다만, 공분산의 절대값이 크다고 해서 양의 관계나 음의 관계의 강도가 더 세다고 말할 수는 없음
→ 그래서 양의 관계나 음의 관계의 강도를 표현하기 위해 상관계수라는 개념을 도입
상관계수 (correlation coefficient) : 두 확률변수 사이의 상관관계의 정도를 나타내는 값
$$ \rho = \frac{Cov(X,Y)}{\sigma_{X} \sigma_{Y}} $$
두 변수의 공분산을 각각의 표준편차의 곱으로 나눠준 값, $ -1 \le \rho \le 1 $
이항분포
이항분포 (binomial distribution) :
연속된 $n$번의 독립적 시행에서 각 시행이 확률 $p$를 가질 때의 이산확률분포
이항분포의 확률질량함수
$$ P(X=k) =\ _{n}\mathrm{C}_{k} p^{k} (1-p)^{n-k} $$
몇번의 독립시행을 했는지($n$)와 한번의 독립시행에서 관심사건이 일어날 확률($p$)만 알면
위의 확률질량함수를 통해 확률을 구할 수 있기 때문에 아래와 같이 이항분포를 표시함
$$ X \sim B(n,p) $$
$$ X \sim B(n,p) \qquad E(X) = np $$
$$ X \sim B(n,p) \qquad V(X) = np(1-p) = npq $$
연속확률분포
변량 : 조사할 내용을 수량화한 양
계급 (class) : 변량을 일정하게 나눈 구간
계급값 (class mark) : 계급을 대표하는 값, 계급의 중앙값
도수 (frequency) : 각 계급에 속하는 수
상대도수 (relative frequency) : 각 계급의 도수를 전체 데이터의 수로 나눈 것
연속확률분포에서는 구간에 대한 확률을 다루지, 특정값에 대한 확률을 다루지 않음
어떤 구간에 대한 확률은 그 구간 안의 막대들의 넓이의 총합
연속확률변수의 평균, 분산, 표준편차
이산확률변수의 확률질량함수 $ P(X=x_{i}) = p_{i}\ (i=1,2,\cdots,n) $의 경우
$$ E(X) = \sum_{i=1}^{n}x_{i}p_{i} = m $$
$$ V(X) = \sum_{i=1}^{n}(x_{i}-m)^{2}p_{i} = \sum_{i=1}^{n}x_{i}^{2}p_{i} - m^{2} $$
$$ \sigma(X) = \sqrt{V(X)} $$
연속확률변수의 확률밀도함수 $ f(x)\ (\alpha \le x \le \beta) $의 경우
$$ E(X) = \int_{\alpha}^{\beta} x f(x) \, dx = m $$
$$ V(X) = \int_{\alpha}^{\beta} (x-m)^{2} f(x) \, dx = \int_{\alpha}^{\beta} x^{2} f(x) - m^{2} \, dx $$
$$ \sigma(X) = \sqrt{V(X)} $$
연속성을 표현하기 위해 $ \sum $가 $ \int $로 바뀌었을 뿐 동일함
정규분포
정규분포 (normal distribution), 가우스분포, 가우시안분포 (Gaussian distribution) :
$$ X \sim N(\mu, \sigma^{2})\quad (\mu=mean,\ \sigma^{2}=variance) $$
정규분포의 확률밀도함수
$$ f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}\quad(-\infty<x<\infty) $$
평균 $\mu$를 중심으로 좌우대칭, 그래프의 위치를 결정
표준편차 $\sigma$는 그래프의 모양을 결정
왼쪽과 오른쪽의 평균과 표준편차가 아예 달라도
평균 $m$을 중심으로 표준편차 $\sigma$를 가지고 표현한 주황색 부분의 면적은 서로 같다 (=확률이 같다)
표준정규분포
표준정규분포 (standard normal distribution), z-분포 :
정규분포의 확률밀도함수에서 $ Z = \frac{X-\mu}{\sigma} $를 통해 $X$를 $Z$로 정규화함으로써 얻은 정규분포
$$ Z \sim N(0, 1^{2}) $$
앞에서 $ m \pm k\sigma $로 표현되는 구간에서의 확률값들은 모든 정규분포에서 동일하다고 했음
$$ Z = \frac{X-\mu}{\sigma} = \frac{m \pm k\sigma - m}{\sigma} = \pm k $$
정규화 과정인 $ Z = \frac{X-\mu}{\sigma} $는 결국 $\sigma$의 몇 배($k$)인지를 구하는 과정
출처 : 수악중독 > 재생목록 > (2009개정) 고등학교 수학 - 개념정리 > (舊) 확률과 통계 개념정리 (2016년도 영상들)
'Math & Statistics' 카테고리의 다른 글
Markov Chains, 마르코프 체인 (0) | 2022.05.21 |
---|---|
Taylor series, 테일러 급수 (0) | 2022.05.13 |
Likelihood, MLE, Cross Entropy (0) | 2022.03.11 |
혼동행렬 - 정확도, 정밀도, 재현율(=민감도), F1 Score (0) | 2022.01.28 |
Essence of linear algebra 선형대수학 (0) | 2021.12.02 |