(선형대수와 통계학으로 배우는 머신러닝 with 파이썬) 4. 머신러닝을 위한 통계학(1)
← 이전 글로 다음 글로 →
기초
확률, Probability이란 사건이 발생할 가능성을 수치화 시킨것이다.
확률, Probability의 성질
- $ 0 \leq P(A) \leq 1 $
- 모든 확률이 0과 1사이에 있다.
- 확률은 0보다 작거나 1보다 큰 값이 나올 수 없다.
- $ P(S) = 1 $
- 발생 가능한 모든 사건의 확률을 더하면 1이된다.
- 발생 가능한 모든 사건을 Sample Space, $S$로 표현한다.
- 만약 $ A_{1}, A_{2}, \cdots $ 가 상호 배반 사건이면, $ P(U_{i=1}^{\infty}A_{i}) = \sum_{i=1}^{\infty}P(A_{i}) $
- 동시에 발생할 수 없는 사건상호 배반 사건들에 대해 각 사건의 합의 확률$P(U_{i=1}^{\infty}A_{i})$은 개별 확률이 일어날 확률의 합$\sum_{i=1}^{\infty}P(A_{i}) $과 같다.
확률 변수, Random Variable이란?
결과값이 확률적으로 정해지는 변수를 의미함
확률적으로 정해진다함은 고정된 값상수, constant이 아닌 확률에 따라 값이 달라질 수 있는변수, variable값이다.
확률 변수는 다른 관점으로 함수로도 볼 수 있다.
함수는 한 집합에 속한 원소를 다른 집합의 원소에 대응시키는 관계이다.
\[f : X \to Y\]확률 분포, Probability distribution
확률 변수가 특정값을 가질 확률의 함수를 의미한다.
위에서 확률 변수는 확률적으로 정해지는 변수를 뜻했는데, 이 변수가 어떤 값을 가질 확률들의 집합을 확률 분포하고 한다.
이산 확률 변수, Discrete Random Variable
이산이란 셀 수 있다라는 의미이다.
확률 분포가 가지는 값들을 셀 수 있다는 의미이다.
예를들어 동전 던지기의 확률, 앞 뒤 각 $ \frac{1}{2} $
이산 확률 분포, Discrete Probability Distribution
셀 수 있는 확률이산 확률 변수들의 집합이며, 이산 확률 변수는 여기에 속하는 변수를 의미한다.
확률 질량 함수, Probability Mass Function, PMF
PMF란, 이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수이다.
셀 수 있는 확률들의 집합에 속한 원소인 특정 확률이 어떠한 특정 값에 대응될 확률을 뜻한다.
\[P_{x}(x) = P(X = x)\]$ P_{x}(x) $, 확률 분포$X$의 확률 변수인 $x$가 나올 확률
$ P(X = x) $, 확률 분포 $X$에 속한 확률 변수 $x$가 나올 확률
연속 확률 변수, Continuous Random Variable
이산의 반대로 셀 수 없는 연속적 값들을 뜻한다.
연속 확률 분포, Continuous Probability Distribution
연속적인 확률들의 집합을 뜻한다.
확률 밀도 함수, Probability Density Funtion, PDF
PDF란, 연속 확률 변수의 분포를 나타내는 함수이다.
\[P(a \leq X \leq b) = \int_{a}^{b}f_{X}(x)dx\]$ P(a \leq X \leq b) $, X확률 분포 중에서 a와 b의 범위에 속하는 연속 확률 변수들
$ \int_{a}^{b}f_{X}(x)dx $, 적분으로서 연속 확률 변수 $x$를 a부터 b까지 변화시키면서 연속 확률 분포 $f_{x}(x)$에 해당되는 값을 dx, 순간 변화량과 곱한 값이다.
\[\int_{a}^{b}f_{X}(x)dx = f_{X}(a)dx + f_{X}(a+dx)dx + f_{X}(a+2dx)dx + \cdots + f_{X}(b)dx\] \[\; \; \; \; = \lim_{\Delta \to 0}(f_{X}(a)\Delta x + f_{X}(a+\Delta x)\Delta + \cdots + f_{X}(b)\Delta x)\] \[= \lim_{\Delta x \to 0} \sum_{x=a}^{b}f_{X}(x)\Delta x \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \;\]적분에 대한 설명은 “다크 프로그래머, 미분 적분 제대로 알자“에 잘 설명 돼 있다.
누적 분포 함수, Cumulative Distribution Function, CDF
CDF는 주어진 확률 변수가 특정값, $x$보다 작거나 같은 확률을 나타내는 함수이다.
\[F_{X}(x) = P(X \subseteq (-\infty, x))\]누적 분포 함수, $f_{X}(x)$는 특정 값, $x$ 보다 작거나 같을 확률이다.
$x$값이 작아질수록 확률또한 반비례로 작아지며, $x$값이 커질수록 확률또한 커진다.
이를 우상향하는 그래프라 한다.
결합 확률 밀도 함수, Joint Probability Density Function
기존에 하나의 확률 변수만 고려하던 확률 밀도 함수가 아닌 여러 개를 함께 고려하는 함수이다.
$ P_{X}(x) $ 와 $ P_{Y}(y) $가 동시에 발생하는 상황을 고려하는 것이다.
\[P_{X, Y}(x, y) = P(X = x, Y = y) = P(X = x)P(Y = y)\] \[f_{X, Y}(x, y) = f_{X}(x)f_{Y}(y)\]독립 항등 분포, Independent and Identically Distributed, iid)
iid란, 두개 이상의 확률 변수를 고려할 때, 각 확률 변수가 통계적으로 독립이고, 동일한 확률 분포를 따르는 것을 의미한다.
동일한 확률 분포상에서 통계적으로 독립인 확률 변수를 고려하는 분포를 의미한다.