๋ฐ์ดํฐ ํต๊ณ ๋ถ์(1)
ํต๊ณ (Statistics)
- ์ ์ : ํ๋ณธ(์์งํ ๋ฐ์ดํฐ)์ ํตํ์ฌ ๋ชจ์ง๋จ์ ์ถ์ ํ๊ธฐ ์ํ ํ๋ฌธ
- ๋น
๋ฐ์ดํฐ์์ ๊ด๊ณ
- ํ๋ณธ(=๋ฐ์ดํฐ)๋ฅผ ์์งํ๊ณ ๋ถ์ํ๋ ๊ณ ์ ๊ณผ์
- ๋น ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ ํ๋ฌธ
์ฉ์ด ์ค๋ช
- ๋ชจ์ง๋จ(Population) : ์ ๋ณด๋ฅผ ์ป๊ณ ์ ํ๋ ๋ชฉํ ๋์์ ์ ์ฒด ์ง๋จ
- ํ๋ณธ(Sample) : ๋ชจ์ง๋จ์ ์ผ๋ถ์ด๋ฉฐ, ๊ด์ฐฐํ์ฌ ํ๋ํ ๋ฐ์ดํฐ
- ๋ชจ์ง๋จ๊ณผ ํ๋ณธ์ ๊ด๊ณ
- ๋ชจ์ง๋จ์ ์ ์ ์กฐ์ฌ๋ฅผ ํตํ์ฌ ํ์ ๊ฐ๋ฅ -> ๋นํจ์จ
- ํ๋ณธ์ ํตํ์ฌ ๋ชจ์ง๋จ์ ์ ๋ณด๋ฅผ ์ถ์
ํ๋ณธ์ ์์ฒ
- ์ ๋ถ, ๊ณต๊ณต๊ธฐ๊ด ๋ฑ์ ๋ฐ์ดํฐ ์์ง
- ์คํ์ ํตํ ๋ฐ์ดํฐ ํ๋
- ์ค๋ฌธ์กฐ์ฌ ๋ฑ์ ํตํ ๋ฐ์ดํฐ ํ๋
- ์ฌ๋ฌผ, ๊ฐ์ฒด, ํ์์ ๊ด์ฐฐ์ ํตํ ๋ฐ์ดํฐ ํ๋
๋ฐ์ดํฐ์ ์ ํ
๋ฒ์ฃผ ๋ฐ์ดํฐ(Categorical Data)
- ๋ฐ์ดํฐ์ ๋ฒ์ฃผ(category)๋ฅผ ์ฌ์ ์ ์ ์ํ๊ณ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ฒ์ฃผ์ ๋ฐ๋ผ ๋ถ๋ฅํ ๋ฐ์ดํฐ
- ์) ๋จ๋ ์ฑ๋ณ, ์ง์ , ์/๊ตฐ/๊ตฌ ๋ฑ ๊ฑฐ์ฃผ ์ง์ญ
์์น ๋ฐ์ดํฐ(Numerical Data)
- ์ธก์ ํ์ฌ ์ซ์์ ํํ๋ก ํ๋ํ ๋ฐ์ดํฐ
- ์) ํค, ๋ชธ๋ฌด๊ฒ, ์จ์ต๋, ๋ฌผํ์ ๊ฐ๊ฒฉ
ํต๊ณ์ ๋ถ๋ฅ
๊ธฐ์ ํต๊ณ(Descriptive Statistics)
- ํ๋ณธ์ ์์ง -> ์ ๋ฆฌ ๋ฐ ์์ฝ
- ๋ชฉ์ : ์์งํ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ์ถ์ถ
์ถ์ธกํต๊ณ(Inferential Statistics)
- ํ๋ณธ์ ๋ถ์ -> ๋ชจ์ง๋จ์ ์ ๋ณด๋ฅผ ์ถ์ธก
- ๋ชฉ์ : ๋ชจ์ง๋จ์ ์ ๋ณด ์ถ์ธก์ ํ์ง์ ๋์
ํต๊ณ ์๋ฃ์ ์์ฝ
๋์๋ถํฌ๋(Frequency Distribution Table)
- ๊ตฌ๊ฐ/๋ฒ์ฃผ๋ณ๋ก ํ๋ณธ์ ์ถํ ๋น๋์๋ฅผ ํํํ ํ
- ๊ตฌ์ฒด์ ์ธ ์์น๋ฅผ ํตํ ๋ถ์ ๊ฐ๋ฅ
ํ์คํ ๊ทธ๋จ(Histogram)
- ๊ตฌ๊ฐ/๋ฒ์ฃผ๋ณ ๋น๋์๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ์๊ฐํ ํํ
- ์(magnitude)์ ์ง๊ด์ ์ผ๋ก ํํ
ํต๊ณ ์๋ฃ์ ๋ถ์
์ฐ์ ํ๊ท (Mean/Averate): ํ๋ณธ์ ํฉ์ ํ๋ณธ์ ์๋ก ๋๋ ๊ฐ
์ค์๊ฐ(Median): ํ๋ณธ์ ํฌ๊ธฐ์ ์์๋ก ๋์ดํ์์ ๋ ์ค์์ ์ถํํ๋ ๊ฐ
์ต๋น๊ฐ(Mode): ํ๋ณธ ์ค ๊ฐ์ฅ ํฐ ๋น๋์๋ก ์ถํํ๋ ๊ฐ
๋ฒ์(Range): ํ๋ณธ์ ๊ฐ์ฅ ํฐ ๊ฐ๊ณผ ๊ฐ์ฅ ์์ ๊ฐ์ ์ฐจ์ด
๋ถ์ฐ(Variance): ์ฐ์ ํ๊ท ๊ณผ ํ๋ณธ๊ฐ์ ์ฐจ์ด์ ์ ๊ณฑํฉ์ ํ๋ณธ์ ์๋ก ๋๋ ๊ฐ
ํ์คํธ์ฐจ(Standard Deviation): ๋ถ์ฐ์ ์ ๊ณฑ๊ทผ์ผ๋ก ํ๋ณธ์ ๋ถํฌ๋ฅผ ๋ํ๋
ํ๋ฅ (Probability)
- ๋ชจ์ง๋จ์ ์ ๋ณด๊ฐ ์์
- ๋ชจ์ง๋จ ๋๋น ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ ๋น์จ์ ํํ
- ์) ์ฃผ์ฌ์๋ฅผ ๋ฌดํ ๋ฒ ๋์ ธ 3์ด ๋์ค๋ ๋น์จ์ ํํ
ํ๋ฅ ์ ํ์์ฑ
- ์ฌ๊ฑด์ ์ผ๋ฐํ
- ์ฌ๊ฑด์ ๊ฒฝํฅ์ ์ ์ ์์ -> ๋ฏธ๋์ ๋๋น ๊ฐ๋ฅ
ํ๋ฅ ์ ์ ํ
๋จ์ ํ๋ฅ (Simple probability): ํ๊ฐ์ง์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ
๊ฒฐํฉ ํ๋ฅ (Joint Probability): ๋๊ฐ์ง ์ด์์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ
์กฐ๊ฑด๋ถ ํ๋ฅ (Conditional Probability): ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ์๋ค๋ ์ ์ ํ์ ๋ ๋ค๋ฅธ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ
ํต๊ณ์ ํ๋ฅ ์ ์ฐจ์ด์
ํต๊ณ
- ๋ชจ์ง๋จ์ ์ ๋ณด๊ฐ ์์ -> ํ๋ณธ์ผ๋ก ๋ชจ์ง๋จ์ ์ถ์ ( ๋ชจ์ง๋จ์ ์๊ณ ์ถ์ ๊ฒ)
- ์) ์ฃผ์ฌ์๋ฅผ 100๋ฒ ๋์ ธ 3์ด ๋์ค๋ ๋น์จ ์ธก์
ํ๋ฅ
- ๋ชจ์ง๋จ์ ์ ๋ณด๊ฐ ์์
- ๋ชจ์ง๋จ ๋๋น ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ ๋น์จ์ ํํ
- ์) ์ฃผ์ฌ์๋ฅผ ๋ฌดํ ๋ฒ ๋์ ธ 3์ด ๋์ค๋ ๋น์จ์ ํํ
ํ๋ฅ ๋ณ์(Random Variable)
์ ์ : 2๊ฐ ์ด์์ ๊ฐ์ ์ทจํ ์ ์๋ ๋ณ์
์ข ๋ฅ
- ์ด์ฐํ๋ฅ ๋ณ์: ๊ฐ์ด ๋ฒ์ฃผํ ๋์ด ์๋ ๊ฒฝ์ฐ
- ์ฐ์ํ๋ฅ ๋ณ์: ๊ฐ์ด ์ฐ์์ ์ธ ๊ฒฝ์ฐ
ํ๋ฅ ๋ถํฌ(Probability Distribution)
์ ์ : ๋ฐ์ดํฐ๊ฐ ์ถํํ ํ๋ฅ ์ ๋ถํฌ
ํ์์ฑ
- ๋ฐ์ดํฐ ์ถํ์ ์ ๋๋ฅผ ์ผ๋ฐํ -> ๋ฏธ๋์ ์์ธก ๊ฐ๋ฅ
- ํ๋ณธ๋ด์์ ํ๋ฅ ๋ณ์์ ์ถํ ํ๋ฅ ์ ๋ฐํ์ผ๋ก ๋ชจ์ง๋จ์์์ ํ๋ฅ ๋ณ์์ ์ถํ ํ๋ฅ ์ถ์ ๊ฐ๋ฅ
์ข ๋ฅ
- ์ด์ฐ ํ๋ฅ ๋ถํฌ(Discrete Probability Distribution)
- ์ด์ฐ ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง๋ ํ๋ฅ ๋ถํฌ
- ํ๋ฅ ์ง๋ ํจ์(Prob.Mass Function)ํํ
- ์ฐ์ ํ๋ฅ ๋ถํฌ(Continuous Probabilty Distribution)
- ์ฐ์ ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง๋ ํ๋ฅ ๋ถํฌ
- ํ๋ฅ ๋ฐ๋ ํจ์(Prob.Density Function)ํํ
์ฉ์ด
๊ธฐ๋๊ฐ(Expectation)
- ํ๋ฅ ๋ฐ์ดํฐ๊ฐ ์ง์ค๋๋ ๊ฒฝํฅ์ฑ์ ๋ํํ๋ ๊ฐ
- Σ(ํ๋ฅ ๋ณ์ X ํ๋ฅ ) -> ํ๋ฅ ๋ณ์์ ๋ํ์ฌ ๋ฐ์ ํ๋ฅ ์ ๊ณฑํ ๊ฒ์ ํฉ
๋ถ์ฐ(Variance)
- ํ๋ฅ ๋ฒ์๊ฐ ๊ธฐ๋๊ฐ์ผ๋ก๋ถํฐ ๋ฒ์ด๋ ์ ๋๋ฅผ ํํ
- Σ(ํ๋ฅ ๋ณ์ - ๊ธฐ๋๊ฐ)2์ ๊ณฑ X ํ๋ฅ
ํ์คํธ์ฐจ(Standard Deviation)
- ๋ถ์ฐ์ ์ ๊ณฑ๊ทผ์ผ๋ก, ๊ธฐ๋๊ฐ ๋๋น ๋ถํฌ ์ ๋ ํํ
์ ๊ท ๋ถํฌ(Normal Distribution)
์ ์
- ํ๊ท ๊ณผ ํ์คํธ์ฐจ ๊ธฐ๋ฐ์ ์ฐ์ ํ๋ฅ ๋ถํฌ
- ์ค์ฌ๊ทนํ์ ๋ฆฌ์ ๊ทผ๊ฑฐ -> ํ๋ฅ ๋ณ์์ ํ๊ท ์ ์ ๊ท ๋ถํฌ์ ๊ทผ์ ํ๋ ์ฑ์ง
ํน์ฑ
- ์ ๋๊ทผ์ฌํ๋ค.
- ํ๊ท ๊ณผ ํ์คํธ์ฐจ๊ฐ ์ฃผ์ด์ง๋ฉด -> ์ํธ๋กํผ๋ฅผ ์ต๋ํ
- ์ ๊ท ๋ถํฌ ๊ณก์ ์ ํ๊ท ๋๋น ์ข์ฐ ๋์นญ
- ์ค์๊ฐ์ ํ๋ฅ ์ด ์ต๋
๋ชจ์ง๋จ์ ์ถ์
์ถ์ ์ด๋ก (Estimation Theory)
์ ์ : ํต๊ณํ๊ณผ ์ ํธ์ฒ๋ฆฌ์ ํ ๋ถ์ผ๋ก, ํ๋ณธ์ ๋ฐํ์ผ๋ก ์ธ์(parameter)๋ฅผ ์ถ์ ํ๋ ํ๋ฌธ
ํ์์ฑ : ํ์ ๋ ๋ฐ์ดํฐ(=ํ๋ณธ)์ ๋ฐํ์ผ๋ก ์ต์ ์ ์ถ์ ๋ฐฉ๋ฒ๋ก (=์ถ์ ๋) ์ ์ ์ฉ ๊ฐ๋ฅ
์ถ์ ๋ฐฉ๋ฒ๋ก (Estimation Methodology) / ์ถ์ ๋(Estimator)
MLE(Maximum Likelihood Estimation): ์ฌ์ ์ ๋ณด๊ฐ ์๋ ์ํฉ์์ ์ฑ๋ฅ์ ์ต๋ํํ๋ ์ธ์ ์ถ์ ๋ฐฉ๋ฒ
MAP(Maximum A Posteriori): ์ฌ์ ์ ๋ณด๋ ๊ทธ ๊ฐ์ ์ ๋ฐํ์ผ๋ก ์ฑ๋ฅ์ ์ต๋ํํ๋ ์ธ์ ์ถ์ ๋ฐฉ๋ฒ
์ต์์ ๊ณฑ๋ฒ(Least Squares): ์ฌ์ ์ ๋ณด์ ์ค์ฐจ ์ ๊ณฑ์ ์ต์ํํ๋ ์ธ์ ์ถ์ ๋ฐฉ๋ฒ
MMSE(Minimum Mean Squared Error): ์ฌ์ ์ ๋ณด์ ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ(MSE)๋ฅผ ์ต์ํํ๋ ์ธ์ ์ถ์ ๋ฐฉ๋ฒ
์นผ๋ง ํํฐ(Kalman Filter): ์ด์ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ์ ํ ๋ชจ์ง๋จ์ ์ธ์๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ
๋ชจ์ง๋จ์ ์ถ์ (Estimating Population)
์ ์
- ํ๋ณธ์ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์ถ์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์ฌ ๋ชจ์ง๋จ์ ์ ๋ณด(ํ๊ท , ๋น์จ)๋ฅผ ์ ํํ๊ฒ ์ถ์
- ์ถ์ ์ด๋ก (Estimation Theory)์ ํ ๊ฐ๋
ํ์์ฑ
- ๋ชจ์ง๋จ์ ์ ์์กฐ์ฌํ๋ ๊ฒฝ์ฐ -> ๋ถ์ ๊ฒฝ์ ์ฑ ํ๋ฝ
- ํ๋ณธ์ ๋ฐํ์ผ๋ก ๋ชจ์ง๋จ์ ์ ํํ๊ฒ ์ถ์ ํ๋ ๊ฒฝ์ฐ -> ๋ถ์ ๋น์ฉ ์ ์ฝ ๊ฐ๋ฅ, ๋ถ์ ํจ์จ์ฑ ํฅ์
๋ถ์ฐ์ ์ข ๋ฅ
๋ชจ ๋ถ์ฐ(Population Variance): ๋ชจ์ง๋จ์ผ๋ก๋ถํฐ ๊ตฌํ ๋ถ์ฐ
ํ๋ณธ ๋ถ์ฐ(Sample Variance): ํ๋ณธ์ผ๋ก๋ถํฐ ๊ตฌํ ๋ถ์ฐ
ํ์คํธ์ฐจ์ ์ข ๋ฅ
๋ชจ ํ์คํธ์ฐจ(Population Std. Dev.) : ๋ชจ์ง๋จ์ผ๋ก๋ถํฐ ๊ตฌํ ํ์คํธ์ฐจ
ํ๋ณธ ํ์คํธ์ฐจ(Sample Std. Dev.) : ํ๋ณธ์ผ๋ก๋ถํฐ ๊ตฌํ ํ์คํธ์ฐจ
๋ชจ์ง๋จ ํ๊ท ์ถ์ (Estimationg Population Mean)
์์งํ ๋ฐ์ดํฐ
- ์ถฉ๋ถํ ํฐ ํ๋ณธ์ ๊ฐ์n (=๋น ๋ฐ์ดํฐ)
- ํ๋ณธ์ ํ๊ท x์ ํ์คํธ์ฐจ s
- ์ ์ ์์ค a (์ ๋ขฐ์์ค = 1- a)
์ ๋ขฐ๊ตฌ๊ฐ ์ถ์
๋ชจ์ง๋จ ๋น์จ ์ถ์ (Estimating Population Ratio)
์์งํ ๋ฐ์ดํฐ
- ์ถฉ๋ถํ ํฐ ํ๋ณธ์ ๊ฐ์n (=๋น ๋ฐ์ดํฐ)
- ํ๋ณธ์ ๋น์จ p
- ์ ์์์ค a (์ ๋ขฐ์์ค= 1 - a)
์ ๋ขฐ๊ตฌ๊ฐ ์ถ์
'๐ป IT > ๋น ๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ๋ง์ด๋ (0) | 2024.04.26 |
---|---|
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(2) (0) | 2024.04.23 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (3) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (2) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (1) (0) | 2024.04.19 |