๐ป IT/๋น ๋ฐ์ดํฐ
-
๋ฐ์ดํฐ ๋ง์ด๋2024.04.26
-
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(2)2024.04.23
๋น์ ํ ๋ฐ์ดํฐ ๋ง์ด๋
ํ ์คํธ ๋ง์ด๋
ํ ์คํธ ๋ฐ์ดํฐ(Text Data)
- ASCII, UTF-8 ๋ฑ์ ์ธ์ฝ๋ฉ ํํ
- ๋น์ ํ ํน์ ๋ฐ์ ํ์ ๋ฐ์ดํฐ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์
- ์์ฐ์ด ์ฒ๋ฆฌ(NLP: Natural Language Processing)์ ๊ธฐ๋ฐํ์ฌ ์ ๋ณด๋ฅผ ์ถ์ถ
ํ ์คํธ ๋ง์ด๋ ์ ์ฐจ
1. ๋ฐ์ดํฐ ์์ง : ๋น์ ํ/ ๋ฐ์ ํ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์์ง
2. ๋ฐ์ดํฐ ์ฒ๋ฆฌ : ํน์ ํค์๋๋ ์๋ฏธ์๋ ์์๋ฅผ ์ถ์ถ / ์ ์ฒ๋ฆฌ(preprocessing) ์ํ
3. ๋ฐ์ดํฐ ์ถ์ถ : ์ํ์ ๋ชจ๋ธ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ๋ณด ์ถ์ถ / NLP,TF-IDF ๋ฑ์ ๋ฐฉ๋ฒ ์ฌ์ฉ
4. ๋ฐ์ดํฐ ๋ถ์ : ์ต์ข ํค์๋, ์๋ฏธ์๋ ์์์ ์ฐ์ ์์๋ฅผ ๋์ถํ๋ ๋จ๊ณ
์์ฐ์ด ์ฒ๋ฆฌ(Natural Language Processing)
NLP๋ผ๊ณ ๋ ๋ถ๋ฅด๋ฉฐ ์ธ๊ฐ์ ์ธ์ด ํ์์ ์ปดํจํฐ์์ ๋ชจ์ฌํ ์ ์๋๋ก ์ฐ๊ตฌํ๊ณ ๊ตฌํํ๋ ์ธ๊ณต์ง๋ฅ์ ์ฃผ์ ๋ถ์ผ
์์
- ํํ์ ๋ถ์ /์) ๋๋ = ๋(๋๋ช ์ฌ)+๋(์กฐ์ฌ)
- ํ์ฌ ๋ถ์ฐฉ - ์ ์ ํ ํ์ฌ๋ฅผ ๋ถ์ฐฉํ์ฌ ๋ฌธ์ฅ ์์ฑ
- ๊ตฌ์ ๋จ์ ๋ถ์ - ๋ช ์ฌ๊ตฌ/ ๋์ฌ๊ตฌ/ ๋ถ์ฌ๊ตฌ ๋ฑ
- ๊ตฌ๋ฌธ ๋ถ์, ์ดํ ๋ถ์
ํ ์คํธ ๋ง์ด๋ ๋ฐฉ๋ฒ๋ก
์ดํ ๋ถ์(Lexical Analysis)
- ๋ฌธ์ฅ ๋ถ๋ฆฌ(Sentence Splitting)
- ๋ง๋ญ์น(corpus)๋ฅผ ๋ฌธ์ฅ ๋จ์๋ก ๋ถ๋ฆฌ
- ๋ง์นจํ(.) ๋ฑ์ ๊ธฐํธ๋ฅผ ์ด์ฉํ์ฌ ๋ถ๋ฆฌ
- ํ ํฐํ(Tokenize)
- ํ ํฐ(token)์ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋ฌธ์์ด
- ์ดํ ์์ ์ ์ํ์ฌ ํ ํฐ์ผ๋ก ๋ถ๋ฆฌ
- ํํ์ ๋ถ์(Morphological Analysis)
- ๋จ์ด์ ์๋ฅผ ์ค์ฌ ๋ถ์์ ํจ์จ์ฑ์ ๋์
- ์) cars์ car, stopped์ stop
- ํฌ์ค ํ๊น
(POS Tagging)
- POS(Part-Of-Speech)
- ํ ํฐ์ ํ์ฌ ์ ๋ณด๋ฅผ ํ ๋นํ๋ ์์
์ดํ ๋ถ์์ ์์
TF-IDF
- ์ฌ๋ฌ ๋ฌธ์๋ก ์ด๋ฃจ์ด์ง ๋ฌธ์๊ตฐ์์ ์ถํํ๋ ํน์ ๋จ์ด๊ฐ ๋ฌธ์ ๋ด์์ ์ค์ํ ์ ๋๋ฅผ ํํํ๋ ํต๊ณ์ ์์น
- TF์ IDF์ ๊ณฑ์ผ๋ก ํํ โญ tfidf(t, d, D) = tf(t, d) X idf(t, D)
TF(Term Frequency): ๋ฌธ์ ๋ด์์ ํน์ ๋จ์ด์ ์ถํ ๋น๋
- ๋ฌธ์ ๋ด์ ๋จ์ด์ ์ธก์ ๋น๋๋ฅผ ์ธก์
- ์์ฃผ ๋ฑ์ฅํ ์๋ก โญ ํด๋น ์ธ์ด์ ์ค์์ฑ ์ฆ๊ฐ
IDF(Inverse Document Frequecy) : ๋ฌธ์๊ตฐ ๋ด์์ ๋ฑ์ฅํ๋ ๋จ์ด์ ๋น๋
๋ฉํฐ๋ฏธ๋์ด ๋ง์ด๋
๋ฉํฐ๋ฏธ๋์ด(Multimedia)
- ์ค๋์ค(Audio)
- ์๋ฆฌ๋ฅผ ๋์งํธ ๋ฐ์ดํฐ ํํ๋ก ์ ์ฅ
- ์) WAV, MP3, AAC ๋ฑ์ ํ์ผ ํ์
- ์ด๋ฏธ์ง(Image)
- ์๊ฐ ์ ๋ณด๋ฅผ ๋์งํธ ๋ฐ์ดํฐ ํํ ์ ์ฅ
- ์) JPEG, PNG ๋ฑ์ ํ์ผ ํ์
- ๋น๋์ค(Video)
- ์๋ฆฌ์ ์๊ฐ ์ ๋ณด๋ฅผ ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ ์ฅํ ๋ฐ์ดํฐ ํ์
- ์) MPEG4, HEVC
- ๋ด๋ฏธ๋์ด(New Media)
- ์์ ์ ํ์ผ๋ก ์ ์ํ ์ ์๋ ๋ฉํฐ๋ฏธ๋์ด ๋ฐ์ดํฐ ํ์
๋ฉํฐ๋ฏธ๋์ด ๋ง์ด๋ ๋ฐฉ๋ฒ๋ก
ํน์ง ์ถ์ถ(Feature Extraction) : ๋ฉํฐ๋ฏธ๋์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ๋์ ํ์ผ๋ก ๋ถ์ํ๊ณ ์ด์ ๋ฐ๋ผ ํน์ง(feature)์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ
๋ฅ ๋ฌ๋(Deep Learning) : ์ ์ฒ๋ฆฌ ๋ ๋ฉํฐ๋ฏธ๋์ด ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ธ๊ณต์ ๊ฒฝ๋ง(ANN)๋ฑ์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์ฌ ์์จํ์ต์ ํ์ฌ ํน์ง์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ
๋ฉํฐ๋ฏธ๋์ด ํน์ง ์ถ์ถ์ ์์
- ์ค๋์ค(Audio)
- ํ๋ ์(frame)๋ณ ํต๊ณ์ ์ ๋ณด ์ถ์ถ
- ํธ๋ฆฌ์(Fourier)๋ณํ์ ํตํ ์ ๋ณด ์ถ์ถ (์ฃผํ์ ์์ญ)
- ์ด๋ฏธ์ง(Image)
- JPEG๋ฑ์ ๊ธฐ๋ฐ ๊ธฐ์ ์ธ DCT, DWT๋ฑ์ ์ ์ฉํ์ฌ ํน์ง ์ถ์ถ
- ๋น๋์ค(video)
- ์ธํฐ(inter) ๋ฐ ์ธํธ๋ผ(intra) ํน์ง ์ถ์ถ
- H.264, HEVC๋ฑ์ ์ฝ๋ฑ ํน์ง์ ๊ธฐ๋ฐ
- ๋ด๋ฏธ๋์ด(New Media)
- ์ค๋์ค, ์ด๋ฏธ์ง, ๋น๋์ค์ ํน์ฑ ํ์ฉ
- ํ์ฅ, ๋ฌด๋, ์ค์น ๋ฑ์ ํน์ฑ ํ์ฉ
์์ ๋คํธ์ํน ์๋น์ค(social Networking Service)
- ์ฌ์ฉ์๊ฐ์ ์์ ๋ก์ด ์์ฌ์ํต๊ณผ ์ ๋ณด ๊ณต์ , ์ธ๋งฅ ํ๋ ๋ฑ์ ํตํ์ฌ ์ฌํ์ ๊ด๊ณ๋ฅผ ์์ฑํ๊ณ ๊ฐํํ๋ ค ์ฃผ๋ ์จ๋ผ์ธ ํ๋ซํผ
ํน์ง
- ์ฌํ์ ๊ด๊ณ๋ง์ ์์ฑ, ์ ์ง, ๊ฐํฉ, ํ์ฅ ๊ฐ๋ฅ
- ์ต๊ทผ์ SNS ์๋น์ค๋ ๋๋ถ๋ถ ์น ๊ธฐ๋ฐ
- ๋น ๋ฐ์ดํฐ ๋ถ์์ ํตํ ๋ง์ผํ ํ์ฉ๊ฐ์น ๋์
์์ ๋ง์ด๋ ๋ฐฉ๋ฒ๋ก
- ๋ฌธ์ ์์ง(Crawling)
- SNS ๋ฑ์ ํตํ์ฌ ์ฌ์ฉ์์ ๋ฌด์ ์์ง
- ์ฌ์ฉ์์ ์ ์๊ถ ๋ฐ ๊ฐ์ธ์ ๋ณด ์ ์
- ํํฐ๋ง(Filtering)
- ์คํธ ๋ฐ์ดํฐ, ๋ฌด๊ด ๋ฌธ์ ๋ฑ์ ํํฐ๋ง
- ์ฐ๊ด๋ฌธ์๋ฅผ ํ ๋๋ก ๋ถ์
- ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์(NLP Analysis)
- ์์ฐ์ด์ฒ๋ฆฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์ํ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ์ฐ๊ด์ด ๋ถ์
- ๋ฐ์ดํฐ ๋ถ์ ๋ณด๊ณ (Reporting)
- ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํํ๊ณ ํด์ํ์ฌ ๋ณด๊ณ
'๐ป IT > ๋น ๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ๋ง์ด๋ (0) | 2024.04.26 |
---|---|
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(2) (0) | 2024.04.23 |
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(1) (1) | 2024.04.23 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (3) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (2) (1) | 2024.04.20 |
๋ฐ์ดํฐ ๋ง์ด๋
๋ฐ์ดํฐ ๋ง์ด๋(Data Mining)
์ ์
- ๋๊ท๋ชจ๋ก ์ ์ฅ๋ ๋ฐ์ดํฐ ์์์ ์ฒด๊ณ์ ์ด๊ณ ์๋์ ์ธ ํต๊ณ์ ๊ท์น์ด๋ ํจํด์ ์ฐพ์๋ด๋ ์์
- KDD(Knowledge-Discovery in Databases)
๋น ๋ฐ์ดํฐ ์๋์ ์๋ฏธ
- ๋๊ท๋ชจ ๋ฐ์ดํฐ๋กํฐ ์๋ฏธ๋ฅผ ์ฐพ์๋ด๋ ๋ฐ ์์ด ๊ทธ ์ค์๋๊ฐ ๊ธ์ฆ↑
๋ฐ์ดํฐ ๋ง์ด๋์ ์ ์ฉ ๋ถ์ผ
๋ถ๋ฅ(classification) : ์ผ์ ํ ์ง๋จ์ ๋ํ ํน์ ์ ์๋ฅผ ํตํ์ฌ ๋ถ๋ฅ ๋ฐ ๊ตฌ๋ถ์ ํํ๋ฅผ ์ถ๋ก ํ๋ ๋ถ์ผ
๊ตฐ์งํ(clustering) : ๊ตฌ์ฒด์ ์ธ ํน์ฑ์ ๊ณต์ ํ๋ ๊ตฐ์ง์ ์ฐพ์ / ๋ฏธ๋ฆฌ ์ ์๋ ํน์ฑ ์ ๋ณด๊ฐ ์์ด ๊ตฐ์ง์ ํ์
์ฐ๊ด์ฑ(association) : ๋์์ ๋ฐ์ํ ์ฌ๊ฑด ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ์ํ๋ ๋ถ์ผ
์ฐ์์ฑ(sequencing) : ํน์ ๊ธฐ๊ฐ์ ๊ฑธ์ณ ๋ฐ์ํ๋ ๊ด๊ณ๋ฅผ ๊ท๋ช / ์ฐ๊ด์ฑ ๋ถ์๊ณผ ๋ฌ๋ฆฌ ๊ธฐ๊ฐ ํน์ฑ์ ๊ณ ๋ ค
์์ธก(forecasting) : ๋น ๋ฐ์ดํฐ ์งํฉ ๋ด์ ํจํด์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋์ ๋ฐ์ํ๋ ๋ฐ์ดํฐ์ ํํ๋ฅผ ์์ธกํ๋ ๋ถ์ผ
๋ฐ์ดํฐ ๋ง์ด๋ ๋ฐฉ๋ฒ๋ก
1. ํ๋ก์ ํธ์ ๋ชฉ์ ๊ณผ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํ์ธํ๋ค.
- ์ผํ์ฑ ํ๋ก์ ํธ์ธ ๊ฒฝ์ฐ โญ ํ๋ก์ ํธ์ ๋ชฉ์ ์ ๋ช ํํ๊ฒ ์๋ฆฝํ๋ค.
- ์ฐ์์ฑ ํ๋ก์ ํธ์ธ ๊ฒฝ์ฐ โญ ํ๋ก์ ํธ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํ์ธํ๋ค.
2. ๋ถ์์์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค.
- ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๋ฌด์์๋ก ํ๋ณธ์ ์ถ์ถ
- ๋ด๋ถ๋ฐ์ดํฐ์ ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ์์ง
- ์์ง ๋ฐฉ๋ฒ๋ก
- ์์ง๋ฐ์ดํฐ๋ฅผ ์ ์ (๊ฒฝ์ ์ฑ, ๊ฐ๋ฅ์ฑ ์์ธ ํ์ธ)
- ์ธ๋ถ๊ณํ์ ์๋ฆฝ (๊ธฐ์ ์ , ํ์ ์ ๊ณํ ์๋ฆฝ)
- ํ ์คํธ ์์ง ์งํ ํ ์์ง ์งํ
3. ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌ ํ๋ค.
- ๋ฐ์ดํฐ์ ์กฐ๊ฑด์ ๊ฒ์ฆํ๊ณ ์ ์ ํ๋ค.
- ์ฐ์ ๋, ํ๋ ฌํ ๋ฑ ๊ทธ๋ํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ์
- ๋ณ์์ ๋ํ ์ ์, ์ธก์ ๋จ์, ์ธก์ ๊ธฐ๊ฐ ๋ฑ์ ๋ํ ์ผ๊ด์ฑ ํ์ธ
- ๊ณ ๋ ค์ฌํญ
- ๊ฒฐ์ธก์น๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋๊ฐ?
- ๊ฐ ๋ณ์์ ๊ฐ์ด ํฉ๋ฆฌ์ ์ธ ๋ฒ์๋ด์ ์๋๊ฐ?
- ๊ทน๋จ์น(์ต๋/์ต์)๊ฐ ์กด์ฌํ๋๊ฐ?
4. ๋ฐ์ดํฐ๋ฅผ ์ถ์ํ๊ณ ๋ถํ ํ๋ค.
- ๋ถํ์ํ ๋ณ์๋ฅผ ์ ๊ฑฐ
- ๋ณ์๋ฅผ ๋ถ์๊ฐ๋ฅํ ํํ๋ก ๋ณํ
- ์๋ก์ด ๋ณ์๋ฅผ ์์ฑ
- ๋ฐ์ดํฐ๋ฅผ ๋ค์ํ ๋ฐ์ดํฐ ์งํฉ์ผ๋ก ๋ถํ
- ๋ฐ์ดํฐ ์งํฉ์ ์ข
๋ฅ
- ํ์ต์ฉ ๋ฐ์ดํฐ (training)(๊ธฐ๊ณ๊ฐ ํ๋ ํ์ต)
- ํ๊ฐ์ฉ ๋ฐ์ดํฐ (test, evaluation)
- ๊ฒ์ฆ์ฉ ๋ฐ์ดํฐ (verification)
5. ๋ฐ์ดํฐ ๋ง์ด๋ ๊ธฐ๋ฒ์ ์ ํํ๋ค.
- ํ๋ก์ ํธ์ ์ ํฉํ ๋ถ์ ์ ํ์ ๊ฒฐ์
- ๊ธฐ๋ฒ
- ๋ถ์ฐ๋ถ์ฑ, ์๊ด๋ถ์, ํ๊ท๋ถ์ ๋ฑ ๊ณ ์ ๋ถ์ ๋ชจ๋ธ
- ์ ๊ฒฝ๋ง ๋ชจํ ๋ฑ ๋ฅ๋ฌ๋ ๋ถ์ ๋ชจ๋ธ
- ๊ณ์ธต์ ๊ตฐ์ง ๋ถ์ ๋ฑ
6. ๋ฐ์ดํฐ ๋ง์ด๋์ ์ํํ๋ค.
- ์ด์ ์ ๊ฒฐ์ ํ ์ฌํญ์ ํ ๋๋ก ๋ฐ์ดํฐ ๋ง์ด๋์ ์ํ
- ๋ค์ํ ๋ณ์ธ์ ์ ์ฉํ์ฌ ๋ถ์ ์ํ
- ํ๊ฐ์ฉ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ์ํ ํ ๊ฐ์ ๋๋ ๋ณ์ธ์ ํ ๋๋ก ์ ์ฉ
- ์ํ ๊ฒฐ๊ณผ๋ก ๊ตฌ์ถ๋ ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก ์ํ ์ ์ฉ
ํ์ต ๋ฐฉ๋ฒ๋ก
supervised- ๊ฐ๋ ํ๋ค, ์ง๋ํ๋ค
์ง๋ํ์ต(Supervised Learning)(๊ต์ฌํ์ต) : ์ถ๋ ฅ ๋ฐ์ดํฐ์ ๋ง๊ฒ ์ถ๋ ฅ๋๋๋ก ํ์ต์ฉ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ ์์ธก๋ณ์์ ์ถ๋ ฅ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ต (๋ชฉํ๊ฐ ํ์ค)
๋ฐ์ง๋ํ์ต(Semi-supervised Learning) : ์ง๋ํ์ต๊ณผ ์์จํ์ต์ ๋ฐฉ์์ ์กฐํฉํ์ฌ ์์ธก๋ณ์์ ์ถ๋ ฅ๋ณ์ ๊ฐ์ ์ผ๋ถ๋ฅผ ์์จ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ํํธ, ์ ํด์ง ๋ฐ์ดํฐ์ ์ ๋ํ ํ์ต ๋ํ ์ํ
์์จํ์ต(Unsupervised Learning)(๋น๊ต์ฌํ์ต) : ์ถ๋ ฅ๋ณ์๊ฐ ๋ช ํํ ์ ์๋์ง ์์ ๊ฒฝ์ฐ ์์ธก๋ณ์์ ๋ํ ์์จํ์ต์ ํตํ์ฌ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ (์ปดํจํฐ๊ฐ ์๊ธฐ๋ง์ ๊ตฌ์ถ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด๋ธ๋ค. / ๋ชฉํ๊ฐ ์๋ค.)
๋ฐ์ดํฐ ๋ง์ด๋ ์ ์ฉ ์ฌ๋ก
๊ณต๊ณต์์คํ
- ๊ตญ์ธ์ฒญ์ ํ์ธ ๋ฐฉ์ง ์์คํ ์ ์ ์ฉ
- ์ฌ๊ธฐ๋ฐฉ์ง ์๋ฅ์ , ์์ ๋คํธ์ํฌ ๋ถ์, ์ง๋ฅํ ๊ฐ์ง ์์คํ ๊ตฌ์ถ
- ์ธ๊ธ ๋๋ฝ ๋ฐ ๋ถํ์ํ ์ธ๊ธ ํ๊ธ ์ ๊ฐ ํจ๊ณผ ๋ฐ์
- ํ์ธ์ ์ ๊ฐ์ ๋ฐ ๋ฒ๋ ์ฌ๊ฑด ๋ฏธ์ฐ ๋ฐฉ์ง ๊ฐ๋ฅ
GPS ์์คํ
- ์๋์ฐจ์ ์ผ์ ๋ฐ์ดํฐ (์: GPS)๋ฅผ ํตํ์ฌ ๊ตํต ์ ๋ณด ์์ง
- ์ง๋ฅํ ๊ตํต ์ ๋ณด ์์คํ ์ ๊ตฌ์ถ ๊ฐ๋ฅ
- ์ค์๊ฐ ๊ตํต ์ ๋ณด๋ฅผ ๊ณต์ ํ์ฌ ์ต์ ์ ๊ตํต ์๋ด ์๋น์ค
- ๋ถํ์ํ ์๋์ง ๋ญ๋น ๋ฐฉ์ง ๋ฐ ๊ตํต ์์คํ ํจ์จ ์ฆ๋
๋ณด๊ฑด / ์๋ฃ
- ์ ์ ์ ์ ๋ณด๋ฅผ ํ ๋๋ก ์ง๋ณ ์ฐ๊ตฌ์ ํ์ฉ
- ์๋ก์ด ์ง๋ณ์ ๋ํ ๋น ๋ฅธ ์ง๋จ ์๋น์ค
- ๋์น๋ณ ๋ฐ ๋ถ์น๋ณ ๊ด๋ จ ์ ์ ์ ์ ๋ณด๋ฅผ ํ ๋๋ก ์ ์น๋ฃ์ ๊ฐ๋ฐ
- ์ต์ IT๊ธฐ์ ๊ฒฐํฉ์ผ๋ก ์น๋ฃ ํ๋ฅ ์์น
์ ์กฐ / ๋ฌผ๋ฅ / ๋ง์ผํ
- ์๋น์์ ๋์ฆ๋ฅผ ์์ธกํ์ฌ ์ ํ์ ๋ฏธ๋ฆฌ ์ ์กฐ ๋ฐ ๋ฐฐ๊ธ
- ์ ์กฐ/ ๋ฌผ๋ฅ/ ๋ง์ผํ ๋น์ฉ์ ์ต์ํ ๊ฐ๋ฅ
- ์ ํ์ ์๋น์ ๋๋ฌ ์๊ฐ ์ต์ํ
'๐ป IT > ๋น ๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋น์ ํ ๋ฐ์ดํฐ ๋ง์ด๋ (1) | 2024.04.27 |
---|---|
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(2) (0) | 2024.04.23 |
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(1) (1) | 2024.04.23 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (3) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (2) (1) | 2024.04.20 |
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(2)
๋ถ์ฐ ๋ถ์(ANOVA)
์ ์
- ํต๊ณํ์์ ๋ ๊ฐ ์ด์์ ๋ค์์ ์ง๋จ์ ๋น๊ตํ ๋ F๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ๊ฐ์ค๊ฒ์ ์ ํ๋ ๋ฐฉ๋ฒ
- ANOVA = ANalysis Of VAriance
์ญ์ฌ
- ํต๊ณํ์ ๋ก๋ ๋ ํผ์ (R.A.Fisher)์ ์ํด 1920๋ ๋ ~ 1930๋ ๋์ ๊ฑธ์ณ ์์ฑ
F๋ถํฌ
์ ์
- ๋ถ์ฐ์ ๋น๊ต๋ฅผ ํตํ์ฌ ์ป์ด์ง๋ ๋ถํฌ ๋น์จ
- F = (๊ตฐ๊ฐ๋ณ๋) / (๊ตฐ๋ด๋ณ๋) *๊ตฐ=์ง๋จ
ํน์ฑ
- ์ง๋จ ๊ฐ์ ๋์ง์ฑ์ ๊ฐ์ ํ๊ณ ๋ถ์
- ๊ตฐ๋ด๋ณ๋์ด ํฌ๋ฉด -> ์ง๋จ ๊ฐ ํ๊ท ์ฐจ์ด ํ์ธ ์ด๋ ค์
- ๋ถ์ฐ ์ฐจ์ด๊ฐ ํฐ ๊ฒฝ์ฐ -> ์ ๋ฐ ์์ธ ์ ๊ฑฐ ํ์
F๋ถํฌ์ ๊ฐ์
์ ๊ท์ฑ ๊ฐ์
- ๋ชจ์ง๋จ์์ ๋ณ์ธ Y๋ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค.
- ๋ชจ์ง๋จ์์ ๋ณ์ธ Y์ ํ๊ท ์ ๋ค๋ฅผ ์ ์๋ค.
๋ถ์ฐ์ ๋์ง์ฑ ๊ฐ์
- Y์ ๋ชจ์ง๋จ ๋ถ์ฐ์ ๊ฐ ๋ชจ์ง๋จ์์ ๋์ผํ๋ค.
๊ด์ฐฐ์ ๋ ๋ฆฝ์ฑ ๊ฐ์
- ๊ฐ๊ฐ์ ๋ชจ์ง๋จ์์ ํฌ๊ธฐ๊ฐ n1, n2์ธ ํ๋ณธ์ด ๋ ๋ฆฝ์ ์ผ๋ก ํ์ง๋๋ค.
F๋ถํฌ์ ๊ณ์ฐ
Fํต๊ณ์น
- ๋ชจ์ง๋จ ๋ถ์ฐ์ ์ถ์ ์น์ ๋น์จ ๊ณ์ฐ
- F๊ฐ์ ํน์ ํ ์ด๋ก ์ ํ๋ฅ ๋ถํฌ์ธ F๋ถํฌ๋ฅผ ๋ฐ๋ฆ
๋ถ์ฐ๋ถ์์ ๋ชจํ
- ๊ณ ์ ํจ๊ณผ ๋ชจํ: ์์ค์ ์ ํ์ด ๊ธฐ์ ์ ์ผ๋ก ์ ํด์ง๊ณ ๊ฐ ์์ค์ด ๊ธฐ์ ์ ์๋ฏธ๋ฅผ ๊ฐ์ง ํจ๊ณผ ์ธ์
- ๋ฌด์ ํจ๊ณผ ๋ชจํ: ์์ค์ ์ ํ์ด ์์๋ก ์ด๋ฃจ์ด์ง๋ฉฐ ๊ฐ ์์ค์ด ๊ธฐ์์ ์๋ฏธ๋ฅผ ๊ฐ์ง์ง ์์ ํจ๊ณผ ์ธ์
- ํผํฉํจ๊ณผ ๋ชจํ: ๊ณ ์ ํจ๊ณผ ์ธ์์ ๋ฌด์ ํจ๊ณผ ์ธ์๊ฐ ํจ๊ป ์ฌ์ฉ๋ ๊ฒฝ์ฐ
๋ถ์ฐ๋ถ์์ ์ข ๋ฅ
- ์ผ์๋ถ์ฐ๋ถ์(one-way ANOVA): ์ข ์๋ณ์ธ์ด 1๊ฐ์ด๋ฉฐ ๋ ๋ฆฝ๋ณ์ธ ์ง๋จ๋ 1๊ฐ
- ์ด์๋ถ์ฐ๋ถ์(two-way ANOVA): ๋ ๋ฆฝ๋ณ์ธ์ ์๊ฐ 2๊ฐ ์ด์์ผ ๋ ์ง๋จ ๋น๊ต
- ๋ค์๋ณ๋๋ถ์ฐ๋ถ์(MANOVA): ๋ ๊ฐ ์ด์ ์ข ์๋ณ์ธ์ด ๊ด๊ณ๋ ์ํฉ์ ์ ์ฉ
- ๊ณต๋ถ์ฐ๋ถ์(ANCOVA): ํน์ ํ ๋ ๋ฆฝ๋ณ์ธ ์์ฃผ๋ก ๋ถ์ํ๊ณ ๋ค๋ฅธ ๋ ๋ฆฝ๋ณ์ธ์ ํต์ ๋ณ์๋ก ์ค์ ๋ถ์
์๊ด๋ถ์(Correlation Analysis)
์ ์
- ๋ ๋ณ์ ๊ฐ์ ์ ํ์ ๊ด๊ณ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ
- ๋ ๋ณ์๋ ๋ ๋ฆฝ์ ์ด๊ฑฐ๋ ์๊ด๋ ์ ์๋ค.
- ๋ ๋ณ์ ๊ฐ์ ๊ฐ๋๋ฅผ ์๊ด๊ณผ๊ณ๋ผ๊ณ ํจ (Correlation, Correlation coefficient)
์๊ด๋ถ์์ ๊ฐ์
- ์ ํ์ฑ: ๋ ๋ณ์ธ X, Y์ ์ง์ ์ ์ธ ์ ๋, ์ ์ ๋๋ฅผ ์ฌ์ฉ
- ๋๋ณ๋์ฑ: X์ ๊ฐ์ ๊ด๊ณ์์ด Y์ ํฉ์ด์ง ์ ๋๊ฐ ๊ฐ์ ๊ฒ (์ด๋ถ์ฐ์ฑ์ ๋ฐ๋์ด)
- ์ ๊ท๋ถํฌ์ฑ: ๋ ๋ณ์ธ์ ์ธก์ ์น ๋ถํฌ๋ ๋ชจ์ง๋จ์์ ์ ๊ท๋ถํฌ
- ๋ฌด์ ๋ ๋ฆฝํ๋ณธ: ๋ชจ์ง๋จ์์ ํ๋ณธ์ ์ถ์ถํ ๋ ํ๋ณธ๋์์ด ํ๋ฅ ์ ์ผ๋ก ์ ์ ๋๋ ๊ฒ
์๊ด๋ถ์์ ๋ถ์ ๋ฐฉ๋ฒ
1. ํผ์ด์จ ์๊ด๊ณ์(Pearson Correlation Coefficient)
- ๋ ๋ณ์ ๊ฐ์ ๊ด๋ จ์ฑ์ ๊ตฌํ๊ธฐ ์ํด ๋ณดํธ์ ์ด์ฉ
- r=(X์ Y์ ๋ณํ ์ ๋)/(X์ Y ๊ฐ๊ฐ ๋ณํ๋ ์ ๋)
- r์ ๊ฐ์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ํด์
- +1 = X์ Y๊ฐ ์์ ๋์ผ
- 0 = X์ Y๊ฐ ์ ํ ๋ค๋ฅธ ๊ฒฝ์ฐ
- -1 = X์ Y๊ฐ ๋ฐ๋๋ฐฉํฅ์ผ๋ก ๋์ผ
- r2 = ๊ฒฐ์ ๊ณ์ (Coefficient of determination)
2. ์คํผ์ด๋ง ์๊ด๊ณ์(Spearman Correlation Coefficient)
- ๋ฐ์ดํฐ๊ฐ ์์ด์ฒ๋(์์๊ฐ)์ธ ๊ฒฝ์ฐ์ ์๊ด๊ณ์
- ๋ฐ์ดํฐ๋ฅผ ์์ ๊ฒ๋ถํฐ ์ฐจ๋ก๋ก ์์๋ฅผ ๋งค๊ฒจ ์์ด ์์๋ก ๋ฐ๊พผ ๋ค ์์๋ฅผ ์ด์ฉํ์ฌ ์๊ด๊ณ์ ๊ณ์ฐ
- ์๋ฃ์ ์ด์์ ์ด ์๊ฑฐ๋ ํ๋ณธํฌ๊ธฐ๊ฐ ์์ ๋ ์ ์ฉ
- ์๊ด๊ณ์๊ฐ์ ๋ฐ๋ฅธ ๋ถ๋ฅ
- +1 = ๋ ๋ณ์ ์์ ์์๊ฐ ์์ ํ ์ผ์น
- -1 = ๋ ๋ณ์ ์์ ์์๊ฐ ์ญ์์ธ ๊ฒฝ์ฐ
3. ํฌ๋ก ๋ฐํ ์ํ ๊ณ์ ์ ๋ขฐ๋(Cronbach's Alpha)
- ๊ฒ์ฌ์ ๋ด์ ์ผ๊ด์ฑ์ ๋ํ๋ด๋ ๊ฐ a๊ณ์ฐ
- ํ ๊ฒ์ฌ ๋ด์์ ๋ณ์๋ค ๊ฐ์ ํ๊ท ์๊ด๊ด๊ณ์ ๊ทผ๊ฑฐํ์ฌ ๊ฒ์ฌ๋ฌธํญ๋ค์ด ๋์ง์ ์์๋ก ๊ตฌ์ฑ๋์ด ์๋์ง๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ
- ๋์ผํ ๊ฐ๋ ์ธ ๊ฒฝ์ฐ -> ๊ฒฐ๊ณผ๊ฐ ๋น์ท
- ๋์ผํ์ง ์์ ๊ฐ๋ ์ธ ๊ฒฝ์ฐ -> ๊ฒฐ๊ณผ๊ฐ ์์ด
ํ๊ท๋ถ์(Regression Analysis)
ํ๊ท(๋๋์๊ฐ๋ค)
์ ์: ๊ด์ฐฐ๋ ์ฐ์ํ ๋ณ์๋ค ๊ฐ์ ๋ชจํ์ ๊ตฌํ ๋ค ์ ํฉ๋๋ฅผ ์ธก์ ํ๋ ๋ถ์ ๋ฐฉ๋ฒ
ํ๊ท๋ถ์์ ๊ฐ์
- ์ค์ฐจํญ์ ๋ชจ๋ ๋ ๋ฆฝ๋ณ์์ ๋ํ์ฌ ๋์ผ ๋ถ์ฐ์ ๊ฐ์ง
- ์ค์ฐจํญ์ ํ๊ท (๊ธฐ๋๊ฐ)์ 0์ด๋ค.
- ์์ง๋ ๋ฐ์ดํฐ์ ํ๋ฅ ๋ถํฌ๋ ์ ๊ท ๋ถํฌ๋ฅผ ์ด๋ฃฌ๋ค.
- ๋ ๋ฆฝ๋ณ์ ๊ฐ์๋ ์๊ด๊ด๊ณ๊ฐ ์์ด์ผ ํ๋ค.
- ์๊ฐ์ ๋ฐ๋ผ ์์ง๋ ๋ฐ์ดํฐ๋ ์ก์ ์ํฅ์ด ์๋ค.
์๊ณ์ด ๋ฐ์ดํฐ
์๊ณ์ด(Time series): ์ผ์ ๊ฐ๊ฒฉ์ผ๋ก ๋ฐฐ์น๋ ๋ฐ์ดํฐ์ ์์ด
์๊ณ์ด ํด์(Time Series Analysis)
- ์๊ณ์ด์ ํด์ํ๊ณ ์ดํดํ๋ ๋ฐฉ๋ฒ
- ์๊ณ์ด์ด ์ด๋ ํ ๋ฒ์น์์ ์์ฑ๋๋์ง ๋ฐํ๋ด๋ ์์
์๊ณ์ด ์์ธก(Time Series Prediction)
- ์๊ณ์ด์ ๊ธฐ๋ฐ์ผ๋ก ์ํ์ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ๋ฏธ๋์ ๋ฐ์ํ๋ ์๊ณ์ด์ ํํ๋ฅผ ์์ธกํ๋ ์์
- ๊ณตํ, ๊ณผํ, ๊ธ์ต์์ฅ ๋ฑ์์ ์ฌ์ฉ
์๊ณ์ด ๋ฐ์ดํฐ ๋ถ์
Autoregressive (AR) ๋ชจ๋ธ
- ์๊ธฐ์๊ด์ฑ(autocorrlation) ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ
- ์ด๋ ํ ๋ณ์ธ์ ๋ํ์ฌ ์ด์ ์ ๊ฐ์ด ์ดํ์ ๊ฐ์ ์ํฅ์ ๋ฏธ์น๋ ์ํฉ์ ๋ชจ๋ธ๋ง
- ์) ์ด์ ์ ๊ฐ์ด ๊ฐ์ -> ์ดํ์ ๊ฐ์ด ๊ฐ์
- AR ๋ชจํ
Moving Average (MA) ๋ชจ๋ธ - ์ด๋ํ๋ ํ๊ท ๋ชจ๋ธ
- ์ด๋ค ๋ณ์์ ํ๊ท ๊ฐ์ด ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๊ฑฐ๋ ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ํ ๋ชจ๋ธ๋ง
- ์) ๋ด์์ ์ฌ๋ฆ์ด ๋๋ฉด ์ ๊ธฐ ์์๊ฐ ๋์ฒด๋ก ์ฆ๊ฐ
- MA๋ชจํ
ARMA๋ชจ๋ธ
- ๊ธฐ์กด์ AR ๋ชจ๋ธ๊ณผ MA๋ชจ๋ธ์ ํตํฉํ์ฌ ๋ค์ํ ํตํฉ ๋ชจ๋ธ์ด ๋์ถ๋ ์ ์์
- ARMA๋ชจ๋ธ
Integrated (I) ๋ชจ๋ธ - ํตํฉ๋ ๋ชจ๋ธ
- AR๋ชจ๋ธ, MA๋ชจ๋ธ ์ธ์ ํตํฉ ๋ชจ๋ธ์ ๊ณ ๋ ค
- ๊ณผ๊ฑฐ์ ๋ฐ์ดํฐ ๋ฟ๋ง ์๋๋ผ ์ถ์ธ(momentum)๊น์ง ๋ฐ์ํ ๋ชจ๋ธ
- ARIMA ๋ชจ๋ธ
'๐ป IT > ๋น ๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋น์ ํ ๋ฐ์ดํฐ ๋ง์ด๋ (1) | 2024.04.27 |
---|---|
๋ฐ์ดํฐ ๋ง์ด๋ (0) | 2024.04.26 |
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(1) (1) | 2024.04.23 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (3) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (2) (1) | 2024.04.20 |
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(1)
ํต๊ณ (Statistics)
- ์ ์ : ํ๋ณธ(์์งํ ๋ฐ์ดํฐ)์ ํตํ์ฌ ๋ชจ์ง๋จ์ ์ถ์ ํ๊ธฐ ์ํ ํ๋ฌธ
- ๋น
๋ฐ์ดํฐ์์ ๊ด๊ณ
- ํ๋ณธ(=๋ฐ์ดํฐ)๋ฅผ ์์งํ๊ณ ๋ถ์ํ๋ ๊ณ ์ ๊ณผ์
- ๋น ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ ํ๋ฌธ
์ฉ์ด ์ค๋ช
- ๋ชจ์ง๋จ(Population) : ์ ๋ณด๋ฅผ ์ป๊ณ ์ ํ๋ ๋ชฉํ ๋์์ ์ ์ฒด ์ง๋จ
- ํ๋ณธ(Sample) : ๋ชจ์ง๋จ์ ์ผ๋ถ์ด๋ฉฐ, ๊ด์ฐฐํ์ฌ ํ๋ํ ๋ฐ์ดํฐ
- ๋ชจ์ง๋จ๊ณผ ํ๋ณธ์ ๊ด๊ณ
- ๋ชจ์ง๋จ์ ์ ์ ์กฐ์ฌ๋ฅผ ํตํ์ฌ ํ์ ๊ฐ๋ฅ -> ๋นํจ์จ
- ํ๋ณธ์ ํตํ์ฌ ๋ชจ์ง๋จ์ ์ ๋ณด๋ฅผ ์ถ์
ํ๋ณธ์ ์์ฒ
- ์ ๋ถ, ๊ณต๊ณต๊ธฐ๊ด ๋ฑ์ ๋ฐ์ดํฐ ์์ง
- ์คํ์ ํตํ ๋ฐ์ดํฐ ํ๋
- ์ค๋ฌธ์กฐ์ฌ ๋ฑ์ ํตํ ๋ฐ์ดํฐ ํ๋
- ์ฌ๋ฌผ, ๊ฐ์ฒด, ํ์์ ๊ด์ฐฐ์ ํตํ ๋ฐ์ดํฐ ํ๋
๋ฐ์ดํฐ์ ์ ํ
๋ฒ์ฃผ ๋ฐ์ดํฐ(Categorical Data)
- ๋ฐ์ดํฐ์ ๋ฒ์ฃผ(category)๋ฅผ ์ฌ์ ์ ์ ์ํ๊ณ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ฒ์ฃผ์ ๋ฐ๋ผ ๋ถ๋ฅํ ๋ฐ์ดํฐ
- ์) ๋จ๋ ์ฑ๋ณ, ์ง์ , ์/๊ตฐ/๊ตฌ ๋ฑ ๊ฑฐ์ฃผ ์ง์ญ
์์น ๋ฐ์ดํฐ(Numerical Data)
- ์ธก์ ํ์ฌ ์ซ์์ ํํ๋ก ํ๋ํ ๋ฐ์ดํฐ
- ์) ํค, ๋ชธ๋ฌด๊ฒ, ์จ์ต๋, ๋ฌผํ์ ๊ฐ๊ฒฉ
ํต๊ณ์ ๋ถ๋ฅ
๊ธฐ์ ํต๊ณ(Descriptive Statistics)
- ํ๋ณธ์ ์์ง -> ์ ๋ฆฌ ๋ฐ ์์ฝ
- ๋ชฉ์ : ์์งํ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ์ถ์ถ
์ถ์ธกํต๊ณ(Inferential Statistics)
- ํ๋ณธ์ ๋ถ์ -> ๋ชจ์ง๋จ์ ์ ๋ณด๋ฅผ ์ถ์ธก
- ๋ชฉ์ : ๋ชจ์ง๋จ์ ์ ๋ณด ์ถ์ธก์ ํ์ง์ ๋์
ํต๊ณ ์๋ฃ์ ์์ฝ
๋์๋ถํฌ๋(Frequency Distribution Table)
- ๊ตฌ๊ฐ/๋ฒ์ฃผ๋ณ๋ก ํ๋ณธ์ ์ถํ ๋น๋์๋ฅผ ํํํ ํ
- ๊ตฌ์ฒด์ ์ธ ์์น๋ฅผ ํตํ ๋ถ์ ๊ฐ๋ฅ
ํ์คํ ๊ทธ๋จ(Histogram)
- ๊ตฌ๊ฐ/๋ฒ์ฃผ๋ณ ๋น๋์๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ์๊ฐํ ํํ
- ์(magnitude)์ ์ง๊ด์ ์ผ๋ก ํํ
ํต๊ณ ์๋ฃ์ ๋ถ์
์ฐ์ ํ๊ท (Mean/Averate): ํ๋ณธ์ ํฉ์ ํ๋ณธ์ ์๋ก ๋๋ ๊ฐ
์ค์๊ฐ(Median): ํ๋ณธ์ ํฌ๊ธฐ์ ์์๋ก ๋์ดํ์์ ๋ ์ค์์ ์ถํํ๋ ๊ฐ
์ต๋น๊ฐ(Mode): ํ๋ณธ ์ค ๊ฐ์ฅ ํฐ ๋น๋์๋ก ์ถํํ๋ ๊ฐ
๋ฒ์(Range): ํ๋ณธ์ ๊ฐ์ฅ ํฐ ๊ฐ๊ณผ ๊ฐ์ฅ ์์ ๊ฐ์ ์ฐจ์ด
๋ถ์ฐ(Variance): ์ฐ์ ํ๊ท ๊ณผ ํ๋ณธ๊ฐ์ ์ฐจ์ด์ ์ ๊ณฑํฉ์ ํ๋ณธ์ ์๋ก ๋๋ ๊ฐ
ํ์คํธ์ฐจ(Standard Deviation): ๋ถ์ฐ์ ์ ๊ณฑ๊ทผ์ผ๋ก ํ๋ณธ์ ๋ถํฌ๋ฅผ ๋ํ๋
ํ๋ฅ (Probability)
- ๋ชจ์ง๋จ์ ์ ๋ณด๊ฐ ์์
- ๋ชจ์ง๋จ ๋๋น ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ ๋น์จ์ ํํ
- ์) ์ฃผ์ฌ์๋ฅผ ๋ฌดํ ๋ฒ ๋์ ธ 3์ด ๋์ค๋ ๋น์จ์ ํํ
ํ๋ฅ ์ ํ์์ฑ
- ์ฌ๊ฑด์ ์ผ๋ฐํ
- ์ฌ๊ฑด์ ๊ฒฝํฅ์ ์ ์ ์์ -> ๋ฏธ๋์ ๋๋น ๊ฐ๋ฅ
ํ๋ฅ ์ ์ ํ
๋จ์ ํ๋ฅ (Simple probability): ํ๊ฐ์ง์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ
๊ฒฐํฉ ํ๋ฅ (Joint Probability): ๋๊ฐ์ง ์ด์์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ
์กฐ๊ฑด๋ถ ํ๋ฅ (Conditional Probability): ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ์๋ค๋ ์ ์ ํ์ ๋ ๋ค๋ฅธ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ
ํต๊ณ์ ํ๋ฅ ์ ์ฐจ์ด์
ํต๊ณ
- ๋ชจ์ง๋จ์ ์ ๋ณด๊ฐ ์์ -> ํ๋ณธ์ผ๋ก ๋ชจ์ง๋จ์ ์ถ์ ( ๋ชจ์ง๋จ์ ์๊ณ ์ถ์ ๊ฒ)
- ์) ์ฃผ์ฌ์๋ฅผ 100๋ฒ ๋์ ธ 3์ด ๋์ค๋ ๋น์จ ์ธก์
ํ๋ฅ
- ๋ชจ์ง๋จ์ ์ ๋ณด๊ฐ ์์
- ๋ชจ์ง๋จ ๋๋น ํน์ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ ๋น์จ์ ํํ
- ์) ์ฃผ์ฌ์๋ฅผ ๋ฌดํ ๋ฒ ๋์ ธ 3์ด ๋์ค๋ ๋น์จ์ ํํ
ํ๋ฅ ๋ณ์(Random Variable)
์ ์ : 2๊ฐ ์ด์์ ๊ฐ์ ์ทจํ ์ ์๋ ๋ณ์
์ข ๋ฅ
- ์ด์ฐํ๋ฅ ๋ณ์: ๊ฐ์ด ๋ฒ์ฃผํ ๋์ด ์๋ ๊ฒฝ์ฐ
- ์ฐ์ํ๋ฅ ๋ณ์: ๊ฐ์ด ์ฐ์์ ์ธ ๊ฒฝ์ฐ
ํ๋ฅ ๋ถํฌ(Probability Distribution)
์ ์ : ๋ฐ์ดํฐ๊ฐ ์ถํํ ํ๋ฅ ์ ๋ถํฌ
ํ์์ฑ
- ๋ฐ์ดํฐ ์ถํ์ ์ ๋๋ฅผ ์ผ๋ฐํ -> ๋ฏธ๋์ ์์ธก ๊ฐ๋ฅ
- ํ๋ณธ๋ด์์ ํ๋ฅ ๋ณ์์ ์ถํ ํ๋ฅ ์ ๋ฐํ์ผ๋ก ๋ชจ์ง๋จ์์์ ํ๋ฅ ๋ณ์์ ์ถํ ํ๋ฅ ์ถ์ ๊ฐ๋ฅ
์ข ๋ฅ
- ์ด์ฐ ํ๋ฅ ๋ถํฌ(Discrete Probability Distribution)
- ์ด์ฐ ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง๋ ํ๋ฅ ๋ถํฌ
- ํ๋ฅ ์ง๋ ํจ์(Prob.Mass Function)ํํ
- ์ฐ์ ํ๋ฅ ๋ถํฌ(Continuous Probabilty Distribution)
- ์ฐ์ ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง๋ ํ๋ฅ ๋ถํฌ
- ํ๋ฅ ๋ฐ๋ ํจ์(Prob.Density Function)ํํ
์ฉ์ด
๊ธฐ๋๊ฐ(Expectation)
- ํ๋ฅ ๋ฐ์ดํฐ๊ฐ ์ง์ค๋๋ ๊ฒฝํฅ์ฑ์ ๋ํํ๋ ๊ฐ
- Σ(ํ๋ฅ ๋ณ์ X ํ๋ฅ ) -> ํ๋ฅ ๋ณ์์ ๋ํ์ฌ ๋ฐ์ ํ๋ฅ ์ ๊ณฑํ ๊ฒ์ ํฉ
๋ถ์ฐ(Variance)
- ํ๋ฅ ๋ฒ์๊ฐ ๊ธฐ๋๊ฐ์ผ๋ก๋ถํฐ ๋ฒ์ด๋ ์ ๋๋ฅผ ํํ
- Σ(ํ๋ฅ ๋ณ์ - ๊ธฐ๋๊ฐ)2์ ๊ณฑ X ํ๋ฅ
ํ์คํธ์ฐจ(Standard Deviation)
- ๋ถ์ฐ์ ์ ๊ณฑ๊ทผ์ผ๋ก, ๊ธฐ๋๊ฐ ๋๋น ๋ถํฌ ์ ๋ ํํ
์ ๊ท ๋ถํฌ(Normal Distribution)
์ ์
- ํ๊ท ๊ณผ ํ์คํธ์ฐจ ๊ธฐ๋ฐ์ ์ฐ์ ํ๋ฅ ๋ถํฌ
- ์ค์ฌ๊ทนํ์ ๋ฆฌ์ ๊ทผ๊ฑฐ -> ํ๋ฅ ๋ณ์์ ํ๊ท ์ ์ ๊ท ๋ถํฌ์ ๊ทผ์ ํ๋ ์ฑ์ง
ํน์ฑ
- ์ ๋๊ทผ์ฌํ๋ค.
- ํ๊ท ๊ณผ ํ์คํธ์ฐจ๊ฐ ์ฃผ์ด์ง๋ฉด -> ์ํธ๋กํผ๋ฅผ ์ต๋ํ
- ์ ๊ท ๋ถํฌ ๊ณก์ ์ ํ๊ท ๋๋น ์ข์ฐ ๋์นญ
- ์ค์๊ฐ์ ํ๋ฅ ์ด ์ต๋
๋ชจ์ง๋จ์ ์ถ์
์ถ์ ์ด๋ก (Estimation Theory)
์ ์ : ํต๊ณํ๊ณผ ์ ํธ์ฒ๋ฆฌ์ ํ ๋ถ์ผ๋ก, ํ๋ณธ์ ๋ฐํ์ผ๋ก ์ธ์(parameter)๋ฅผ ์ถ์ ํ๋ ํ๋ฌธ
ํ์์ฑ : ํ์ ๋ ๋ฐ์ดํฐ(=ํ๋ณธ)์ ๋ฐํ์ผ๋ก ์ต์ ์ ์ถ์ ๋ฐฉ๋ฒ๋ก (=์ถ์ ๋) ์ ์ ์ฉ ๊ฐ๋ฅ
์ถ์ ๋ฐฉ๋ฒ๋ก (Estimation Methodology) / ์ถ์ ๋(Estimator)
MLE(Maximum Likelihood Estimation): ์ฌ์ ์ ๋ณด๊ฐ ์๋ ์ํฉ์์ ์ฑ๋ฅ์ ์ต๋ํํ๋ ์ธ์ ์ถ์ ๋ฐฉ๋ฒ
MAP(Maximum A Posteriori): ์ฌ์ ์ ๋ณด๋ ๊ทธ ๊ฐ์ ์ ๋ฐํ์ผ๋ก ์ฑ๋ฅ์ ์ต๋ํํ๋ ์ธ์ ์ถ์ ๋ฐฉ๋ฒ
์ต์์ ๊ณฑ๋ฒ(Least Squares): ์ฌ์ ์ ๋ณด์ ์ค์ฐจ ์ ๊ณฑ์ ์ต์ํํ๋ ์ธ์ ์ถ์ ๋ฐฉ๋ฒ
MMSE(Minimum Mean Squared Error): ์ฌ์ ์ ๋ณด์ ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ(MSE)๋ฅผ ์ต์ํํ๋ ์ธ์ ์ถ์ ๋ฐฉ๋ฒ
์นผ๋ง ํํฐ(Kalman Filter): ์ด์ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ์ ํ ๋ชจ์ง๋จ์ ์ธ์๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ
๋ชจ์ง๋จ์ ์ถ์ (Estimating Population)
์ ์
- ํ๋ณธ์ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์ถ์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์ฌ ๋ชจ์ง๋จ์ ์ ๋ณด(ํ๊ท , ๋น์จ)๋ฅผ ์ ํํ๊ฒ ์ถ์
- ์ถ์ ์ด๋ก (Estimation Theory)์ ํ ๊ฐ๋
ํ์์ฑ
- ๋ชจ์ง๋จ์ ์ ์์กฐ์ฌํ๋ ๊ฒฝ์ฐ -> ๋ถ์ ๊ฒฝ์ ์ฑ ํ๋ฝ
- ํ๋ณธ์ ๋ฐํ์ผ๋ก ๋ชจ์ง๋จ์ ์ ํํ๊ฒ ์ถ์ ํ๋ ๊ฒฝ์ฐ -> ๋ถ์ ๋น์ฉ ์ ์ฝ ๊ฐ๋ฅ, ๋ถ์ ํจ์จ์ฑ ํฅ์
๋ถ์ฐ์ ์ข ๋ฅ
๋ชจ ๋ถ์ฐ(Population Variance): ๋ชจ์ง๋จ์ผ๋ก๋ถํฐ ๊ตฌํ ๋ถ์ฐ
ํ๋ณธ ๋ถ์ฐ(Sample Variance): ํ๋ณธ์ผ๋ก๋ถํฐ ๊ตฌํ ๋ถ์ฐ
ํ์คํธ์ฐจ์ ์ข ๋ฅ
๋ชจ ํ์คํธ์ฐจ(Population Std. Dev.) : ๋ชจ์ง๋จ์ผ๋ก๋ถํฐ ๊ตฌํ ํ์คํธ์ฐจ
ํ๋ณธ ํ์คํธ์ฐจ(Sample Std. Dev.) : ํ๋ณธ์ผ๋ก๋ถํฐ ๊ตฌํ ํ์คํธ์ฐจ
๋ชจ์ง๋จ ํ๊ท ์ถ์ (Estimationg Population Mean)
์์งํ ๋ฐ์ดํฐ
- ์ถฉ๋ถํ ํฐ ํ๋ณธ์ ๊ฐ์n (=๋น ๋ฐ์ดํฐ)
- ํ๋ณธ์ ํ๊ท x์ ํ์คํธ์ฐจ s
- ์ ์ ์์ค a (์ ๋ขฐ์์ค = 1- a)
์ ๋ขฐ๊ตฌ๊ฐ ์ถ์
๋ชจ์ง๋จ ๋น์จ ์ถ์ (Estimating Population Ratio)
์์งํ ๋ฐ์ดํฐ
- ์ถฉ๋ถํ ํฐ ํ๋ณธ์ ๊ฐ์n (=๋น ๋ฐ์ดํฐ)
- ํ๋ณธ์ ๋น์จ p
- ์ ์์์ค a (์ ๋ขฐ์์ค= 1 - a)
์ ๋ขฐ๊ตฌ๊ฐ ์ถ์
'๐ป IT > ๋น ๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ๋ง์ด๋ (0) | 2024.04.26 |
---|---|
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(2) (0) | 2024.04.23 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (3) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (2) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (1) (0) | 2024.04.19 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (3)
์์ฌ๊ฒฐ์ (Decision Making)
- ํ๋ ์ด์์ ์กฐ๊ฑด์ ํ๊ฐํ์ฌ ๊ทธ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ๋ค์ํ ํ๋ฆ์ผ๋ก ๋ช ๋ น๋ฌธ์ ์ํํ๋ ๊ตฌ์กฐ
- R์์๋ if๋ฌธ, if~else๋ฌธ, switch๋ฌธ์ ์ ๊ณต
- ์์ฌ๊ฒฐ์ ๊ตฌ์กฐ์ ์ฉ๋
if๋ฌธ : ์กฐ๊ฑด์ด ์ฐธ์ผ ๋๋ง ๋ช ๋ น๋ฌธ์ ์ํ
- ์กฐ๊ฑด์ด ์ฐธ(TRUE)์ธ ๊ฒฝ์ฐ์๋ง ๋ช ๋ น์ด ์ํ
- ๊ฐ์ฅ ๋จ์ํ ์์ฌ๊ฒฐ์ ๊ตฌ์กฐ
x<-36L
if(is.integer(x)){
print("x๋ ์ ์")
}
[1] "x๋ ์ ์"
if~esle๋ฌธ : ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ณ๊ฐ์ ๋ช ๋ น๋ฌธ์ ์ํ
- ์กฐ๊ฑด์ด ์ฐธ(TRUE)์ธ ๊ฒฝ์ฐ์ ๊ฑฐ์ง(FALSE)์ธ ๊ฒฝ์ฐ ์๋ก ๋ค๋ฅธ ๋ช ๋ น๋ฌธ์ ์ํํ๋ ์์ฌ๊ฒฐ์ ๊ตฌ์กฐ
x<-3.14
if(is.integer(x)){
print("์ ์์
๋๋ค")
}else{
print("์ ์๊ฐ ์๋๋๋ค")
}
[1] "์ ์๊ฐ ์๋๋๋ค"
switch๋ฌธ : ๋ค์ํ ๊ฐ์ ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ณ๊ฐ์ ๋ช ๋ น๋ฌธ์ ์ํ
- ์กฐ๊ฑด์ด ์ผ์นํ๋ ๊ฒฝ์ฐ(case)์ ๋ช ๋ น๋ฌธ์ ์คํ
- ์กฐ๊ฑด์ด ๋ค์๋ก์ ๋ถ๊ธฐ๋ฅผ ๊ฐ์ง ๋ ์ ๋ฆฌ
- ๋ค๋ฅธ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์ ๋ฌ๋ฆฌ ๊ธฐ๋ณธ๊ฐ(default)์ด ์์
x<-"han"
switch(x, "kim"="๊น", "lee"="์ด", "han"="ํ")
[1] "ํ"
๋ฃจํ(Loop)
- ํน์ ํ ๋ช ๋ น๋ฌธ์ ์กฐ๊ฑด์ ๋ฐ๋ผ ์ฌ๋ฌ๋ฒ ์คํํ๊ณ ์ ํ ๋ ์ฌ์ฉํ๋ ๊ตฌ์กฐ
- ์ข ๋ฅ : repeat ๋ฃจํ, while ๋ฃจํ, for ๋ฃจํ
repeat ๋ฃจํ
- ๋ฌดํํ ๋ฐ๋ณตํ์ฌ ๋ช ๋ น๋ฌธ์ ์คํํ๋ ๊ตฌ์กฐ
- if๋ฌธ๊ณผ break๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ๋ณต์์ ํ์ถํ ์ ์์
i<-1
repeat {
i<-i+1
if(i==3) { #๋ฐ๋ณตํ๋ค i๊ฐ 3์ด ๋๋ฉด ์๋ ์คํํ break
print(i)
break
}
}
[1] 3
while ๋ฃจํ
- ์กฐ๊ฑด์ด ์ฐธ์ด๋ฉด ๋์ผํ ๋ช ๋ น๋ฌธ์ ๋ค์ ์คํํ๋ ๋ฃจํ
- ๋ช ๋ น๋ฌธ์ ์คํ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ์กฐ๊ฑด์ด ๊ฑฐ์ง์ด ๋๋ฉด ๋ฐ๋ณต๋ฌธ์ผ๋ก๋ถํฐ ํ์ถํ๋ ๊ฒ์ด ๊ฐ๋ฅ
i<-1
while(i<3) { #i๊ฐ 3๋ฏธ๋ง์ธ ๊ฒฝ์ฐ ๊ณ์ ๋ฐ๋ณต
i<-i+1
}
i
[1] 3
for ๋ฃจํ
- ๋ฒกํฐ์ ๊ฐ ์ฑ๋ถ์ ๋ฐ๋ผ ๋ฐ๋ณตํ๋ ๋ฃจํ ๊ตฌ์กฐ
- ๋ฒกํฐ ์ฑ๋ถ์ ์์น(index)์ ์ผ์ผํ ์ ๊ทผํ์ง ์์ผ๋ฏ๋ก ๋ฒกํฐ ์ฑ๋ถ๋ณ ๋ช ๋ น๋ฌธ์ ์ํํ๋ ๊ตฌ์กฐ์ผ๋ ์ ๋ฆฌ
- ๋ฒกํฐ ์ฑ๋ถ์ ๊ฐ์ ๋์ ํ๊ธฐ ์ํ ๋ณ์ ์ง์ ํ์
v<-c(2,3,5,7,10)
s<-0 #s๋ณ์ 0์ผ๋ก ์ด๊ธฐํ
for(ve in v) { #v์์ ๋ค์ด์๋ ๋ณ์๋ค์ ve์์ ๋ฃ๋๋ค
s<-s+ve #s๋ณ์ ์์ s+ve๊ฐ์ ๋ฃ์ด๋ผ
}
print(s)
[1] 27
๋ฃจํ ์ ์ด ๋ช ๋ น๋ฌธ
break๋ฌธ : ํ์ฌ ์คํ์ค์ธ ๋ฃจํ๋ฌธ์ ์ค๋จํ๊ณ , ๋ฃจํ๋ฌธ ์ดํ ๋ช ๋ น๋ฌธ๋ถํฐ ์คํํ๋ค.
next๋ฌธ : ํ์ฌ ์คํ์ค์ธ ๋ฃจํ๋ฌธ์ ์ค๋จํ๊ณ , ๋ฃจํ๋ฌธ์ ์ฒ์์ผ๋ก ๋๋์๊ฐ ๋ช ๋ น๋ฌธ์ ์คํํ๋ค.
next์์
v<-1:10
for(ve in v) {
if(ve%%2 != 0) { # %%:๋๋จธ์ง ์ฐ์ฐ์
next
}
print(ve)
}
[1] 2
[1] 4
[1] 6
[1] 8
[1] 10
# ve๋ฅผ 2๋ก ๋๋ ๋๋จธ์ง ๊ฐ์ด 1์ด๋ฉด next(์ฒ์ for๋ฌธ)์ผ๋ก ๋๋์๊ฐ๋ค
# ์ฆ, 1~10์ซ์ ์ค ์ง์๋ง print๋ก ๋์ด๊ฐ
ํจ์(Functions)
- ํน์ ํ ์์ ์ ์ํํ๋ ๋ช ๋ น๋ฌธ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋์ดํ ์งํฉ
๊ธฐ๋ณธ ํจ์(built-in functions) : R์์ ๊ธฐ๋ณธ์ผ๋ก ์ ์๋์ด ์๋ ํจ์
#์ฌ์ฉ ๋ฐฉ๋ฒ
<ํจ์๋ช
>(<์
๋ ฅ์ธ์1>,<์
๋ ฅ์ธ์2>,...)
<ํจ์๋ช
>(์
๋ ฅ์ธ์๋ช
1=<์
๋ ฅ์ธ์1>,์
๋ ฅ์ธ์๋ช
2=<์
๋ ฅ์ธ์2>,...)
#์์
mean(c(88,96,92)) #mean(ํ๊ท ์ ๋ด๋ ํจ์)๊ณผ cํจ์์ ํธ์ถ
png(file="result.png") #์
๋ ฅ์ธ์๋ช
์ ์ง์ ํ์ฌ ํธ์ถ
์ฌ์ฉ์ ์ ์ ํจ์(user-defined functions) : ์ฌ์ฉ์๊ฐ ์์ ์ ๋ชฉ์ ์ ๋ง๊ฒ๋ ํจ์๋ช , ๋ช ๋ น๋ฌธ, ์คํ๊ตฌ์กฐ, ์ ๋ ฅ์ธ์, ์ถ๋ ฅ์ธ์๋ฅผ ์ง์ ํ ํจ์
- ํ์ ์์ : ํจ์๋ช , function ํค์๋, ์ค๊ดํธ ๋ฑ
- ์ ํ ์์ : ์ ๋ ฅ์ธ์, ์ถ๋ ฅ์ธ์, ์ ๋ ฅ์ธ์๋ช ๋ฑ
# ์ฌ์ฉ์ ์ ์ ํจ์ ์์ฑ ๋ฌธ๋ฒ
<ํจ์๋ช
><-function((์
๋ ฅ์ธ์๋ช
1=)<์
๋ ฅ์ธ์1>,...) {
... #ํจ์๊ฐ ํธ์ถ๋๋ฉด ์คํํ ๋ช
๋ น๋ฌธ ๋ฐ ๊ตฌ์กฐ
}
#์์
myFunc<-function(v) { #์ฌ์ฉ์ ์ ์ ํจ์ myFunc()
s<-0
for(ve in v) {
s<-s+v
}
return(s)
}
myFunc(c(2,3,7) #์ฌ์ฉ์ ์ ์ ํจ์ ํธ์ถ
[1] 6 9 21
'๐ป IT > ๋น ๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(2) (0) | 2024.04.23 |
---|---|
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(1) (1) | 2024.04.23 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (2) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (1) (0) | 2024.04.19 |
๋น ๋ฐ์ดํฐ ์ ์ฅ์ (1) | 2024.04.18 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (2)
๋ฐ์ดํฐํ์ ์ข ๋ฅ
๋ ผ๋ฆฌํ(Logical):True(์ฐธ), False(๊ฑฐ์ง)์ ๊ฐ์ ๊ฐ์ง
1 <- TRUE
class(1)
[1] "logical"
# ๋ณ์ 1์ TRUE๊ฐ์ ๋์
ํ ๋ฐ์ดํฐ ํ์ ์ถ๋ ฅ์ "locial"์ถ๋ ฅ
์ซ์ํ(numeric): ์ค์๋ฅผ ํํํ๊ธฐ ์ํ ๋ฐ์ดํฐํ
n<-3.1415
class(n)
[1] "numeric"
์ ์ํ(integer): ์์์ ์ด ์๋ ์ ์๋ฅผ ํํ
i<-1147L
class(i)
[1] "integer"
# ์์์ ์ด ์๋ ์ ์ ํํ์ ๋์ 'L'์ ์ ๋๋ค
๋ณต์์ํ(complex): ๋ณต์์๋ฅผ ํํํ๊ณ ์ ํ ๋ ์ฌ์ฉ
c<-3+5i
class(c)
[1] "complex"
# '3'์ ์ค์, '5i'๋ ํ์๋ฅผ ๋ํ๋ธ๋ค
๋ฌธ์ํ(character):๋ฌธ์ ๋๋ ๋ฌธ์์ด์ ํํํ ๋ ์ฌ์ฉ
s<-"hello"
class(s)
[1] "character"
์ํ(raw): ์ปดํจํฐ ์์คํ ์์ ํํํ๋ ๊ธฐ๋ณธ ํํ
r<-charRoRaw("hello")
r
[1] 68 65 6c 6c 6f
# charToRaw = ๋ฌธ์๋ฅผ ์ํ์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ํจ์
R๊ฐ์ฒด
๋ฐฑํฐ(Vectors)
- ๋ค์์ ๊ฐ์ ๋ด๊ณ ์๋ R๊ฐ์ฒด
- ๋ด๋ถ ๋ฐ์ดํฐ๋ ํ ๊ฐ์ง ๋ฐ์ดํฐํ์ผ๋ก ํต์ผ
v<-c("hello",3.14) #๋ฌธ์ํ๊ณผ ์ซ์ํ ํผ์ฉ
class(v)
[1] "character" #๋ฌธ์ํ์ผ๋ก ๋ณํ
v
[1] "hello" "3.14"
# c๋ ๋ฐฑํฐ๋ฅผ ์์ฑํด์ฃผ๋ ํจ์์ด๋ค
๋ฆฌ์คํธ(lists) :์๋ก ๋ค๋ฅธ ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ๋ด์ ์ ์๋ ๊ฐ์ฒด
l<-list("hello", 3.14) #๋ฌธ์ํ๊ณผ ์ซ์ํ ํผ์ฉ
class(l)
[1] "list" #๋ฆฌ์คํธํ์ผ๋ก ์ถ๋ ฅ
v
[[1]]
[1] "hello" #๋ฌธ์ํ์ผ๋ก ์ถ๋ ฅ
[[2]]
[1] 3.14 #์ซ์ํ์ผ๋ก ์ถ๋ ฅ
ํ๋ ฌ(matrices): ํ๊ณผ ์ด๋ก ์ด๋ฃจ์ด์ง 2์ฐจ์ ๋ฐ์ดํฐ ์งํฉ
m<-matrix(c(2,3,1,5),nrow=2,ncol=2)
class(m)
[1] "matrix"
m
[,1][,2]
[1,] 2 1
[2,] 3 5
๋ฐฐ์ด(arrays): ๋ค์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ ์งํฉ
- ์ฐจ์์ ์ค์ ์ ๋ฐ๋ฅธ ๋ฐฐ์ด์ ๋ณํ
- 1์ฐจ์์ผ๋ก ์ค์ -> ๋ฐฐ์ด(Arrays)๋ก ์ทจ๊ธ
- 2์ฐจ์์ผ๋ก ์ค์ -> ํ๋ ฌ(Matrix)๋ก ์ทจ๊ธ
- 3์ฐจ์ ์ด์์ผ๋ก ์ค์ -> ๋ฐฐ์ด(Arrays)๋ก ์ทจ๊ธ
ar1<-array(c(2,3,1,5),dim=c(4))
ar2<-array(c(2,3,1,5),dim=c(2,2))
ar3<-array(c(2,3,1,5),dim=c(1,2,2))
class(ar1)
[1] "array"
class(ar2)
[1] "matrix"
class(ar3)
[1] "array"
ar1 #1์ฐจ์
[1] 2 3 1 5
ar2 #2์ฐจ์
[,1][,2]
[1,] 2 1
[2,] 3 5
ar3 #3์ฐจ์
, , 1
[,1][,2]
[1,] 2 3
, , 2
[,1][,2]
[1,] 1 5
์์ธ(factors)
- "๋ฒ์ฃผ"๋ผ๊ณ ๋ ๋ถ๋ฆ
- ๋ฐ์ดํฐ์ ๊ฐ(value)๊ณผ ๋ ๋ฒจ(lavel)์ ํจ๊ป ํํ
- ๊ฐ์ฒด๊ฐ ๊ตฌ์ถ๋๋ฉฐ ๋ฐ์ดํฐ๊ฐ ์๋์ผ๋ก ๋ถ์๋๋ฏ๋ก ํต๊ณ์ ๋ชจ๋ธ๋ง๊ณผ ๋ถ์์ ์ ์ฉ
v<-c("kim","kim","han","lee","lee","kim")
vf<-factor(v)
vf
[1] kim kim han lee lee kim
Levels: han kim lee
class(vf)
[1] "factor"
๋ฐ์ดํฐ ํ๋ ์(data frames)
- ํ์ ํํ๋ก ์ ๋ฆฌ๋ ๋ฐ์ดํฐ ๊ฐ์ฒด์ ์ผ์ข
- ์ด(column)๊ณผ ํ(row)์ ์ด๋ฆ(name)์ ์ง์ ๊ฐ๋ฅ
- ์ด๋ง๋ค ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐํ์ ๊ฐ์ง ์ ์์
- ์ซ์ํ(numeric), ์์ธ(factor), ๋ฌธ์ํ(character)์ธ์ ๋ค๋ฅธ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ ์ ์์
- ์ด๋ง๋ค ๊ฐ์ ์์ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ์ฌ์ผ ํจ
v<-c("kim","kim","han","lee","lee","kim")
vf<-factor(v)
vf
[1] kim kim han lee lee kim
Levels: han kim lee
class(vf)
[1] "factor"
summary(df)
gender height weight age
femail :2 Min, :159.0 Min. :49 Min. :25.00
mail :1
...
์ฐ์ ์ฐ์ฐ์(Arithmetic Operators)
a<-c(6,7)
b<-c(4,3)
a+b
[1] 10 10 # 6+4 7+3
a-b
[1] 2 4 # 6-4 7-3
...
๊ด๊ณ ์ฐ์ฐ์(Relational Operators)
a<-c(2,3,4)
b<-c(3,3,3)
a>b
[1] FALSE FALSE TRUE #2>3 3>3 4>3
a<b
[1] TRUE FALSE FALSE #2<3 3<3 4<3
...
๋ ผ๋ฆฌ ์ฐ์ฐ์(Logical Operators)
a<-c(TRUE, FALSE, FALSE)
b<-c(TRUE, TRUE, FALSE)
a&b
[1] TRUE FALSE FALSE #TRUE&TRUE FALSE&TRUE FALSE&FALSE
a|b
[1] TRUE TRUE FALSE
a&&b
[1] TRUE #๋ฐฑํฐ์ ์ฒซ๋ฒ์งธ๋ง ๋น๊ต
a||b
[1] TRUE #๋ฐฑํฐ์ ์ฒซ๋ฒ์งธ๋ง ๋น๊ต
๋์ (ํ ๋น)์ฐ์ฐ์(Assignment Operators)
๊ธฐํ ์ฐ์ฐ์(Miscellaneous Operators
3:8
[1] 3 4 5 6 7 8
"pizza"%in%c("pizza","chicken") #๋ฌธ์์ด ํฌํจ ์ฌ๋ถ๋ฅผ ๊ฒ์
[1] TRUE
"icecream"%in%c("pizza","chicken") #๋ฌธ์์ด ํฌํจ ์ฌ๋ถ๋ฅผ ๊ฒ์
[1] FALSE
a<-matrix(c(1,2,3,4),nrow=2,n=col=2) #ํ๋ ฌ a์์ฑ
b<-matrix(c(4,3,2,1),nrow=2,n=col=2) #ํ๋ ฌ b์์ฑ
a*b
[,1][,2]
[1,] 4 6
[2,] 6 4
a%*%b
[,1][,2]
[1,] 13 5
[2,] 20 8
'๐ป IT > ๋น ๋ฐ์ดํฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ํต๊ณ ๋ถ์(1) (1) | 2024.04.23 |
---|---|
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (3) (1) | 2024.04.20 |
๋น ๋ฐ์ดํฐ ๋ถ์ ๋๊ตฌ R (1) (0) | 2024.04.19 |
๋น ๋ฐ์ดํฐ ์ ์ฅ์ (1) | 2024.04.18 |
๋น ๋ฐ์ดํฐ์ ์์ง (0) | 2024.04.17 |