๐Ÿ’ป IT/๋น…๋ฐ์ดํ„ฐ

ํ…์ŠคํŠธ ๋งˆ์ด๋‹ 

 

 

ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ(Text Data)

  • ASCII, UTF-8 ๋“ฑ์˜ ์ธ์ฝ”๋”ฉ ํ‘œํ˜„
  • ๋น„์ •ํ˜• ํ˜น์€ ๋ฐ˜์ •ํ˜•์˜ ๋ฐ์ดํ„ฐ์ธ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ
  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP: Natural Language Processing)์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ •๋ณด๋ฅผ ์ถ”์ถœ

 

ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ์ ˆ์ฐจ

 

1. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ : ๋น„์ •ํ˜•/ ๋ฐ˜์ •ํ˜• ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘

2. ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ : ํŠน์ • ํ‚ค์›Œ๋“œ๋‚˜ ์˜๋ฏธ์žˆ๋Š” ์š”์†Œ๋ฅผ ์ถ”์ถœ / ์ „์ฒ˜๋ฆฌ(preprocessing) ์ˆ˜ํ–‰

3. ๋ฐ์ดํ„ฐ ์ถ”์ถœ :  ์ˆ˜ํ•™์  ๋ชจ๋ธ์ด๋‚˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ •๋ณด ์ถ”์ถœ / NLP,TF-IDF ๋“ฑ์˜ ๋ฐฉ๋ฒ• ์‚ฌ์šฉ

4. ๋ฐ์ดํ„ฐ ๋ถ„์„ : ์ตœ์ข… ํ‚ค์›Œ๋“œ, ์˜๋ฏธ์žˆ๋Š” ์š”์†Œ์˜ ์šฐ์„  ์ˆœ์œ„๋ฅผ ๋„์ถœํ•˜๋Š” ๋‹จ๊ณ„

 

 

์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(Natural Language Processing)

NLP๋ผ๊ณ ๋„ ๋ถ€๋ฅด๋ฉฐ ์ธ๊ฐ„์˜ ์–ธ์–ด ํ˜„์ƒ์„ ์ปดํ“จํ„ฐ์—์„œ ๋ชจ์‚ฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์—ฐ๊ตฌํ•˜๊ณ  ๊ตฌํ˜„ํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ์˜ ์ฃผ์š” ๋ถ„์•ผ

 

์ž‘์—…

  • ํ˜•ํƒœ์†Œ ๋ถ„์„ /์˜ˆ) ๋‚˜๋Š” = ๋‚˜(๋Œ€๋ช…์‚ฌ)+๋Š”(์กฐ์‚ฌ)
  • ํ’ˆ์‚ฌ ๋ถ€์ฐฉ - ์ ์ ˆํ•œ ํ’ˆ์‚ฌ๋ฅผ ๋ถ€์ฐฉํ•˜์—ฌ ๋ฌธ์žฅ ์™„์„ฑ
  • ๊ตฌ์ ˆ ๋‹จ์œ„ ๋ถ„์„ - ๋ช…์‚ฌ๊ตฌ/ ๋™์‚ฌ๊ตฌ/ ๋ถ€์‚ฌ๊ตฌ ๋“ฑ
  • ๊ตฌ๋ฌธ ๋ถ„์„, ์–ดํœ˜ ๋ถ„์„

 

ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก 

 

์–ดํœ˜ ๋ถ„์„(Lexical Analysis)

  • ๋ฌธ์žฅ ๋ถ„๋ฆฌ(Sentence Splitting)
    • ๋ง๋ญ‰์น˜(corpus)๋ฅผ ๋ฌธ์žฅ ๋‹จ์œ„๋กœ ๋ถ„๋ฆฌ
    • ๋งˆ์นจํ‘œ(.) ๋“ฑ์˜ ๊ธฐํ˜ธ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ถ„๋ฆฌ
  • ํ† ํฐํ™”(Tokenize)
    • ํ† ํฐ(token)์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋ฌธ์ž์—ด
    • ์ดํ›„ ์ž‘์—…์„ ์œ„ํ•˜์—ฌ ํ† ํฐ์œผ๋กœ ๋ถ„๋ฆฌ
  • ํ˜•ํƒœ์†Œ ๋ถ„์„(Morphological Analysis)
    • ๋‹จ์–ด์˜ ์ˆ˜๋ฅผ ์ค„์—ฌ ๋ถ„์„์˜ ํšจ์œจ์„ฑ์„ ๋†’์ž„
    • ์˜ˆ) cars์™€ car, stopped์™€ stop
  • ํฌ์Šค ํƒœ๊น…(POS Tagging)
    • POS(Part-Of-Speech)
    • ํ† ํฐ์˜ ํ’ˆ์‚ฌ ์ •๋ณด๋ฅผ ํ• ๋‹นํ•˜๋Š” ์ž‘์—…

์–ดํœ˜ ๋ถ„์„์˜ ์˜ˆ์‹œ

 

 

TF-IDF

  • ์—ฌ๋Ÿฌ ๋ฌธ์„œ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฌธ์„œ๊ตฐ์—์„œ ์ถœํ˜„ํ•˜๋Š” ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ ๋‚ด์—์„œ ์ค‘์š”ํ•œ ์ •๋„๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ํ†ต๊ณ„์  ์ˆ˜์น˜
  • TF์™€ IDF์˜ ๊ณฑ์œผ๋กœ ํ‘œํ˜„ โžญ tfidf(t, d, D) = tf(t, d) X idf(t, D)

TF(Term Frequency): ๋ฌธ์„œ ๋‚ด์—์„œ ํŠน์ • ๋‹จ์–ด์˜ ์ถœํ˜„ ๋นˆ๋„

  • ๋ฌธ์„œ ๋‚ด์˜ ๋‹จ์–ด์˜ ์ธก์ • ๋นˆ๋„๋ฅผ ์ธก์ •
  • ์ž์ฃผ ๋“ฑ์žฅํ• ์ˆ˜๋ก โžญ ํ•ด๋‹น ์–ธ์–ด์˜ ์ค‘์š”์„ฑ ์ฆ๊ฐ€

IDF(Inverse Document Frequecy) : ๋ฌธ์„œ๊ตฐ ๋‚ด์—์„œ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด์˜ ๋นˆ๋„

 

 


 

 

๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋งˆ์ด๋‹

 

 

๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด(Multimedia)

  • ์˜ค๋””์˜ค(Audio)
    • ์†Œ๋ฆฌ๋ฅผ ๋””์ง€ํ„ธ ๋ฐ์ดํ„ฐ ํ˜•ํƒœ๋กœ ์ €์žฅ
    • ์˜ˆ) WAV, MP3, AAC ๋“ฑ์˜ ํŒŒ์ผ ํ˜•์‹
  • ์ด๋ฏธ์ง€(Image)
    • ์‹œ๊ฐ ์ •๋ณด๋ฅผ ๋””์ง€ํ„ธ ๋ฐ์ดํ„ฐ ํ˜•ํƒœ ์ €์žฅ
    • ์˜ˆ) JPEG, PNG ๋“ฑ์˜ ํŒŒ์ผ ํ˜•์‹
  • ๋น„๋””์˜ค(Video)
    • ์†Œ๋ฆฌ์™€ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ์ €์žฅํ•œ ๋ฐ์ดํ„ฐ ํ˜•์‹ 
    • ์˜ˆ) MPEG4, HEVC
  • ๋‰ด๋ฏธ๋””์–ด(New Media)
    • ์œ„์˜ ์œ ํ˜•์œผ๋กœ ์ •์˜ํ•  ์ˆ˜ ์—†๋Š” ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋ฐ์ดํ„ฐ ํ˜•์‹

 

 

๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก 

 

ํŠน์ง• ์ถ”์ถœ(Feature Extraction) : ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ๋žŒ์˜ ํž˜์œผ๋กœ ๋ถ„์„ํ•˜๊ณ  ์ด์— ๋”ฐ๋ผ ํŠน์ง•(feature)์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•

๋”ฅ ๋Ÿฌ๋‹(Deep Learning) : ์ „์ฒ˜๋ฆฌ ๋œ ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•˜์—ฌ ์ธ๊ณต์‹ ๊ฒฝ๋ง(ANN)๋“ฑ์˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•˜์—ฌ ์ž์œจํ•™์Šต์„ ํ•˜์—ฌ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•

 

 

๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ํŠน์ง• ์ถ”์ถœ์˜ ์˜ˆ์‹œ

  • ์˜ค๋””์˜ค(Audio)
    • ํ”„๋ ˆ์ž„(frame)๋ณ„ ํ†ต๊ณ„์  ์ •๋ณด ์ถ”์ถœ
    • ํ‘ธ๋ฆฌ์—(Fourier)๋ณ€ํ™˜์„ ํ†ตํ•œ ์ •๋ณด ์ถ”์ถœ (์ฃผํŒŒ์ˆ˜ ์˜์—ญ)
  • ์ด๋ฏธ์ง€(Image)
    • JPEG๋“ฑ์˜ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์ธ DCT, DWT๋“ฑ์„ ์ ์šฉํ•˜์—ฌ ํŠน์ง• ์ถ”์ถœ
  • ๋น„๋””์˜ค(video)
    • ์ธํ„ฐ(inter) ๋ฐ ์ธํŠธ๋ผ(intra) ํŠน์ง• ์ถ”์ถœ
    • H.264, HEVC๋“ฑ์˜ ์ฝ”๋ฑ ํŠน์ง•์— ๊ธฐ๋ฐ˜
  • ๋‰ด๋ฏธ๋””์–ด(New Media)
    • ์˜ค๋””์˜ค, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค์˜ ํŠน์„ฑ ํ™œ์šฉ
    • ํ˜„์žฅ, ๋ฌด๋Œ€, ์„ค์น˜ ๋“ฑ์˜ ํŠน์„ฑ ํ™œ์šฉ

 


 

 

์†Œ์…œ ๋„คํŠธ์›Œํ‚น ์„œ๋น„์Šค(social Networking Service)

  • ์‚ฌ์šฉ์ž๊ฐ„์˜ ์ž์œ ๋กœ์šด ์˜์‚ฌ์†Œํ†ต๊ณผ ์ •๋ณด ๊ณต์œ , ์ธ๋งฅ ํ™•๋Œ€ ๋“ฑ์„ ํ†ตํ•˜์—ฌ ์‚ฌํšŒ์  ๊ด€๊ณ„๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๊ฐ•ํ™”ํ•˜๋ ค ์ฃผ๋Š” ์˜จ๋ผ์ธ ํ”Œ๋žซํผ

ํŠน์ง•

  • ์‚ฌํšŒ์  ๊ด€๊ณ„๋ง์„ ์ƒ์„ฑ, ์œ ์ง€, ๊ฐ•ํ™ฉ, ํ™•์žฅ ๊ฐ€๋Šฅ
  • ์ตœ๊ทผ์˜ SNS ์„œ๋น„์Šค๋Š” ๋Œ€๋ถ€๋ถ„ ์›น ๊ธฐ๋ฐ˜
  • ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•œ ๋งˆ์ผ€ํŒ… ํ™œ์šฉ๊ฐ€์น˜ ๋†’์Œ

 

์†Œ์…œ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก 

 

  1. ๋ฌธ์„œ ์ˆ˜์ง‘(Crawling)
    • SNS ๋“ฑ์„ ํ†ตํ•˜์—ฌ ์‚ฌ์šฉ์ž์˜ ๋ฌด์„  ์ˆ˜์ง‘
    • ์‚ฌ์šฉ์ž์˜ ์ €์ž‘๊ถŒ ๋ฐ ๊ฐœ์ธ์ •๋ณด ์œ ์˜
  2. ํ•„ํ„ฐ๋ง(Filtering)
    • ์ŠคํŒธ ๋ฐ์ดํ„ฐ, ๋ฌด๊ด€ ๋ฌธ์„œ ๋“ฑ์„ ํ•„ํ„ฐ๋ง
    • ์—ฐ๊ด€๋ฌธ์„œ๋ฅผ ํ† ๋Œ€๋กœ ๋ถ„์„
  3. ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋ถ„์„(NLP Analysis)
    • ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•๋ก ์˜ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ์—ฐ๊ด€์–ด ๋ถ„์„
  4. ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ณด๊ณ (Reporting)
    • ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๊ณ  ํ•ด์„ํ•˜์—ฌ ๋ณด๊ณ 

 

 

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹(Data Mining)

 

์ •์˜

  • ๋Œ€๊ทœ๋ชจ๋กœ ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ ์•ˆ์—์„œ ์ฒด๊ณ„์ ์ด๊ณ  ์ž๋™์ ์ธ ํ†ต๊ณ„์  ๊ทœ์น™์ด๋‚˜ ํŒจํ„ด์„ ์ฐพ์•„๋‚ด๋Š” ์ž‘์—…
  • KDD(Knowledge-Discovery in Databases)

๋น…๋ฐ์ดํ„ฐ ์‹œ๋Œ€์˜ ์˜๋ฏธ 

  • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœํ„ฐ ์˜๋ฏธ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๋ฐ ์žˆ์–ด ๊ทธ ์ค‘์š”๋„๊ฐ€ ๊ธ‰์ฆ↑

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์˜ ์ ์šฉ ๋ถ„์•ผ

 

๋ถ„๋ฅ˜(classification) : ์ผ์ •ํ•œ ์ง‘๋‹จ์— ๋Œ€ํ•œ ํŠน์ • ์ •์˜๋ฅผ ํ†ตํ•˜์—ฌ ๋ถ„๋ฅ˜ ๋ฐ ๊ตฌ๋ถ„์˜ ํ˜•ํƒœ๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๋ถ„์•ผ

๊ตฐ์ง‘ํ™”(clustering) : ๊ตฌ์ฒด์ ์ธ ํŠน์„ฑ์„ ๊ณต์œ ํ•˜๋Š” ๊ตฐ์ง‘์„ ์ฐพ์Œ / ๋ฏธ๋ฆฌ ์ •์˜๋œ ํŠน์„ฑ ์ •๋ณด๊ฐ€ ์—†์ด ๊ตฐ์ง‘์„ ํƒ์ƒ‰

์—ฐ๊ด€์„ฑ(association) : ๋™์‹œ์— ๋ฐœ์ƒํ•œ ์‚ฌ๊ฑด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ •์˜ํ•˜๋Š” ๋ถ„์•ผ

์—ฐ์†์„ฑ(sequencing) : ํŠน์ • ๊ธฐ๊ฐ„์— ๊ฑธ์ณ ๋ฐœ์ƒํ•˜๋Š” ๊ด€๊ณ„๋ฅผ ๊ทœ๋ช… / ์—ฐ๊ด€์„ฑ ๋ถ„์„๊ณผ ๋‹ฌ๋ฆฌ ๊ธฐ๊ฐ„ ํŠน์„ฑ์„ ๊ณ ๋ ค

์˜ˆ์ธก(forecasting) : ๋น…๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ ๋‚ด์˜ ํŒจํ„ด์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฏธ๋ž˜์— ๋ฐœ์ƒํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ํ˜•ํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ถ„์•ผ

 

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก 

 

1. ํ”„๋กœ์ ํŠธ์˜ ๋ชฉ์ ๊ณผ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์ธํ•œ๋‹ค.

  • ์ผํšŒ์„ฑ ํ”„๋กœ์ ํŠธ์ธ ๊ฒฝ์šฐ โžญ ํ”„๋กœ์ ํŠธ์˜ ๋ชฉ์ ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ์ˆ˜๋ฆฝํ•œ๋‹ค.
  • ์—ฐ์†์„ฑ ํ”„๋กœ์ ํŠธ์ธ ๊ฒฝ์šฐ โžญ ํ”„๋กœ์ ํŠธ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์ธํ•œ๋‹ค.

2. ๋ถ„์„์—์„œ ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•œ๋‹ค.

  • ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ๋ฌด์ž‘์œ„๋กœ ํ‘œ๋ณธ์„ ์ถ”์ถœ
  • ๋‚ด๋ถ€๋ฐ์ดํ„ฐ์™€ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘
  • ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•๋ก  
    • ์ˆ˜์ง‘๋ฐ์ดํ„ฐ๋ฅผ ์„ ์ •(๊ฒฝ์ œ์„ฑ, ๊ฐ€๋Šฅ์„ฑ ์š”์ธ ํ™•์ธ)
    • ์„ธ๋ถ€๊ณ„ํš์„ ์ˆ˜๋ฆฝ (๊ธฐ์ˆ ์ , ํ–‰์ •์  ๊ณ„ํš ์ˆ˜๋ฆฝ)
    • ํ…Œ์ŠคํŠธ ์ˆ˜์ง‘ ์ง„ํ–‰ ํ›„ ์ˆ˜์ง‘ ์ง„ํ–‰

3. ๋ฐ์ดํ„ฐ๋ฅผ ์ „์ฒ˜๋ฆฌ ํ•œ๋‹ค.

  • ๋ฐ์ดํ„ฐ์˜ ์กฐ๊ฑด์„ ๊ฒ€์ฆํ•˜๊ณ  ์ •์ œํ•œ๋‹ค.
  • ์‚ฐ์ ๋„, ํ–‰๋ ฌํ‘œ ๋“ฑ ๊ทธ๋ž˜ํ”„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„์„
  • ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ •์˜, ์ธก์ •๋‹จ์œ„, ์ธก์ •๊ธฐ๊ฐ„ ๋“ฑ์— ๋Œ€ํ•œ ์ผ๊ด€์„ฑ ํ™•์ธ
  • ๊ณ ๋ ค์‚ฌํ•ญ
    • ๊ฒฐ์ธก์น˜๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š”๊ฐ€?
    • ๊ฐ ๋ณ€์ˆ˜์˜ ๊ฐ’์ด ํ•ฉ๋ฆฌ์ ์ธ ๋ฒ”์œ„๋‚ด์— ์žˆ๋Š”๊ฐ€?
    • ๊ทน๋‹จ์น˜(์ตœ๋Œ€/์ตœ์†Œ)๊ฐ€ ์กด์žฌํ•˜๋Š”๊ฐ€?

4. ๋ฐ์ดํ„ฐ๋ฅผ ์ถ•์†Œํ•˜๊ณ  ๋ถ„ํ• ํ•œ๋‹ค.

  • ๋ถˆํ•„์š”ํ•œ ๋ณ€์ˆ˜๋ฅผ ์ œ๊ฑฐ
  • ๋ณ€์ˆ˜๋ฅผ ๋ถ„์„๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜
  • ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜๋ฅผ ์ƒ์„ฑ
  • ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์œผ๋กœ ๋ถ„ํ• 
  • ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์˜ ์ข…๋ฅ˜
    • ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ (training)(๊ธฐ๊ณ„๊ฐ€ ํ•˜๋Š” ํ•™์Šต)
    • ํ‰๊ฐ€์šฉ ๋ฐ์ดํ„ฐ (test, evaluation)
    • ๊ฒ€์ฆ์šฉ ๋ฐ์ดํ„ฐ (verification)

5. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๊ธฐ๋ฒ•์„ ์„ ํƒํ•œ๋‹ค.

  • ํ”„๋กœ์ ํŠธ์— ์ ํ•ฉํ•œ ๋ถ„์„ ์œ ํ˜•์„ ๊ฒฐ์ •
  • ๊ธฐ๋ฒ•
    • ๋ถ„์‚ฐ๋ถ„์„ฑ, ์ƒ๊ด€๋ถ„์„, ํšŒ๊ท€๋ถ„์„ ๋“ฑ ๊ณ ์ • ๋ถ„์„ ๋ชจ๋ธ
    • ์‹ ๊ฒฝ๋ง ๋ชจํ˜• ๋“ฑ ๋”ฅ๋Ÿฌ๋‹ ๋ถ„์„ ๋ชจ๋ธ
    • ๊ณ„์ธต์  ๊ตฐ์ง‘ ๋ถ„์„ ๋“ฑ

6. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

  • ์ด์ „์— ๊ฒฐ์ •ํ•œ ์‚ฌํ•ญ์„ ํ† ๋Œ€๋กœ ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์„ ์ˆ˜ํ–‰
  • ๋‹ค์–‘ํ•œ ๋ณ€์ธ์„ ์ ์šฉํ•˜์—ฌ ๋ถ„์„ ์ˆ˜ํ–‰
  • ํ‰๊ฐ€์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ˆ˜ํ–‰ ํ›„ ๊ฐœ์„ ๋˜๋Š” ๋ณ€์ธ์„ ํ† ๋Œ€๋กœ ์ ์šฉ
  • ์ˆ˜ํ–‰ ๊ฒฐ๊ณผ๋กœ ๊ตฌ์ถ•๋œ ๋ชจ๋ธ์„ ๋ฐ”ํƒ•์œผ๋กœ ์‹œํ—˜ ์ ์šฉ

 

ํ•™์Šต ๋ฐฉ๋ฒ•๋ก 

supervised- ๊ฐ๋…ํ•˜๋‹ค, ์ง€๋„ํ•˜๋‹ค

์ง€๋„ํ•™์Šต(Supervised Learning)(๊ต์‚ฌํ•™์Šต) : ์ถœ๋ ฅ ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์ถœ๋ ฅ๋˜๋„๋ก ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•˜์—ฌ ์˜ˆ์ธก๋ณ€์ˆ˜์™€ ์ถœ๋ ฅ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šต (๋ชฉํ‘œ๊ฐ€ ํ™•์‹ค)

๋ฐ˜์ง€๋„ํ•™์Šต(Semi-supervised Learning) : ์ง€๋„ํ•™์Šต๊ณผ ์ž์œจํ•™์Šต์˜ ๋ฐฉ์‹์„ ์กฐํ•ฉํ•˜์—ฌ ์˜ˆ์ธก๋ณ€์ˆ˜์™€ ์ถœ๋ ฅ๋ณ€์ˆ˜ ๊ฐ„์˜ ์ผ๋ถ€๋ฅผ ์ž์œจ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ํ•œํŽธ, ์ •ํ•ด์ง„ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ํ•™์Šต ๋˜ํ•œ ์ˆ˜ํ–‰

์ž์œจํ•™์Šต(Unsupervised Learning)(๋น„๊ต์‚ฌํ•™์Šต) : ์ถœ๋ ฅ๋ณ€์ˆ˜๊ฐ€ ๋ช…ํ™•ํžˆ ์ •์˜๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ ์˜ˆ์ธก๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ž์œจํ•™์Šต์„ ํ†ตํ•˜์—ฌ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ• (์ปดํ“จํ„ฐ๊ฐ€ ์ž๊ธฐ๋งŒ์˜ ๊ตฌ์ถ•๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค. / ๋ชฉํ‘œ๊ฐ€ ์—†๋‹ค.)

 

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ์ ์šฉ ์‚ฌ๋ก€

 

๊ณต๊ณต์‹œ์Šคํ…œ

  • ๊ตญ์„ธ์ฒญ์˜ ํƒˆ์„ธ ๋ฐฉ์ง€ ์‹œ์Šคํ…œ์— ์ ์šฉ
  • ์‚ฌ๊ธฐ๋ฐฉ์ง€ ์†”๋ฅ˜์…˜, ์†Œ์…œ ๋„คํŠธ์›Œํฌ ๋ถ„์„, ์ง€๋Šฅํ˜• ๊ฐ์ง€ ์‹œ์Šคํ…œ ๊ตฌ์ถ•
  • ์„ธ๊ธˆ ๋ˆ„๋ฝ ๋ฐ ๋ถˆํ•„์š”ํ•œ ์„ธ๊ธˆ ํ™˜๊ธ‰ ์ ˆ๊ฐ ํšจ๊ณผ ๋ฐœ์ƒ
  • ํƒˆ์„ธ์ž ์ˆ˜ ๊ฐ์†Œ ๋ฐ ๋ฒ”๋˜ ์‚ฌ๊ฑด ๋ฏธ์—ฐ ๋ฐฉ์ง€ ๊ฐ€๋Šฅ

GPS ์‹œ์Šคํ…œ

  • ์ž๋™์ฐจ์˜ ์„ผ์„œ ๋ฐ์ดํ„ฐ (์˜ˆ: GPS)๋ฅผ ํ†ตํ•˜์—ฌ ๊ตํ†ต ์ •๋ณด ์ˆ˜์ง‘
  • ์ง€๋Šฅํ˜• ๊ตํ†ต ์ •๋ณด ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ• ๊ฐ€๋Šฅ
  • ์‹ค์‹œ๊ฐ„ ๊ตํ†ต ์ •๋ณด๋ฅผ ๊ณต์œ ํ•˜์—ฌ ์ตœ์ ์˜ ๊ตํ†ต ์•ˆ๋‚ด ์„œ๋น„์Šค
  • ๋ถˆํ•„์š”ํ•œ ์—๋„ˆ์ง€ ๋‚ญ๋น„ ๋ฐฉ์ง€ ๋ฐ ๊ตํ†ต ์‹œ์Šคํ…œ ํšจ์œจ ์ฆ๋Œ€

๋ณด๊ฑด / ์˜๋ฃŒ

  • ์œ ์ „์ž ์ •๋ณด๋ฅผ ํ† ๋Œ€๋กœ ์งˆ๋ณ‘ ์—ฐ๊ตฌ์— ํ™œ์šฉ
  • ์ƒˆ๋กœ์šด ์งˆ๋ณ‘์— ๋Œ€ํ•œ ๋น ๋ฅธ ์ง„๋‹จ ์„œ๋น„์Šค
  • ๋‚œ์น˜๋ณ‘ ๋ฐ ๋ถˆ์น˜๋ณ‘ ๊ด€๋ จ ์œ ์ „์ž ์ •๋ณด๋ฅผ ํ† ๋Œ€๋กœ ์‹ ์น˜๋ฃŒ์ œ ๊ฐœ๋ฐœ
  • ์ตœ์‹  IT๊ธฐ์ˆ  ๊ฒฐํ•ฉ์œผ๋กœ ์น˜๋ฃŒ ํ™•๋ฅ  ์ƒ์Šน

์ œ์กฐ / ๋ฌผ๋ฅ˜ / ๋งˆ์ผ€ํŒ…

  • ์†Œ๋น„์ž์˜ ๋‹ˆ์ฆˆ๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ์ œํ’ˆ์„ ๋ฏธ๋ฆฌ ์ œ์กฐ ๋ฐ ๋ฐฐ๊ธ‰
  • ์ œ์กฐ/ ๋ฌผ๋ฅ˜/ ๋งˆ์ผ€ํŒ… ๋น„์šฉ์„ ์ตœ์†Œํ™” ๊ฐ€๋Šฅ
  • ์ œํ’ˆ์˜ ์†Œ๋น„์ž ๋„๋‹ฌ ์‹œ๊ฐ„ ์ตœ์†Œํ™”

 

 

 

๋ถ„์‚ฐ ๋ถ„์„(ANOVA)

 

์ •์˜

  • ํ†ต๊ณ„ํ•™์—์„œ ๋‘ ๊ฐœ ์ด์ƒ์˜ ๋‹ค์ˆ˜์˜ ์ง‘๋‹จ์„ ๋น„๊ตํ•  ๋•Œ F๋ถ„ํฌ๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ฐ€์„ค๊ฒ€์ •์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ANOVA = ANalysis Of VAriance

์—ญ์‚ฌ

  • ํ†ต๊ณ„ํ•™์ž ๋กœ๋‚ ๋“œ ํ”ผ์…” (R.A.Fisher)์— ์˜ํ•ด 1920๋…„๋Œ€ ~ 1930๋…„๋Œ€์— ๊ฑธ์ณ ์ž‘์„ฑ

 

F๋ถ„ํฌ

 

์ •์˜

  • ๋ถ„์‚ฐ์˜ ๋น„๊ต๋ฅผ ํ†ตํ•˜์—ฌ ์–ป์–ด์ง€๋Š” ๋ถ„ํฌ ๋น„์œจ
  • F = (๊ตฐ๊ฐ„๋ณ€๋™) / (๊ตฐ๋‚ด๋ณ€๋™) *๊ตฐ=์ง‘๋‹จ

 

ํŠน์„ฑ

  • ์ง‘๋‹จ ๊ฐ„์˜ ๋™์งˆ์„ฑ์„ ๊ฐ€์ •ํ•˜๊ณ  ๋ถ„์„
  • ๊ตฐ๋‚ด๋ณ€๋™์ด ํฌ๋ฉด -> ์ง‘๋‹จ ๊ฐ„ ํ‰๊ท  ์ฐจ์ด ํ™•์ธ ์–ด๋ ค์›€
  • ๋ถ„์‚ฐ ์ฐจ์ด๊ฐ€ ํฐ ๊ฒฝ์šฐ -> ์œ ๋ฐœ ์›์ธ ์ œ๊ฑฐ ํ•„์š”

 

F๋ถ„ํฌ์˜ ๊ฐ€์ •

 

์ •๊ทœ์„ฑ ๊ฐ€์ •

  • ๋ชจ์ง‘๋‹จ์—์„œ ๋ณ€์ธ Y๋Š” ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค.
  • ๋ชจ์ง‘๋‹จ์—์„œ ๋ณ€์ธ Y์˜ ํ‰๊ท ์€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค.

๋ถ„์‚ฐ์˜ ๋™์งˆ์„ฑ ๊ฐ€์ •

  • Y์˜ ๋ชจ์ง‘๋‹จ ๋ถ„์‚ฐ์€ ๊ฐ ๋ชจ์ง‘๋‹จ์—์„œ ๋™์ผํ•˜๋‹ค.

 

๊ด€์ฐฐ์˜ ๋…๋ฆฝ์„ฑ ๊ฐ€์ •

  • ๊ฐ๊ฐ์˜ ๋ชจ์ง‘๋‹จ์—์„œ ํฌ๊ธฐ๊ฐ€ n1, n2์ธ ํ‘œ๋ณธ์ด ๋…๋ฆฝ์ ์œผ๋กœ ํ‘œ์ง‘๋œ๋‹ค.

 

 

F๋ถ„ํฌ์˜ ๊ณ„์‚ฐ

 

Fํ†ต๊ณ„์น˜

  •  ๋ชจ์ง‘๋‹จ ๋ถ„์‚ฐ์˜ ์ถ”์ •์น˜์˜ ๋น„์œจ ๊ณ„์‚ฐ

  • F๊ฐ’์€ ํŠน์ •ํ•œ ์ด๋ก ์  ํ™•๋ฅ ๋ถ„ํฌ์ธ F๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฆ„

 

๋ถ„์‚ฐ๋ถ„์„์˜ ๋ชจํ˜•

  • ๊ณ ์ •ํšจ๊ณผ ๋ชจํ˜•: ์ˆ˜์ค€์˜ ์„ ํƒ์ด ๊ธฐ์ˆ ์ ์œผ๋กœ ์ •ํ•ด์ง€๊ณ  ๊ฐ ์ˆ˜์ค€์ด ๊ธฐ์ˆ ์  ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ํšจ๊ณผ ์ธ์ž
  • ๋ฌด์„ ํšจ๊ณผ ๋ชจํ˜•: ์ˆ˜์ค€์˜ ์„ ํƒ์ด ์ž„์˜๋กœ ์ด๋ฃจ์–ด์ง€๋ฉฐ ๊ฐ ์ˆ˜์ค€์ด ๊ธฐ์ˆ™์  ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€์ง€ ์•Š์€ ํšจ๊ณผ ์ธ์ž
  • ํ˜ผํ•ฉํšจ๊ณผ ๋ชจํ˜•: ๊ณ ์ •ํšจ๊ณผ ์ธ์ž์™€ ๋ฌด์„ ํšจ๊ณผ ์ธ์ž๊ฐ€ ํ•จ๊ป˜ ์‚ฌ์šฉ๋œ ๊ฒฝ์šฐ

 

๋ถ„์‚ฐ๋ถ„์„์˜ ์ข…๋ฅ˜

  • ์ผ์›๋ถ„์‚ฐ๋ถ„์„(one-way ANOVA): ์ข…์†๋ณ€์ธ์ด 1๊ฐœ์ด๋ฉฐ ๋…๋ฆฝ๋ณ€์ธ ์ง‘๋‹จ๋„ 1๊ฐœ
  • ์ด์›๋ถ„์‚ฐ๋ถ„์„(two-way ANOVA): ๋…๋ฆฝ๋ณ€์ธ์˜ ์ˆ˜๊ฐ€ 2๊ฐœ ์ด์ƒ์ผ ๋•Œ ์ง‘๋‹จ ๋น„๊ต
  • ๋‹ค์›๋ณ€๋Ÿ‰๋ถ„์‚ฐ๋ถ„์„(MANOVA): ๋‘ ๊ฐœ ์ด์ƒ ์ข…์†๋ณ€์ธ์ด ๊ด€๊ณ„๋œ ์ƒํ™ฉ์— ์ ์šฉ
  • ๊ณต๋ถ„์‚ฐ๋ถ„์„(ANCOVA): ํŠน์ •ํ•œ ๋…๋ฆฝ๋ณ€์ธ ์œ„์ฃผ๋กœ ๋ถ„์„ํ•˜๊ณ  ๋‹ค๋ฅธ ๋…๋ฆฝ๋ณ€์ธ์€ ํ†ต์ œ๋ณ€์ˆ˜๋กœ ์„ค์ • ๋ถ„์„

 

 

์ƒ๊ด€๋ถ„์„(Correlation Analysis)

 

์ •์˜

  • ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ์„ ํ˜•์  ๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ๋‘ ๋ณ€์ˆ˜๋Š” ๋…๋ฆฝ์ ์ด๊ฑฐ๋‚˜ ์ƒ๊ด€๋  ์ˆ˜ ์žˆ๋‹ค.
  • ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ฐ•๋„๋ฅผ ์ƒ๊ด€๊ณผ๊ณ„๋ผ๊ณ  ํ•จ (Correlation, Correlation coefficient)

 

์ƒ๊ด€๋ถ„์„์˜ ๊ฐ€์ •

  • ์„ ํ˜•์„ฑ: ๋‘ ๋ณ€์ธ X, Y์˜ ์ง์„ ์ ์ธ ์ •๋„, ์„ ์ ๋„๋ฅผ ์‚ฌ์šฉ
  • ๋™๋ณ€๋Ÿ‰์„ฑ: X์˜ ๊ฐ’์— ๊ด€๊ณ„์—†์ด Y์˜ ํฉ์–ด์ง„ ์ •๋„๊ฐ€ ๊ฐ™์€ ๊ฒƒ (์ด๋ถ„์‚ฐ์„ฑ์˜ ๋ฐ˜๋Œ€์–ด)
  • ์ •๊ทœ๋ถ„ํฌ์„ฑ: ๋‘ ๋ณ€์ธ์˜ ์ธก์ •์น˜ ๋ถ„ํฌ๋Š” ๋ชจ์ง‘๋‹จ์—์„œ ์ •๊ทœ๋ถ„ํฌ
  • ๋ฌด์„ ๋…๋ฆฝํ‘œ๋ณธ: ๋ชจ์ง‘๋‹จ์—์„œ ํ‘œ๋ณธ์„ ์ถ”์ถœํ•  ๋–„ ํ‘œ๋ณธ๋Œ€์ƒ์ด ํ™•๋ฅ ์ ์œผ๋กœ ์„ ์ •๋˜๋Š” ๊ฒƒ

 

์ƒ๊ด€๋ถ„์„์˜ ๋ถ„์„ ๋ฐฉ๋ฒ•

 

1. ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜(Pearson Correlation Coefficient)

  • ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๋ จ์„ฑ์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๋ณดํŽธ์  ์ด์šฉ
  • r=(X์™€ Y์˜ ๋ณ€ํ™” ์ •๋„)/(X์™€ Y ๊ฐ๊ฐ ๋ณ€ํ•˜๋Š” ์ •๋„)
  • r์˜ ๊ฐ’์— ๋”ฐ๋ผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ•ด์„
    • +1 = X์™€ Y๊ฐ€ ์™„์ „ ๋™์ผ
    • 0 = X์™€ Y๊ฐ€ ์ „ํ˜€ ๋‹ค๋ฅธ ๊ฒฝ์šฐ
    • -1 = X์™€ Y๊ฐ€ ๋ฐ˜๋Œ€๋ฐฉํ–ฅ์œผ๋กœ ๋™์ผ
  • r2 = ๊ฒฐ์ •๊ณ„์ˆ˜ (Coefficient of determination)

 

2. ์Šคํ”ผ์–ด๋งŒ ์ƒ๊ด€๊ณ„์ˆ˜(Spearman Correlation Coefficient)

  • ๋ฐ์ดํ„ฐ๊ฐ€ ์„œ์—ด์ฒ™๋„(์ˆœ์œ„๊ฐ’)์ธ ๊ฒฝ์šฐ์˜ ์ƒ๊ด€๊ณ„์ˆ˜
  • ๋ฐ์ดํ„ฐ๋ฅผ ์ž‘์€ ๊ฒƒ๋ถ€ํ„ฐ ์ฐจ๋ก€๋กœ ์ˆœ์œ„๋ฅผ ๋งค๊ฒจ ์„œ์—ด ์ˆœ์„œ๋กœ ๋ฐ”๊พผ ๋’ค ์ˆœ์œ„๋ฅผ ์ด์šฉํ•˜์—ฌ ์ƒ๊ด€๊ณ„์ˆ˜ ๊ณ„์‚ฐ
  • ์ž๋ฃŒ์— ์ด์ƒ์ ์ด ์žˆ๊ฑฐ๋‚˜ ํ‘œ๋ณธํฌ๊ธฐ๊ฐ€ ์ž‘์„ ๋•Œ ์œ ์šฉ
  • ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ’์— ๋”ฐ๋ฅธ ๋ถ„๋ฅ˜
    • +1 = ๋‘ ๋ณ€์ˆ˜ ์•ˆ์˜ ์ˆœ์œ„๊ฐ€ ์™„์ „ํžˆ ์ผ์น˜
    • -1 = ๋‘ ๋ณ€์ˆ˜ ์•ˆ์˜ ์ˆœ์œ„๊ฐ€ ์—ญ์ˆœ์ธ ๊ฒฝ์šฐ

 

3. ํฌ๋ก ๋ฐ”ํ ์•ŒํŒŒ ๊ณ„์ˆ˜ ์‹ ๋ขฐ๋„(Cronbach's Alpha)

  • ๊ฒ€์‚ฌ์˜ ๋‚ด์  ์ผ๊ด€์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’ a๊ณ„์‚ฐ
  • ํ•œ ๊ฒ€์‚ฌ ๋‚ด์—์„œ ๋ณ€์ˆ˜๋“ค ๊ฐ„์˜ ํ‰๊ท ์ƒ๊ด€๊ด€๊ณ„์— ๊ทผ๊ฑฐํ•˜์—ฌ ๊ฒ€์‚ฌ๋ฌธํ•ญ๋“ค์ด ๋™์งˆ์  ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋Š”์ง€๋ฅผ ๋ถ„์„ํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ๋™์ผํ•œ ๊ฐœ๋…์ธ ๊ฒฝ์šฐ -> ๊ฒฐ๊ณผ๊ฐ€ ๋น„์Šท
  • ๋™์ผํ•˜์ง€ ์•Š์€ ๊ฐœ๋…์ธ ๊ฒฝ์šฐ -> ๊ฒฐ๊ณผ๊ฐ€ ์ƒ์ด

 

 

 

ํšŒ๊ท€๋ถ„์„(Regression Analysis)

 

ํšŒ๊ท€(๋˜๋Œ์•„๊ฐ„๋‹ค)

์ •์˜: ๊ด€์ฐฐ๋œ ์—ฐ์†ํ˜• ๋ณ€์ˆ˜๋“ค ๊ฐ„์˜ ๋ชจํ˜•์„ ๊ตฌํ•œ ๋’ค ์ ํ•ฉ๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ถ„์„ ๋ฐฉ๋ฒ•

 

 

ํšŒ๊ท€๋ถ„์„์˜ ๊ฐ€์ •

  • ์˜ค์ฐจํ•ญ์€ ๋ชจ๋“  ๋…๋ฆฝ๋ณ€์ˆ˜์— ๋Œ€ํ•˜์—ฌ ๋™์ผ ๋ถ„์‚ฐ์„ ๊ฐ€์ง
  • ์˜ค์ฐจํ•ญ์˜ ํ‰๊ท (๊ธฐ๋Œ“๊ฐ’)์€ 0์ด๋‹ค.
  • ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋Š” ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ์ด๋ฃฌ๋‹ค.
  • ๋…๋ฆฝ๋ณ€์ˆ˜ ๊ฐ„์—๋Š” ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์—†์–ด์•ผ ํ•œ๋‹ค.
  • ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋Š” ์žก์Œ ์˜ํ–ฅ์ด ์—†๋‹ค.

ํšŒ๊ท€๋ถ„์„์˜ ์˜ˆ์‹œ

 

 

 

 

์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ

 

์‹œ๊ณ„์—ด(Time series): ์ผ์ • ๊ฐ„๊ฒฉ์œผ๋กœ ๋ฐฐ์น˜๋œ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์—ด

์‹œ๊ณ„์—ด ํ•ด์„(Time Series Analysis)

  • ์‹œ๊ณ„์—ด์„ ํ•ด์„ํ•˜๊ณ  ์ดํ•ดํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ์‹œ๊ณ„์—ด์ด ์–ด๋– ํ•œ ๋ฒ•์น™์—์„œ ์ƒ์„ฑ๋˜๋Š”์ง€ ๋ฐํ˜€๋‚ด๋Š” ์ž‘์—…

 

์‹œ๊ณ„์—ด ์˜ˆ์ธก(Time Series Prediction)

  • ์‹œ๊ณ„์—ด์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ˆ˜ํ•™์  ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๋ฏธ๋ž˜์— ๋ฐœ์ƒํ•˜๋Š” ์‹œ๊ณ„์—ด์˜ ํ˜•ํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์—…
  • ๊ณตํ•™, ๊ณผํ•™, ๊ธˆ์œต์‹œ์žฅ ๋“ฑ์—์„œ ์‚ฌ์šฉ

 

์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ๋ถ„์„

 

Autoregressive (AR) ๋ชจ๋ธ 

  • ์ž๊ธฐ์ƒ๊ด€์„ฑ(autocorrlation) ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜
  • ์–ด๋– ํ•œ ๋ณ€์ธ์— ๋Œ€ํ•˜์—ฌ ์ด์ „์˜ ๊ฐ’์ด ์ดํ›„์˜ ๊ฐ’์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ์ƒํ™ฉ์„ ๋ชจ๋ธ๋ง
  • ์˜ˆ) ์ด์ „์˜ ๊ฐ’์ด ๊ฐ์†Œ -> ์ดํ›„์˜ ๊ฐ’์ด ๊ฐ์†Œ
  • AR ๋ชจํ˜•

 

 

Moving Average (MA) ๋ชจ๋ธ - ์ด๋™ํ•˜๋Š” ํ‰๊ท  ๋ชจ๋ธ

  • ์–ด๋–ค ๋ณ€์ˆ˜์˜ ํ‰๊ท ๊ฐ’์ด ์ง€์†์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๊ฐ์†Œํ•˜๋Š” ๊ฒฝํ–ฅ์— ๋Œ€ํ•œ ๋ชจ๋ธ๋ง
  • ์˜ˆ) ๋ด„์—์„œ ์—ฌ๋ฆ„์ด ๋˜๋ฉด ์ „๊ธฐ ์ˆ˜์š”๊ฐ€ ๋Œ€์ฒด๋กœ ์ฆ๊ฐ€
  • MA๋ชจํ˜•

 

 

ARMA๋ชจ๋ธ

  • ๊ธฐ์กด์˜ AR ๋ชจ๋ธ๊ณผ MA๋ชจ๋ธ์„ ํ†ตํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ†ตํ•ฉ ๋ชจ๋ธ์ด ๋„์ถœ๋  ์ˆ˜ ์žˆ์Œ
  • ARMA๋ชจ๋ธ

 

 

Integrated (I) ๋ชจ๋ธ - ํ†ตํ•ฉ๋œ ๋ชจ๋ธ

  • AR๋ชจ๋ธ, MA๋ชจ๋ธ ์™ธ์— ํ†ตํ•ฉ ๋ชจ๋ธ์„ ๊ณ ๋ ค
  • ๊ณผ๊ฑฐ์˜ ๋ฐ์ดํ„ฐ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ถ”์„ธ(momentum)๊นŒ์ง€ ๋ฐ˜์˜ํ•œ ๋ชจ๋ธ
  • ARIMA ๋ชจ๋ธ

 

 

 

ํ†ต๊ณ„ (Statistics)

  • ์ •์˜ : ํ‘œ๋ณธ(์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ)์„ ํ†ตํ•˜์—ฌ ๋ชจ์ง‘๋‹จ์„ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•œ ํ•™๋ฌธ
  • ๋น…๋ฐ์ดํ„ฐ์™€์˜ ๊ด€๊ณ„
    • ํ‘œ๋ณธ(=๋ฐ์ดํ„ฐ)๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ๋ถ„์„ํ•˜๋Š” ๊ณ ์ „ ๊ณผ์ •
    • ๋น…๋ฐ์ดํ„ฐ์˜ ๊ธฐ๋ฐ˜ ํ•™๋ฌธ

 

 

์šฉ์–ด ์„ค๋ช…

  • ๋ชจ์ง‘๋‹จ(Population) : ์ •๋ณด๋ฅผ ์–ป๊ณ ์ž ํ•˜๋Š” ๋ชฉํ‘œ ๋Œ€์ƒ์˜ ์ „์ฒด ์ง‘๋‹จ
  • ํ‘œ๋ณธ(Sample) : ๋ชจ์ง‘๋‹จ์˜ ์ผ๋ถ€์ด๋ฉฐ, ๊ด€์ฐฐํ•˜์—ฌ ํš๋“ํ•œ ๋ฐ์ดํ„ฐ
  • ๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ์˜ ๊ด€๊ณ„ 
    • ๋ชจ์ง‘๋‹จ์€ ์ „์ˆ˜ ์กฐ์‚ฌ๋ฅผ ํ†ตํ•˜์—ฌ ํŒŒ์•… ๊ฐ€๋Šฅ -> ๋น„ํšจ์œจ
    • ํ‘œ๋ณธ์„ ํ†ตํ•˜์—ฌ ๋ชจ์ง‘๋‹จ์˜ ์ •๋ณด๋ฅผ ์ถ”์ •

 

 

ํ‘œ๋ณธ์˜ ์›์ฒœ 

  • ์ •๋ถ€, ๊ณต๊ณต๊ธฐ๊ด€ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘
  • ์‹คํ—˜์„ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ํš๋“
  • ์„ค๋ฌธ์กฐ์‚ฌ ๋“ฑ์„ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ํš๋“
  • ์‚ฌ๋ฌผ, ๊ฐ์ฒด, ํ˜„์ƒ์˜ ๊ด€์ฐฐ์„ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ํš๋“

 

 

๋ฐ์ดํ„ฐ์˜ ์œ ํ˜•

 

๋ฒ”์ฃผ ๋ฐ์ดํ„ฐ(Categorical Data)

  • ๋ฐ์ดํ„ฐ์˜ ๋ฒ”์ฃผ(category)๋ฅผ ์‚ฌ์ „์— ์ •์˜ํ•˜๊ณ  ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ๋ฒ”์ฃผ์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜ํ•œ ๋ฐ์ดํ„ฐ
  • ์˜ˆ) ๋‚จ๋…€ ์„ฑ๋ณ„, ์ง์—…, ์‹œ/๊ตฐ/๊ตฌ ๋“ฑ ๊ฑฐ์ฃผ ์ง€์—ญ

์ˆ˜์น˜ ๋ฐ์ดํ„ฐ(Numerical Data)

  • ์ธก์ •ํ•˜์—ฌ ์ˆซ์ž์˜ ํ˜•ํƒœ๋กœ ํš๋“ํ•œ ๋ฐ์ดํ„ฐ
  • ์˜ˆ) ํ‚ค, ๋ชธ๋ฌด๊ฒŒ, ์˜จ์Šต๋„, ๋ฌผํ’ˆ์˜ ๊ฐ€๊ฒฉ

 

 

ํ†ต๊ณ„์˜ ๋ถ„๋ฅ˜

 

๊ธฐ์ˆ ํ†ต๊ณ„(Descriptive Statistics)

  • ํ‘œ๋ณธ์„ ์ˆ˜์ง‘ -> ์ •๋ฆฌ ๋ฐ ์š”์•ฝ
  • ๋ชฉ์  : ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์˜๋ฏธ์žˆ๋Š” ์ •๋ณด๋ฅผ ์ถ”์ถœ

์ถ”์ธกํ†ต๊ณ„(Inferential Statistics)

  • ํ‘œ๋ณธ์„ ๋ถ„์„ -> ๋ชจ์ง‘๋‹จ์˜ ์ •๋ณด๋ฅผ ์ถ”์ธก
  • ๋ชฉ์  : ๋ชจ์ง‘๋‹จ์˜ ์ •๋ณด ์ถ”์ธก์˜ ํ’ˆ์งˆ์„ ๋†’์ž„

 

 

ํ†ต๊ณ„ ์ž๋ฃŒ์˜ ์š”์•ฝ

 

๋„์ˆ˜๋ถ„ํฌ๋„(Frequency Distribution Table)

  • ๊ตฌ๊ฐ„/๋ฒ”์ฃผ๋ณ„๋กœ ํ‘œ๋ณธ์˜ ์ถœํ˜„ ๋นˆ๋„์ˆ˜๋ฅผ ํ‘œํ˜„ํ•œ ํ‘œ
  • ๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๋ฅผ ํ†ตํ•œ ๋ถ„์„ ๊ฐ€๋Šฅ

๋„์ˆ˜๋ถ„ํฌ๋„ ์˜ˆ์‹œ

ํžˆ์Šคํ† ๊ทธ๋žจ(Histogram)

  • ๊ตฌ๊ฐ„/๋ฒ”์ฃผ๋ณ„ ๋นˆ๋„์ˆ˜๋ฅผ ๊ทธ๋ฆผ์œผ๋กœ ์‹œ๊ฐํ™” ํ‘œํ˜„
  • ์–‘(magnitude)์„ ์ง๊ด€์ ์œผ๋กœ ํ‘œํ˜„

ํžˆ์Šคํ† ๊ทธ๋žจ ์˜ˆ์‹œ

 

 

 

ํ†ต๊ณ„ ์ž๋ฃŒ์˜ ๋ถ„์„

 

์‚ฐ์ˆ ํ‰๊ท (Mean/Averate): ํ‘œ๋ณธ์˜ ํ•ฉ์„ ํ‘œ๋ณธ์˜ ์ˆ˜๋กœ ๋‚˜๋ˆˆ ๊ฐ’

์ค‘์•™๊ฐ’(Median): ํ‘œ๋ณธ์„ ํฌ๊ธฐ์˜ ์ˆœ์„œ๋กœ ๋‚˜์—ดํ•˜์˜€์„ ๋•Œ ์ค‘์•™์— ์ถœํ˜„ํ•˜๋Š” ๊ฐ’

์ตœ๋นˆ๊ฐ’(Mode): ํ‘œ๋ณธ ์ค‘ ๊ฐ€์žฅ ํฐ ๋นˆ๋„์ˆ˜๋กœ ์ถœํ˜„ํ•˜๋Š” ๊ฐ’

๋ฒ”์œ„(Range): ํ‘œ๋ณธ์˜ ๊ฐ€์žฅ ํฐ ๊ฐ’๊ณผ ๊ฐ€์žฅ ์ž‘์€ ๊ฐ’์˜ ์ฐจ์ด

๋ถ„์‚ฐ(Variance): ์‚ฐ์ˆ ํ‰๊ท ๊ณผ ํ‘œ๋ณธ๊ฐ„์˜ ์ฐจ์ด์˜ ์ œ๊ณฑํ•ฉ์„ ํ‘œ๋ณธ์˜ ์ˆ˜๋กœ ๋‚˜๋ˆˆ ๊ฐ’

ํ‘œ์ค€ํŽธ์ฐจ(Standard Deviation): ๋ถ„์‚ฐ์˜ ์ œ๊ณฑ๊ทผ์œผ๋กœ ํ‘œ๋ณธ์˜ ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋ƒ„

 

 

 

ํ™•๋ฅ (Probability)

 

  • ๋ชจ์ง‘๋‹จ์˜ ์ •๋ณด๊ฐ€ ์žˆ์Œ
  • ๋ชจ์ง‘๋‹จ ๋Œ€๋น„ ํŠน์ • ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•˜๋Š” ๋น„์œจ์˜ ํ‘œํ˜„
  • ์˜ˆ) ์ฃผ์‚ฌ์œ„๋ฅผ ๋ฌดํ•œ ๋ฒˆ ๋˜์ ธ 3์ด ๋‚˜์˜ค๋Š” ๋น„์œจ์˜ ํ‘œํ˜„

 

ํ™•๋ฅ ์˜ ํ•„์š”์„ฑ

  • ์‚ฌ๊ฑด์˜ ์ผ๋ฐ˜ํ™”
  • ์‚ฌ๊ฑด์˜ ๊ฒฝํ–ฅ์„ ์•Œ ์ˆ˜ ์žˆ์Œ -> ๋ฏธ๋ž˜์— ๋Œ€๋น„ ๊ฐ€๋Šฅ

 

ํ™•๋ฅ ์˜ ์œ ํ˜•

 

๋‹จ์ˆœ ํ™•๋ฅ (Simple probability): ํ•œ๊ฐ€์ง€์˜ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ 

๊ฒฐํ•ฉ ํ™•๋ฅ (Joint Probability): ๋‘๊ฐ€์ง€ ์ด์ƒ์˜ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ 

์กฐ๊ฑด๋ถ€ ํ™•๋ฅ (Conditional Probability): ํŠน์ • ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•˜์˜€๋‹ค๋Š” ์ „์ œ ํ•˜์— ๋˜ ๋‹ค๋ฅธ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ 

 

 

ํ†ต๊ณ„์™€ ํ™•๋ฅ ์˜ ์ฐจ์ด์ 

 

ํ†ต๊ณ„

  • ๋ชจ์ง‘๋‹จ์˜ ์ •๋ณด๊ฐ€ ์—†์Œ -> ํ‘œ๋ณธ์œผ๋กœ ๋ชจ์ง‘๋‹จ์„ ์ถ”์ • ( ๋ชจ์ง‘๋‹จ์„ ์•Œ๊ณ  ์‹ถ์€ ๊ฒƒ)
  • ์˜ˆ) ์ฃผ์‚ฌ์œ„๋ฅผ 100๋ฒˆ ๋˜์ ธ 3์ด ๋‚˜์˜ค๋Š” ๋น„์œจ ์ธก์ •

 

ํ™•๋ฅ 

  • ๋ชจ์ง‘๋‹จ์˜ ์ •๋ณด๊ฐ€ ์žˆ์Œ
  • ๋ชจ์ง‘๋‹จ ๋Œ€๋น„ ํŠน์ • ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•˜๋Š” ๋น„์œจ์˜ ํ‘œํ˜„
  • ์˜ˆ) ์ฃผ์‚ฌ์œ„๋ฅผ ๋ฌดํ•œ ๋ฒˆ ๋˜์ ธ 3์ด ๋‚˜์˜ค๋Š” ๋น„์œจ์˜ ํ‘œํ˜„

 

ํ™•๋ฅ  ๋ณ€์ˆ˜(Random Variable)

์ •์˜ : 2๊ฐœ ์ด์ƒ์˜ ๊ฐ’์„ ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ๋ณ€์ˆ˜

์ข…๋ฅ˜

  • ์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜: ๊ฐ’์ด ๋ฒ”์ฃผํ™” ๋˜์–ด ์žˆ๋Š” ๊ฒฝ์šฐ
  • ์—ฐ์†ํ™•๋ฅ ๋ณ€์ˆ˜: ๊ฐ’์ด ์—ฐ์†์ ์ธ ๊ฒฝ์šฐ

 

ํ™•๋ฅ  ๋ถ„ํฌ(Probability Distribution)

์ •์˜ : ๋ฐ์ดํ„ฐ๊ฐ€ ์ถœํ˜„ํ•  ํ™•๋ฅ ์˜ ๋ถ„ํฌ

ํ•„์š”์„ฑ

  • ๋ฐ์ดํ„ฐ ์ถœํ˜„์˜ ์ •๋„๋ฅผ ์ผ๋ฐ˜ํ™” -> ๋ฏธ๋ž˜์˜ ์˜ˆ์ธก ๊ฐ€๋Šฅ
  • ํ‘œ๋ณธ๋‚ด์—์„œ ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ์ถœํ˜„ ํ™•๋ฅ ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ์ง‘๋‹จ์—์„œ์˜ ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ์ถœํ˜„ ํ™•๋ฅ  ์ถ”์ • ๊ฐ€๋Šฅ

์ข…๋ฅ˜

  • ์ด์‚ฐ ํ™•๋ฅ  ๋ถ„ํฌ(Discrete Probability Distribution)
    • ์ด์‚ฐ ํ™•๋ฅ  ๋ณ€์ˆ˜๊ฐ€ ๊ฐ€์ง€๋Š” ํ™•๋ฅ  ๋ถ„ํฌ
    • ํ™•๋ฅ  ์งˆ๋Ÿ‰ ํ•จ์ˆ˜(Prob.Mass Function)ํ‘œํ˜„
  • ์—ฐ์† ํ™•๋ฅ  ๋ถ„ํฌ(Continuous Probabilty Distribution)
    • ์—ฐ์† ํ™•๋ฅ  ๋ณ€์ˆ˜๊ฐ€ ๊ฐ€์ง€๋Š” ํ™•๋ฅ  ๋ถ„ํฌ
    • ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜(Prob.Density Function)ํ‘œํ˜„

ํ™•๋ฅ  ๋ถ„ํฌ์˜ ์˜ˆ์‹œ

 

 

์šฉ์–ด

 

๊ธฐ๋Œ“๊ฐ’(Expectation)

  • ํ™•๋ฅ  ๋ฐ์ดํ„ฐ๊ฐ€ ์ง‘์ค‘๋˜๋Š” ๊ฒฝํ–ฅ์„ฑ์„ ๋Œ€ํ‘œํ•˜๋Š” ๊ฐ’
  • Σ(ํ™•๋ฅ  ๋ณ€์ˆ˜ X ํ™•๋ฅ ) -> ํ™•๋ฅ  ๋ณ€์ˆ˜์— ๋Œ€ํ•˜์—ฌ ๋ฐœ์ƒ ํ™•๋ฅ ์„ ๊ณฑํ•œ ๊ฒƒ์˜ ํ•ฉ

๋ถ„์‚ฐ(Variance)

  • ํ™•๋ฅ ๋ฒˆ์ˆ˜๊ฐ€ ๊ธฐ๋Œ“๊ฐ’์œผ๋กœ๋ถ€ํ„ฐ ๋ฒ—์–ด๋‚œ ์ •๋„๋ฅผ ํ‘œํ˜„
  • Σ(ํ™•๋ฅ  ๋ณ€์ˆ˜ - ๊ธฐ๋Œ“๊ฐ’)2์ œ๊ณฑ X ํ™•๋ฅ 

ํ‘œ์ค€ํŽธ์ฐจ(Standard Deviation)

  • ๋ถ„์‚ฐ์˜ ์ œ๊ณฑ๊ทผ์œผ๋กœ, ๊ธฐ๋Œ“๊ฐ’ ๋Œ€๋น„ ๋ถ„ํฌ ์ •๋„ ํ‘œํ˜„

 

 

์ •๊ทœ ๋ถ„ํฌ(Normal Distribution)

์ •์˜ 

  • ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ ๊ธฐ๋ฐ˜์˜ ์—ฐ์† ํ™•๋ฅ  ๋ถ„ํฌ
  • ์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ์— ๊ทผ๊ฑฐ -> ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ํ‰๊ท ์€ ์ •๊ทœ ๋ถ„ํฌ์— ๊ทผ์ ‘ํ•˜๋Š” ์„ฑ์งˆ

 

ํŠน์„ฑ

  • ์ ˆ๋Œ€๊ทผ์‚ฌํ•œ๋‹ค.
  • ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด -> ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ตœ๋Œ€ํ™”
  • ์ •๊ทœ ๋ถ„ํฌ ๊ณก์„ ์€ ํ‰๊ท  ๋Œ€๋น„ ์ขŒ์šฐ ๋Œ€์นญ
  • ์ค‘์•™๊ฐ’์˜ ํ™•๋ฅ ์ด ์ตœ๋Œ€

์ •๊ทœ ๋ถ„ํฌ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜ ์˜ˆ์‹œ

 

 

 

๋ชจ์ง‘๋‹จ์˜ ์ถ”์ •

 

์ถ”์ • ์ด๋ก (Estimation Theory)

์ •์˜ : ํ†ต๊ณ„ํ•™๊ณผ ์‹ ํ˜ธ์ฒ˜๋ฆฌ์˜ ํ•œ ๋ถ„์•ผ๋กœ, ํ‘œ๋ณธ์„ ๋ฐ”ํƒ•์œผ๋กœ ์ธ์ž(parameter)๋ฅผ ์ถ”์ •ํ•˜๋Š” ํ•™๋ฌธ

ํ•„์š”์„ฑ : ํ•œ์ •๋œ ๋ฐ์ดํ„ฐ(=ํ‘œ๋ณธ)์„ ๋ฐ”ํƒ•์œผ๋กœ ์ตœ์ ์˜ ์ถ”์ • ๋ฐฉ๋ฒ•๋ก (=์ถ”์ •๋Ÿ‰) ์„ ์ ์šฉ ๊ฐ€๋Šฅ

 

 

์ถ”์ • ๋ฐฉ๋ฒ•๋ก (Estimation Methodology) / ์ถ”์ •๋Ÿ‰(Estimator)

 

MLE(Maximum Likelihood Estimation): ์‚ฌ์ „ ์ •๋ณด๊ฐ€ ์—†๋Š” ์ƒํ™ฉ์—์„œ ์„ฑ๋Šฅ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ธ์ž ์ถ”์ • ๋ฐฉ๋ฒ•

MAP(Maximum A Posteriori): ์‚ฌ์ „ ์ •๋ณด๋‚˜ ๊ทธ ๊ฐ€์ •์„ ๋ฐ”ํƒ•์œผ๋กœ ์„ฑ๋Šฅ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ธ์ž ์ถ”์ • ๋ฐฉ๋ฒ•

์ตœ์†Œ์ œ๊ณฑ๋ฒ•(Least Squares): ์‚ฌ์ „ ์ •๋ณด์˜ ์˜ค์ฐจ ์ œ๊ณฑ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ์ธ์ž ์ถ”์ • ๋ฐฉ๋ฒ•

MMSE(Minimum Mean Squared Error): ์‚ฌ์ „ ์ •๋ณด์˜ ํ‰๊ท  ์ œ๊ณฑ๊ทผ ์˜ค์ฐจ(MSE)๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ์ธ์ž ์ถ”์ • ๋ฐฉ๋ฒ•

์นผ๋งŒ ํ•„ํ„ฐ(Kalman Filter): ์ด์ƒ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋œ ์„ ํ˜• ๋ชจ์ง‘๋‹จ์˜ ์ธ์ž๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•

 

 

๋ชจ์ง‘๋‹จ์˜ ์ถ”์ •(Estimating Population)

 

์ •์˜

  • ํ‘œ๋ณธ์˜ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ถ”์ • ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•˜์—ฌ ๋ชจ์ง‘๋‹จ์˜ ์ •๋ณด(ํ‰๊ท , ๋น„์œจ)๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ถ”์ •
  • ์ถ”์ • ์ด๋ก (Estimation Theory)์˜ ํ•œ ๊ฐˆ๋ž˜

ํ•„์š”์„ฑ

  • ๋ชจ์ง‘๋‹จ์„ ์ „์ˆ˜์กฐ์‚ฌํ•˜๋Š” ๊ฒฝ์šฐ -> ๋ถ„์„ ๊ฒฝ์ œ์„ฑ ํ•˜๋ฝ
  • ํ‘œ๋ณธ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ์ง‘๋‹จ์„ ์ •ํ™•ํ•˜๊ฒŒ ์ถ”์ •ํ•˜๋Š” ๊ฒฝ์šฐ -> ๋ถ„์„ ๋น„์šฉ ์ ˆ์•ฝ ๊ฐ€๋Šฅ, ๋ถ„์„ ํšจ์œจ์„ฑ ํ–ฅ์ƒ

 

๋ถ„์‚ฐ์˜ ์ข…๋ฅ˜

๋ชจ ๋ถ„์‚ฐ(Population Variance): ๋ชจ์ง‘๋‹จ์œผ๋กœ๋ถ€ํ„ฐ ๊ตฌํ•œ ๋ถ„์‚ฐ

ํ‘œ๋ณธ ๋ถ„์‚ฐ(Sample Variance): ํ‘œ๋ณธ์œผ๋กœ๋ถ€ํ„ฐ ๊ตฌํ•œ ๋ถ„์‚ฐ

 

ํ‘œ์ค€ํŽธ์ฐจ์˜ ์ข…๋ฅ˜

๋ชจ ํ‘œ์ค€ํŽธ์ฐจ(Population Std. Dev.) : ๋ชจ์ง‘๋‹จ์œผ๋กœ๋ถ€ํ„ฐ ๊ตฌํ•œ ํ‘œ์ค€ํŽธ์ฐจ

ํ‘œ๋ณธ ํ‘œ์ค€ํŽธ์ฐจ(Sample Std. Dev.) : ํ‘œ๋ณธ์œผ๋กœ๋ถ€ํ„ฐ ๊ตฌํ•œ ํ‘œ์ค€ํŽธ์ฐจ

 

 

๋ชจ์ง‘๋‹จ ํ‰๊ท  ์ถ”์ •(Estimationg Population Mean)

 

์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ

  • ์ถฉ๋ถ„ํžˆ ํฐ ํ‘œ๋ณธ์˜ ๊ฐœ์ˆ˜n (=๋น…๋ฐ์ดํ„ฐ)
  • ํ‘œ๋ณธ์˜ ํ‰๊ท  x์™€ ํ‘œ์ค€ํŽธ์ฐจ s
  • ์œ ์˜ ์ˆ˜์ค€ a (์‹ ๋ขฐ์ˆ˜์ค€ = 1- a)

์‹ ๋ขฐ๊ตฌ๊ฐ„ ์ถ”์ •

 

 

 

๋ชจ์ง‘๋‹จ ๋น„์œจ ์ถ”์ •(Estimating Population Ratio)

 

์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ

  • ์ถฉ๋ถ„ํžˆ ํฐ ํ‘œ๋ณธ์˜ ๊ฐœ์ˆ˜n (=๋น…๋ฐ์ดํ„ฐ)
  • ํ‘œ๋ณธ์˜ ๋น„์œจ p
  • ์œ ์˜์ˆ˜์ค€ a (์‹ ๋ขฐ์ˆ˜์ค€= 1 - a)

 

์‹ ๋ขฐ๊ตฌ๊ฐ„ ์ถ”์ •

 

 

 

 

 

 

 

์˜์‚ฌ๊ฒฐ์ •(Decision Making)

  • ํ•˜๋‚˜ ์ด์ƒ์˜ ์กฐ๊ฑด์„ ํ‰๊ฐ€ํ•˜์—ฌ ๊ทธ ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ๋‹ค์–‘ํ•œ ํ๋ฆ„์œผ๋กœ ๋ช…๋ น๋ฌธ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ตฌ์กฐ
  • R์—์„œ๋Š” if๋ฌธ, if~else๋ฌธ, switch๋ฌธ์„ ์ œ๊ณต
  • ์˜์‚ฌ๊ฒฐ์ • ๊ตฌ์กฐ์˜ ์šฉ๋„

if๋ฌธ : ์กฐ๊ฑด์ด ์ฐธ์ผ ๋•Œ๋งŒ ๋ช…๋ น๋ฌธ์„ ์ˆ˜ํ–‰

  • ์กฐ๊ฑด์ด ์ฐธ(TRUE)์ธ ๊ฒฝ์šฐ์—๋งŒ ๋ช…๋ น์–ด ์ˆ˜ํ–‰
  • ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ์˜์‚ฌ๊ฒฐ์ • ๊ตฌ์กฐ
x<-36L
if(is.integer(x)){
	print("x๋Š” ์ •์ˆ˜")
}

[1] "x๋Š” ์ •์ˆ˜"

 

 

if~esle๋ฌธ : ์กฐ๊ฑด์— ๋”ฐ๋ผ ๋ณ„๊ฐœ์˜ ๋ช…๋ น๋ฌธ์„ ์ˆ˜ํ–‰

  • ์กฐ๊ฑด์ด ์ฐธ(TRUE)์ธ ๊ฒฝ์šฐ์™€ ๊ฑฐ์ง“(FALSE)์ธ ๊ฒฝ์šฐ ์„œ๋กœ ๋‹ค๋ฅธ ๋ช…๋ น๋ฌธ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์˜์‚ฌ๊ฒฐ์ • ๊ตฌ์กฐ
x<-3.14
if(is.integer(x)){
	print("์ •์ˆ˜์ž…๋‹ˆ๋‹ค")
}else{
	print("์ •์ˆ˜๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค")
}

[1] "์ •์ˆ˜๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค"

 

 

switch๋ฌธ : ๋‹ค์–‘ํ•œ ๊ฐ’์˜ ์กฐ๊ฑด์— ๋”ฐ๋ผ ๋ณ„๊ฐœ์˜ ๋ช…๋ น๋ฌธ์„ ์ˆ˜ํ–‰

  • ์กฐ๊ฑด์ด ์ผ์น˜ํ•˜๋Š” ๊ฒฝ์šฐ(case)์˜ ๋ช…๋ น๋ฌธ์„ ์‹คํ–‰
  • ์กฐ๊ฑด์ด ๋‹ค์ˆ˜๋กœ์˜ ๋ถ„๊ธฐ๋ฅผ ๊ฐ€์งˆ ๋•Œ ์œ ๋ฆฌ
  • ๋‹ค๋ฅธ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์™€ ๋‹ฌ๋ฆฌ ๊ธฐ๋ณธ๊ฐ’(default)์ด ์—†์Œ
x<-"han"
switch(x, "kim"="๊น€", "lee"="์ด", "han"="ํ•œ")

[1] "ํ•œ"

 

 

 

๋ฃจํ”„(Loop)

  • ํŠน์ •ํ•œ ๋ช…๋ น๋ฌธ์„ ์กฐ๊ฑด์— ๋”ฐ๋ผ ์—ฌ๋Ÿฌ๋ฒˆ ์‹คํ–‰ํ•˜๊ณ ์ž ํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๊ตฌ์กฐ
  • ์ข…๋ฅ˜ : repeat ๋ฃจํ”„, while ๋ฃจํ”„, for ๋ฃจํ”„

repeat ๋ฃจํ”„

  • ๋ฌดํ•œํžˆ ๋ฐ˜๋ณตํ•˜์—ฌ ๋ช…๋ น๋ฌธ์„ ์‹คํ–‰ํ•˜๋Š” ๊ตฌ์กฐ
  • if๋ฌธ๊ณผ break๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ˜๋ณต์—์„œ ํƒˆ์ถœํ•  ์ˆ˜ ์žˆ์Œ
i<-1
repeat {
	i<-i+1
    if(i==3) {	#๋ฐ˜๋ณตํ•˜๋‹ค i๊ฐ€ 3์ด ๋˜๋ฉด ์•„๋ž˜ ์‹คํ–‰ํ›„ break
    	print(i)
        break
    }
}

[1] 3

 

 

while ๋ฃจํ”„

  • ์กฐ๊ฑด์ด ์ฐธ์ด๋ฉด ๋™์ผํ•œ ๋ช…๋ น๋ฌธ์„ ๋‹ค์‹œ ์‹คํ–‰ํ•˜๋Š” ๋ฃจํ”„
  • ๋ช…๋ น๋ฌธ์˜ ์‹คํ–‰ ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ์กฐ๊ฑด์ด ๊ฑฐ์ง“์ด ๋˜๋ฉด ๋ฐ˜๋ณต๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ํƒˆ์ถœํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅ
i<-1
while(i<3) {	#i๊ฐ€ 3๋ฏธ๋งŒ์ธ ๊ฒฝ์šฐ ๊ณ„์† ๋ฐ˜๋ณต
	i<-i+1
}

i
[1] 3

 

 

for ๋ฃจํ”„

  • ๋ฒกํ„ฐ์˜ ๊ฐ ์„ฑ๋ถ„์— ๋”ฐ๋ผ ๋ฐ˜๋ณตํ•˜๋Š” ๋ฃจํ”„ ๊ตฌ์กฐ
  • ๋ฒกํ„ฐ ์„ฑ๋ถ„์˜ ์œ„์น˜(index)์— ์ผ์ผํžˆ ์ ‘๊ทผํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๋ฒกํ„ฐ ์„ฑ๋ถ„๋ณ„ ๋ช…๋ น๋ฌธ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ตฌ์กฐ์ผ๋•Œ ์œ ๋ฆฌ
  • ๋ฒกํ„ฐ ์„ฑ๋ถ„์˜ ๊ฐ’์„ ๋Œ€์ž…ํ•˜๊ธฐ ์œ„ํ•œ ๋ณ€์ˆ˜ ์ง€์ • ํ•„์š”
v<-c(2,3,5,7,10)
s<-0	#s๋ณ€์ˆ˜ 0์œผ๋กœ ์ดˆ๊ธฐํ™”
for(ve in v) {		#v์•ˆ์— ๋“ค์–ด์žˆ๋Š” ๋ณ€์ˆ˜๋“ค์„ ve์•ˆ์— ๋„ฃ๋Š”๋‹ค
	s<-s+ve		#s๋ณ€์ˆ˜ ์•ˆ์— s+ve๊ฐ’์„ ๋„ฃ์–ด๋ผ
}
print(s)

[1] 27

 

 

 

๋ฃจํ”„ ์ œ์–ด ๋ช…๋ น๋ฌธ

 

break๋ฌธ :  ํ˜„์žฌ ์‹คํ–‰์ค‘์ธ ๋ฃจํ”„๋ฌธ์„ ์ค‘๋‹จํ•˜๊ณ , ๋ฃจํ”„๋ฌธ ์ดํ›„ ๋ช…๋ น๋ฌธ๋ถ€ํ„ฐ ์‹คํ–‰ํ•œ๋‹ค.

next๋ฌธ : ํ˜„์žฌ ์‹คํ–‰์ค‘์ธ ๋ฃจํ”„๋ฌธ์„ ์ค‘๋‹จํ•˜๊ณ , ๋ฃจํ”„๋ฌธ์˜ ์ฒ˜์Œ์œผ๋กœ ๋˜๋Œ์•„๊ฐ€ ๋ช…๋ น๋ฌธ์„ ์‹คํ–‰ํ•œ๋‹ค.

next์˜ˆ์‹œ

v<-1:10
for(ve in v) {
	if(ve%%2 != 0) {	# %%:๋‚˜๋จธ์ง€ ์—ฐ์‚ฐ์ž
    	next
    }
    print(ve)
}

[1] 2
[1] 4
[1] 6
[1] 8
[1] 10

# ve๋ฅผ 2๋กœ ๋‚˜๋ˆˆ ๋‚˜๋จธ์ง€ ๊ฐ’์ด 1์ด๋ฉด next(์ฒ˜์Œ for๋ฌธ)์œผ๋กœ ๋˜๋Œ์•„๊ฐ„๋‹ค
# ์ฆ‰, 1~10์ˆซ์ž ์ค‘ ์ง์ˆ˜๋งŒ print๋กœ ๋„˜์–ด๊ฐ

 

 

 

ํ•จ์ˆ˜(Functions)

  • ํŠน์ •ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ช…๋ น๋ฌธ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋‚˜์—ดํ•œ ์ง‘ํ•ฉ

 

๊ธฐ๋ณธ ํ•จ์ˆ˜(built-in functions) : R์—์„œ ๊ธฐ๋ณธ์œผ๋กœ ์ •์˜๋˜์–ด ์žˆ๋Š” ํ•จ์ˆ˜

#์‚ฌ์šฉ ๋ฐฉ๋ฒ•
<ํ•จ์ˆ˜๋ช…>(<์ž…๋ ฅ์ธ์ž1>,<์ž…๋ ฅ์ธ์ž2>,...)
<ํ•จ์ˆ˜๋ช…>(์ž…๋ ฅ์ธ์ž๋ช…1=<์ž…๋ ฅ์ธ์ž1>,์ž…๋ ฅ์ธ์ž๋ช…2=<์ž…๋ ฅ์ธ์ž2>,...)

#์˜ˆ์‹œ
mean(c(88,96,92))	#mean(ํ‰๊ท ์„ ๋‚ด๋Š” ํ•จ์ˆ˜)๊ณผ cํ•จ์ˆ˜์˜ ํ˜ธ์ถœ
png(file="result.png")	#์ž…๋ ฅ์ธ์ž๋ช…์„ ์ง€์ •ํ•˜์—ฌ ํ˜ธ์ถœ

 

 

์‚ฌ์šฉ์ž ์ •์˜ ํ•จ์ˆ˜(user-defined functions) : ์‚ฌ์šฉ์ž๊ฐ€ ์ž์‹ ์˜ ๋ชฉ์ ์— ๋งž๊ฒŒ๋” ํ•จ์ˆ˜๋ช…, ๋ช…๋ น๋ฌธ, ์‹คํ–‰๊ตฌ์กฐ, ์ž…๋ ฅ์ธ์ž, ์ถœ๋ ฅ์ธ์ž๋ฅผ ์ง€์ •ํ•œ ํ•จ์ˆ˜

  • ํ•„์ˆ˜ ์š”์†Œ : ํ•จ์ˆ˜๋ช…, function ํ‚ค์›Œ๋“œ, ์ค‘๊ด„ํ˜ธ ๋“ฑ
  • ์„ ํƒ ์š”์†Œ : ์ž…๋ ฅ์ธ์ž, ์ถœ๋ ฅ์ธ์ž, ์ž…๋ ฅ์ธ์ž๋ช… ๋“ฑ
# ์‚ฌ์šฉ์ž ์ •์˜ ํ•จ์ˆ˜ ์ƒ์„ฑ ๋ฌธ๋ฒ•
<ํ•จ์ˆ˜๋ช…><-function((์ž…๋ ฅ์ธ์ž๋ช…1=)<์ž…๋ ฅ์ธ์ž1>,...) {
	... #ํ•จ์ˆ˜๊ฐ€ ํ˜ธ์ถœ๋˜๋ฉด ์‹คํ–‰ํ•  ๋ช…๋ น๋ฌธ ๋ฐ ๊ตฌ์กฐ
}

#์˜ˆ์‹œ
myFunc<-function(v) {	#์‚ฌ์šฉ์ž ์ •์˜ ํ•จ์ˆ˜ myFunc()
	s<-0
    for(ve in v) {
    	s<-s+v
    }
    return(s)
}
myFunc(c(2,3,7)	#์‚ฌ์šฉ์ž ์ •์˜ ํ•จ์ˆ˜ ํ˜ธ์ถœ

[1] 6 9 21

 

 

 

 

 

๋ฐ์ดํ„ฐํ˜•์˜ ์ข…๋ฅ˜

 

๋…ผ๋ฆฌํ˜•(Logical):True(์ฐธ), False(๊ฑฐ์ง“)์˜ ๊ฐ’์„ ๊ฐ€์ง

1 <- TRUE
class(1)

[1] "logical"
# ๋ณ€์ˆ˜ 1์— TRUE๊ฐ’์„ ๋Œ€์ž… ํ›„ ๋ฐ์ดํ„ฐ ํ˜•์„ ์ถœ๋ ฅ์‹œ "locial"์ถœ๋ ฅ

 

 

์ˆซ์žํ˜•(numeric): ์‹ค์ˆ˜๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐํ˜•

n<-3.1415
class(n)

[1] "numeric"

 

 

์ •์ˆ˜ํ˜•(integer): ์†Œ์ˆ˜์ ์ด ์—†๋Š” ์ •์ˆ˜๋ฅผ ํ‘œํ˜„

i<-1147L
class(i)

[1] "integer"
# ์†Œ์ˆ˜์ ์ด ์—†๋Š” ์ •์ˆ˜ ํ‘œํ˜„์‹œ ๋์— 'L'์„ ์ ๋Š”๋‹ค

 

 

๋ณต์†Œ์ˆ˜ํ˜•(complex): ๋ณต์†Œ์ˆ˜๋ฅผ ํ‘œํ˜„ํ•˜๊ณ ์ž ํ•  ๋•Œ ์‚ฌ์šฉ

c<-3+5i
class(c)

[1] "complex"
# '3'์€ ์‹ค์ˆ˜, '5i'๋Š” ํ—ˆ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค

 

 

๋ฌธ์žํ˜•(character):๋ฌธ์ž ๋˜๋Š” ๋ฌธ์ž์—ด์„ ํ‘œํ˜„ํ•  ๋•Œ ์‚ฌ์šฉ

s<-"hello"
class(s)

[1] "character"

 

 

์›ํ˜•(raw): ์ปดํ“จํ„ฐ ์‹œ์Šคํ…œ์—์„œ ํ‘œํ˜„ํ•˜๋Š” ๊ธฐ๋ณธ ํ˜•ํƒœ

r<-charRoRaw("hello")
r

[1] 68 65 6c 6c 6f
# charToRaw = ๋ฌธ์ž๋ฅผ ์›ํ˜•์œผ๋กœ ๋ฐ”๊ฟ”์ฃผ๋Š” ํ•จ์ˆ˜

 

 

R๊ฐ์ฒด

 

๋ฐฑํ„ฐ(Vectors)

  • ๋‹ค์ˆ˜์˜ ๊ฐ’์„ ๋‹ด๊ณ  ์žˆ๋Š” R๊ฐ์ฒด
  • ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ๋Š” ํ•œ ๊ฐ€์ง€ ๋ฐ์ดํ„ฐํ˜•์œผ๋กœ ํ†ต์ผ
v<-c("hello",3.14)	#๋ฌธ์žํ˜•๊ณผ ์ˆซ์žํ˜• ํ˜ผ์šฉ
class(v)

[1] "character"		#๋ฌธ์žํ˜•์œผ๋กœ ๋ณ€ํ™”
v
[1] "hello" "3.14"

# c๋Š” ๋ฐฑํ„ฐ๋ฅผ ์ƒ์„ฑํ•ด์ฃผ๋Š” ํ•จ์ˆ˜์ด๋‹ค

 

 

๋ฆฌ์ŠคํŠธ(lists) :์„œ๋กœ ๋‹ค๋ฅธ ์œ ํ˜•์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ด์„ ์ˆ˜ ์žˆ๋Š” ๊ฐ์ฒด

l<-list("hello", 3.14)	#๋ฌธ์žํ˜•๊ณผ ์ˆซ์žํ˜• ํ˜ผ์šฉ
class(l)

[1] "list"		#๋ฆฌ์ŠคํŠธํ˜•์œผ๋กœ ์ถœ๋ ฅ
v
[[1]]
[1] "hello"		#๋ฌธ์žํ˜•์œผ๋กœ ์ถœ๋ ฅ
[[2]]
[1] 3.14		#์ˆซ์žํ˜•์œผ๋กœ ์ถœ๋ ฅ

 

 

ํ–‰๋ ฌ(matrices): ํ–‰๊ณผ ์—ด๋กœ ์ด๋ฃจ์–ด์ง„ 2์ฐจ์› ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ

m<-matrix(c(2,3,1,5),nrow=2,ncol=2)
class(m)

[1] "matrix"
m
    [,1][,2]
[1,]  2   1
[2,]  3   5

 

 

๋ฐฐ์—ด(arrays): ๋‹ค์ฐจ์›์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ

  • ์ฐจ์›์˜ ์„ค์ •์— ๋”ฐ๋ฅธ ๋ฐฐ์—ด์˜ ๋ณ€ํ™”
    • 1์ฐจ์›์œผ๋กœ ์„ค์ • -> ๋ฐฐ์—ด(Arrays)๋กœ ์ทจ๊ธ‰
    • 2์ฐจ์›์œผ๋กœ ์„ค์ • -> ํ–‰๋ ฌ(Matrix)๋กœ ์ทจ๊ธ‰
    • 3์ฐจ์› ์ด์ƒ์œผ๋กœ ์„ค์ • -> ๋ฐฐ์—ด(Arrays)๋กœ ์ทจ๊ธ‰
ar1<-array(c(2,3,1,5),dim=c(4))
ar2<-array(c(2,3,1,5),dim=c(2,2))
ar3<-array(c(2,3,1,5),dim=c(1,2,2))

class(ar1)
[1] "array"

class(ar2)
[1] "matrix"

class(ar3)
[1] "array"

ar1	#1์ฐจ์›
[1] 2 3 1 5

ar2	#2์ฐจ์›
    [,1][,2]
[1,]  2   1
[2,]  3   5

ar3	#3์ฐจ์›
, , 1
    [,1][,2]
[1,]  2   3

, , 2
    [,1][,2]
[1,]  1   5

 

 

์š”์ธ(factors)

  • "๋ฒ”์ฃผ"๋ผ๊ณ ๋„ ๋ถ€๋ฆ„
  • ๋ฐ์ดํ„ฐ์˜ ๊ฐ’(value)๊ณผ ๋ ˆ๋ฒจ(lavel)์„ ํ•จ๊ป˜ ํ‘œํ˜„
  • ๊ฐ์ฒด๊ฐ€ ๊ตฌ์ถ•๋˜๋ฉฐ ๋ฐ์ดํ„ฐ๊ฐ€ ์ž๋™์œผ๋กœ ๋ถ„์„๋˜๋ฏ€๋กœ ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง๊ณผ ๋ถ„์„์— ์œ ์šฉ
v<-c("kim","kim","han","lee","lee","kim")
vf<-factor(v)
vf

[1] kim kim han lee lee kim
Levels: han kim lee

class(vf)
[1] "factor"

 

 

๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„(data frames)

  • ํ‘œ์˜ ํ˜•ํƒœ๋กœ ์ •๋ฆฌ๋œ ๋ฐ์ดํ„ฐ ๊ฐ์ฒด์˜ ์ผ์ข…
  • ์—ด(column)๊ณผ ํ–‰(row)์˜ ์ด๋ฆ„(name)์„ ์ง€์ • ๊ฐ€๋Šฅ
  • ์—ด๋งˆ๋‹ค ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐํ˜•์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ
  • ์ˆซ์žํ˜•(numeric), ์š”์ธ(factor), ๋ฌธ์žํ˜•(character)์™ธ์˜ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•  ์ˆ˜ ์—†์Œ
  • ์—ด๋งˆ๋‹ค ๊ฐ™์€ ์ˆ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜์—ฌ์•ผ ํ•จ
v<-c("kim","kim","han","lee","lee","kim")
vf<-factor(v)
vf

[1] kim kim han lee lee kim
Levels: han kim lee

class(vf)
[1] "factor"

summary(df)
gender		height		weight		age
femail :2	Min, :159.0	Min. :49	Min. :25.00
mail   :1
...

 

 

 

์‚ฐ์ˆ  ์—ฐ์‚ฐ์ž(Arithmetic Operators)

 

a<-c(6,7)
b<-c(4,3)

a+b
[1] 10 10	# 6+4 7+3

a-b
[1] 2 4		# 6-4 7-3
...

 

 

๊ด€๊ณ„ ์—ฐ์‚ฐ์ž(Relational Operators)

 

a<-c(2,3,4)
b<-c(3,3,3)

a>b
[1] FALSE FALSE TRUE	#2>3 3>3 4>3

a<b
[1] TRUE FALSE FALSE	#2<3 3<3 4<3
...

 

 

๋…ผ๋ฆฌ ์—ฐ์‚ฐ์ž(Logical Operators)

a<-c(TRUE, FALSE, FALSE)
b<-c(TRUE, TRUE, FALSE)

a&b
[1] TRUE FALSE FALSE	#TRUE&TRUE FALSE&TRUE FALSE&FALSE

a|b
[1] TRUE TRUE FALSE

a&&b
[1] TRUE	#๋ฐฑํ„ฐ์˜ ์ฒซ๋ฒˆ์งธ๋งŒ ๋น„๊ต

a||b
[1] TRUE	#๋ฐฑํ„ฐ์˜ ์ฒซ๋ฒˆ์งธ๋งŒ ๋น„๊ต

 

 

๋Œ€์ž…(ํ• ๋‹น)์—ฐ์‚ฐ์ž(Assignment Operators)

 

 

๊ธฐํƒ€ ์—ฐ์‚ฐ์ž(Miscellaneous Operators

3:8
[1] 3 4 5 6 7 8

"pizza"%in%c("pizza","chicken")	#๋ฌธ์ž์—ด ํฌํ•จ ์—ฌ๋ถ€๋ฅผ ๊ฒ€์ •
[1] TRUE

"icecream"%in%c("pizza","chicken")	#๋ฌธ์ž์—ด ํฌํ•จ ์—ฌ๋ถ€๋ฅผ ๊ฒ€์ •
[1] FALSE

a<-matrix(c(1,2,3,4),nrow=2,n=col=2)	#ํ–‰๋ ฌ a์ƒ์„ฑ
b<-matrix(c(4,3,2,1),nrow=2,n=col=2)	#ํ–‰๋ ฌ b์ƒ์„ฑ

a*b
    [,1][,2]
[1,]  4   6
[2,]  6   4

a%*%b
    [,1][,2]
[1,]  13  5
[2,]  20  8

 

 

 

 

+ Recent posts