๐Ÿ’ป IT/๋น…๋ฐ์ดํ„ฐ

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹

Record_er 2024. 4. 26. 21:05

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹(Data Mining)

 

์ •์˜

  • ๋Œ€๊ทœ๋ชจ๋กœ ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ ์•ˆ์—์„œ ์ฒด๊ณ„์ ์ด๊ณ  ์ž๋™์ ์ธ ํ†ต๊ณ„์  ๊ทœ์น™์ด๋‚˜ ํŒจํ„ด์„ ์ฐพ์•„๋‚ด๋Š” ์ž‘์—…
  • KDD(Knowledge-Discovery in Databases)

๋น…๋ฐ์ดํ„ฐ ์‹œ๋Œ€์˜ ์˜๋ฏธ 

  • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœํ„ฐ ์˜๋ฏธ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๋ฐ ์žˆ์–ด ๊ทธ ์ค‘์š”๋„๊ฐ€ ๊ธ‰์ฆ↑

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์˜ ์ ์šฉ ๋ถ„์•ผ

 

๋ถ„๋ฅ˜(classification) : ์ผ์ •ํ•œ ์ง‘๋‹จ์— ๋Œ€ํ•œ ํŠน์ • ์ •์˜๋ฅผ ํ†ตํ•˜์—ฌ ๋ถ„๋ฅ˜ ๋ฐ ๊ตฌ๋ถ„์˜ ํ˜•ํƒœ๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๋ถ„์•ผ

๊ตฐ์ง‘ํ™”(clustering) : ๊ตฌ์ฒด์ ์ธ ํŠน์„ฑ์„ ๊ณต์œ ํ•˜๋Š” ๊ตฐ์ง‘์„ ์ฐพ์Œ / ๋ฏธ๋ฆฌ ์ •์˜๋œ ํŠน์„ฑ ์ •๋ณด๊ฐ€ ์—†์ด ๊ตฐ์ง‘์„ ํƒ์ƒ‰

์—ฐ๊ด€์„ฑ(association) : ๋™์‹œ์— ๋ฐœ์ƒํ•œ ์‚ฌ๊ฑด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ •์˜ํ•˜๋Š” ๋ถ„์•ผ

์—ฐ์†์„ฑ(sequencing) : ํŠน์ • ๊ธฐ๊ฐ„์— ๊ฑธ์ณ ๋ฐœ์ƒํ•˜๋Š” ๊ด€๊ณ„๋ฅผ ๊ทœ๋ช… / ์—ฐ๊ด€์„ฑ ๋ถ„์„๊ณผ ๋‹ฌ๋ฆฌ ๊ธฐ๊ฐ„ ํŠน์„ฑ์„ ๊ณ ๋ ค

์˜ˆ์ธก(forecasting) : ๋น…๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ ๋‚ด์˜ ํŒจํ„ด์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฏธ๋ž˜์— ๋ฐœ์ƒํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ํ˜•ํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ถ„์•ผ

 

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก 

 

1. ํ”„๋กœ์ ํŠธ์˜ ๋ชฉ์ ๊ณผ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์ธํ•œ๋‹ค.

  • ์ผํšŒ์„ฑ ํ”„๋กœ์ ํŠธ์ธ ๊ฒฝ์šฐ โžญ ํ”„๋กœ์ ํŠธ์˜ ๋ชฉ์ ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ์ˆ˜๋ฆฝํ•œ๋‹ค.
  • ์—ฐ์†์„ฑ ํ”„๋กœ์ ํŠธ์ธ ๊ฒฝ์šฐ โžญ ํ”„๋กœ์ ํŠธ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์ธํ•œ๋‹ค.

2. ๋ถ„์„์—์„œ ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•œ๋‹ค.

  • ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ๋ฌด์ž‘์œ„๋กœ ํ‘œ๋ณธ์„ ์ถ”์ถœ
  • ๋‚ด๋ถ€๋ฐ์ดํ„ฐ์™€ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘
  • ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•๋ก  
    • ์ˆ˜์ง‘๋ฐ์ดํ„ฐ๋ฅผ ์„ ์ •(๊ฒฝ์ œ์„ฑ, ๊ฐ€๋Šฅ์„ฑ ์š”์ธ ํ™•์ธ)
    • ์„ธ๋ถ€๊ณ„ํš์„ ์ˆ˜๋ฆฝ (๊ธฐ์ˆ ์ , ํ–‰์ •์  ๊ณ„ํš ์ˆ˜๋ฆฝ)
    • ํ…Œ์ŠคํŠธ ์ˆ˜์ง‘ ์ง„ํ–‰ ํ›„ ์ˆ˜์ง‘ ์ง„ํ–‰

3. ๋ฐ์ดํ„ฐ๋ฅผ ์ „์ฒ˜๋ฆฌ ํ•œ๋‹ค.

  • ๋ฐ์ดํ„ฐ์˜ ์กฐ๊ฑด์„ ๊ฒ€์ฆํ•˜๊ณ  ์ •์ œํ•œ๋‹ค.
  • ์‚ฐ์ ๋„, ํ–‰๋ ฌํ‘œ ๋“ฑ ๊ทธ๋ž˜ํ”„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„์„
  • ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ •์˜, ์ธก์ •๋‹จ์œ„, ์ธก์ •๊ธฐ๊ฐ„ ๋“ฑ์— ๋Œ€ํ•œ ์ผ๊ด€์„ฑ ํ™•์ธ
  • ๊ณ ๋ ค์‚ฌํ•ญ
    • ๊ฒฐ์ธก์น˜๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š”๊ฐ€?
    • ๊ฐ ๋ณ€์ˆ˜์˜ ๊ฐ’์ด ํ•ฉ๋ฆฌ์ ์ธ ๋ฒ”์œ„๋‚ด์— ์žˆ๋Š”๊ฐ€?
    • ๊ทน๋‹จ์น˜(์ตœ๋Œ€/์ตœ์†Œ)๊ฐ€ ์กด์žฌํ•˜๋Š”๊ฐ€?

4. ๋ฐ์ดํ„ฐ๋ฅผ ์ถ•์†Œํ•˜๊ณ  ๋ถ„ํ• ํ•œ๋‹ค.

  • ๋ถˆํ•„์š”ํ•œ ๋ณ€์ˆ˜๋ฅผ ์ œ๊ฑฐ
  • ๋ณ€์ˆ˜๋ฅผ ๋ถ„์„๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜
  • ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜๋ฅผ ์ƒ์„ฑ
  • ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์œผ๋กœ ๋ถ„ํ• 
  • ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์˜ ์ข…๋ฅ˜
    • ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ (training)(๊ธฐ๊ณ„๊ฐ€ ํ•˜๋Š” ํ•™์Šต)
    • ํ‰๊ฐ€์šฉ ๋ฐ์ดํ„ฐ (test, evaluation)
    • ๊ฒ€์ฆ์šฉ ๋ฐ์ดํ„ฐ (verification)

5. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ๊ธฐ๋ฒ•์„ ์„ ํƒํ•œ๋‹ค.

  • ํ”„๋กœ์ ํŠธ์— ์ ํ•ฉํ•œ ๋ถ„์„ ์œ ํ˜•์„ ๊ฒฐ์ •
  • ๊ธฐ๋ฒ•
    • ๋ถ„์‚ฐ๋ถ„์„ฑ, ์ƒ๊ด€๋ถ„์„, ํšŒ๊ท€๋ถ„์„ ๋“ฑ ๊ณ ์ • ๋ถ„์„ ๋ชจ๋ธ
    • ์‹ ๊ฒฝ๋ง ๋ชจํ˜• ๋“ฑ ๋”ฅ๋Ÿฌ๋‹ ๋ถ„์„ ๋ชจ๋ธ
    • ๊ณ„์ธต์  ๊ตฐ์ง‘ ๋ถ„์„ ๋“ฑ

6. ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

  • ์ด์ „์— ๊ฒฐ์ •ํ•œ ์‚ฌํ•ญ์„ ํ† ๋Œ€๋กœ ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹์„ ์ˆ˜ํ–‰
  • ๋‹ค์–‘ํ•œ ๋ณ€์ธ์„ ์ ์šฉํ•˜์—ฌ ๋ถ„์„ ์ˆ˜ํ–‰
  • ํ‰๊ฐ€์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ˆ˜ํ–‰ ํ›„ ๊ฐœ์„ ๋˜๋Š” ๋ณ€์ธ์„ ํ† ๋Œ€๋กœ ์ ์šฉ
  • ์ˆ˜ํ–‰ ๊ฒฐ๊ณผ๋กœ ๊ตฌ์ถ•๋œ ๋ชจ๋ธ์„ ๋ฐ”ํƒ•์œผ๋กœ ์‹œํ—˜ ์ ์šฉ

 

ํ•™์Šต ๋ฐฉ๋ฒ•๋ก 

supervised- ๊ฐ๋…ํ•˜๋‹ค, ์ง€๋„ํ•˜๋‹ค

์ง€๋„ํ•™์Šต(Supervised Learning)(๊ต์‚ฌํ•™์Šต) : ์ถœ๋ ฅ ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์ถœ๋ ฅ๋˜๋„๋ก ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•˜์—ฌ ์˜ˆ์ธก๋ณ€์ˆ˜์™€ ์ถœ๋ ฅ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šต (๋ชฉํ‘œ๊ฐ€ ํ™•์‹ค)

๋ฐ˜์ง€๋„ํ•™์Šต(Semi-supervised Learning) : ์ง€๋„ํ•™์Šต๊ณผ ์ž์œจํ•™์Šต์˜ ๋ฐฉ์‹์„ ์กฐํ•ฉํ•˜์—ฌ ์˜ˆ์ธก๋ณ€์ˆ˜์™€ ์ถœ๋ ฅ๋ณ€์ˆ˜ ๊ฐ„์˜ ์ผ๋ถ€๋ฅผ ์ž์œจ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ํ•œํŽธ, ์ •ํ•ด์ง„ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ํ•™์Šต ๋˜ํ•œ ์ˆ˜ํ–‰

์ž์œจํ•™์Šต(Unsupervised Learning)(๋น„๊ต์‚ฌํ•™์Šต) : ์ถœ๋ ฅ๋ณ€์ˆ˜๊ฐ€ ๋ช…ํ™•ํžˆ ์ •์˜๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ ์˜ˆ์ธก๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ž์œจํ•™์Šต์„ ํ†ตํ•˜์—ฌ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ• (์ปดํ“จํ„ฐ๊ฐ€ ์ž๊ธฐ๋งŒ์˜ ๊ตฌ์ถ•๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค. / ๋ชฉํ‘œ๊ฐ€ ์—†๋‹ค.)

 

 

๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ์ ์šฉ ์‚ฌ๋ก€

 

๊ณต๊ณต์‹œ์Šคํ…œ

  • ๊ตญ์„ธ์ฒญ์˜ ํƒˆ์„ธ ๋ฐฉ์ง€ ์‹œ์Šคํ…œ์— ์ ์šฉ
  • ์‚ฌ๊ธฐ๋ฐฉ์ง€ ์†”๋ฅ˜์…˜, ์†Œ์…œ ๋„คํŠธ์›Œํฌ ๋ถ„์„, ์ง€๋Šฅํ˜• ๊ฐ์ง€ ์‹œ์Šคํ…œ ๊ตฌ์ถ•
  • ์„ธ๊ธˆ ๋ˆ„๋ฝ ๋ฐ ๋ถˆํ•„์š”ํ•œ ์„ธ๊ธˆ ํ™˜๊ธ‰ ์ ˆ๊ฐ ํšจ๊ณผ ๋ฐœ์ƒ
  • ํƒˆ์„ธ์ž ์ˆ˜ ๊ฐ์†Œ ๋ฐ ๋ฒ”๋˜ ์‚ฌ๊ฑด ๋ฏธ์—ฐ ๋ฐฉ์ง€ ๊ฐ€๋Šฅ

GPS ์‹œ์Šคํ…œ

  • ์ž๋™์ฐจ์˜ ์„ผ์„œ ๋ฐ์ดํ„ฐ (์˜ˆ: GPS)๋ฅผ ํ†ตํ•˜์—ฌ ๊ตํ†ต ์ •๋ณด ์ˆ˜์ง‘
  • ์ง€๋Šฅํ˜• ๊ตํ†ต ์ •๋ณด ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ• ๊ฐ€๋Šฅ
  • ์‹ค์‹œ๊ฐ„ ๊ตํ†ต ์ •๋ณด๋ฅผ ๊ณต์œ ํ•˜์—ฌ ์ตœ์ ์˜ ๊ตํ†ต ์•ˆ๋‚ด ์„œ๋น„์Šค
  • ๋ถˆํ•„์š”ํ•œ ์—๋„ˆ์ง€ ๋‚ญ๋น„ ๋ฐฉ์ง€ ๋ฐ ๊ตํ†ต ์‹œ์Šคํ…œ ํšจ์œจ ์ฆ๋Œ€

๋ณด๊ฑด / ์˜๋ฃŒ

  • ์œ ์ „์ž ์ •๋ณด๋ฅผ ํ† ๋Œ€๋กœ ์งˆ๋ณ‘ ์—ฐ๊ตฌ์— ํ™œ์šฉ
  • ์ƒˆ๋กœ์šด ์งˆ๋ณ‘์— ๋Œ€ํ•œ ๋น ๋ฅธ ์ง„๋‹จ ์„œ๋น„์Šค
  • ๋‚œ์น˜๋ณ‘ ๋ฐ ๋ถˆ์น˜๋ณ‘ ๊ด€๋ จ ์œ ์ „์ž ์ •๋ณด๋ฅผ ํ† ๋Œ€๋กœ ์‹ ์น˜๋ฃŒ์ œ ๊ฐœ๋ฐœ
  • ์ตœ์‹  IT๊ธฐ์ˆ  ๊ฒฐํ•ฉ์œผ๋กœ ์น˜๋ฃŒ ํ™•๋ฅ  ์ƒ์Šน

์ œ์กฐ / ๋ฌผ๋ฅ˜ / ๋งˆ์ผ€ํŒ…

  • ์†Œ๋น„์ž์˜ ๋‹ˆ์ฆˆ๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ์ œํ’ˆ์„ ๋ฏธ๋ฆฌ ์ œ์กฐ ๋ฐ ๋ฐฐ๊ธ‰
  • ์ œ์กฐ/ ๋ฌผ๋ฅ˜/ ๋งˆ์ผ€ํŒ… ๋น„์šฉ์„ ์ตœ์†Œํ™” ๊ฐ€๋Šฅ
  • ์ œํ’ˆ์˜ ์†Œ๋น„์ž ๋„๋‹ฌ ์‹œ๊ฐ„ ์ตœ์†Œํ™”