๋ฐ์ดํฐ ๋ง์ด๋
๋ฐ์ดํฐ ๋ง์ด๋(Data Mining)
์ ์
- ๋๊ท๋ชจ๋ก ์ ์ฅ๋ ๋ฐ์ดํฐ ์์์ ์ฒด๊ณ์ ์ด๊ณ ์๋์ ์ธ ํต๊ณ์ ๊ท์น์ด๋ ํจํด์ ์ฐพ์๋ด๋ ์์
- KDD(Knowledge-Discovery in Databases)
๋น ๋ฐ์ดํฐ ์๋์ ์๋ฏธ
- ๋๊ท๋ชจ ๋ฐ์ดํฐ๋กํฐ ์๋ฏธ๋ฅผ ์ฐพ์๋ด๋ ๋ฐ ์์ด ๊ทธ ์ค์๋๊ฐ ๊ธ์ฆ↑
๋ฐ์ดํฐ ๋ง์ด๋์ ์ ์ฉ ๋ถ์ผ
๋ถ๋ฅ(classification) : ์ผ์ ํ ์ง๋จ์ ๋ํ ํน์ ์ ์๋ฅผ ํตํ์ฌ ๋ถ๋ฅ ๋ฐ ๊ตฌ๋ถ์ ํํ๋ฅผ ์ถ๋ก ํ๋ ๋ถ์ผ
๊ตฐ์งํ(clustering) : ๊ตฌ์ฒด์ ์ธ ํน์ฑ์ ๊ณต์ ํ๋ ๊ตฐ์ง์ ์ฐพ์ / ๋ฏธ๋ฆฌ ์ ์๋ ํน์ฑ ์ ๋ณด๊ฐ ์์ด ๊ตฐ์ง์ ํ์
์ฐ๊ด์ฑ(association) : ๋์์ ๋ฐ์ํ ์ฌ๊ฑด ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ์ํ๋ ๋ถ์ผ
์ฐ์์ฑ(sequencing) : ํน์ ๊ธฐ๊ฐ์ ๊ฑธ์ณ ๋ฐ์ํ๋ ๊ด๊ณ๋ฅผ ๊ท๋ช / ์ฐ๊ด์ฑ ๋ถ์๊ณผ ๋ฌ๋ฆฌ ๊ธฐ๊ฐ ํน์ฑ์ ๊ณ ๋ ค
์์ธก(forecasting) : ๋น ๋ฐ์ดํฐ ์งํฉ ๋ด์ ํจํด์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋์ ๋ฐ์ํ๋ ๋ฐ์ดํฐ์ ํํ๋ฅผ ์์ธกํ๋ ๋ถ์ผ
๋ฐ์ดํฐ ๋ง์ด๋ ๋ฐฉ๋ฒ๋ก
1. ํ๋ก์ ํธ์ ๋ชฉ์ ๊ณผ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํ์ธํ๋ค.
- ์ผํ์ฑ ํ๋ก์ ํธ์ธ ๊ฒฝ์ฐ โญ ํ๋ก์ ํธ์ ๋ชฉ์ ์ ๋ช ํํ๊ฒ ์๋ฆฝํ๋ค.
- ์ฐ์์ฑ ํ๋ก์ ํธ์ธ ๊ฒฝ์ฐ โญ ํ๋ก์ ํธ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํ์ธํ๋ค.
2. ๋ถ์์์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค.
- ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๋ฌด์์๋ก ํ๋ณธ์ ์ถ์ถ
- ๋ด๋ถ๋ฐ์ดํฐ์ ์ธ๋ถ ๋ฐ์ดํฐ๋ฅผ ์์ง
- ์์ง ๋ฐฉ๋ฒ๋ก
- ์์ง๋ฐ์ดํฐ๋ฅผ ์ ์ (๊ฒฝ์ ์ฑ, ๊ฐ๋ฅ์ฑ ์์ธ ํ์ธ)
- ์ธ๋ถ๊ณํ์ ์๋ฆฝ (๊ธฐ์ ์ , ํ์ ์ ๊ณํ ์๋ฆฝ)
- ํ ์คํธ ์์ง ์งํ ํ ์์ง ์งํ
3. ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌ ํ๋ค.
- ๋ฐ์ดํฐ์ ์กฐ๊ฑด์ ๊ฒ์ฆํ๊ณ ์ ์ ํ๋ค.
- ์ฐ์ ๋, ํ๋ ฌํ ๋ฑ ๊ทธ๋ํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ์
- ๋ณ์์ ๋ํ ์ ์, ์ธก์ ๋จ์, ์ธก์ ๊ธฐ๊ฐ ๋ฑ์ ๋ํ ์ผ๊ด์ฑ ํ์ธ
- ๊ณ ๋ ค์ฌํญ
- ๊ฒฐ์ธก์น๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋๊ฐ?
- ๊ฐ ๋ณ์์ ๊ฐ์ด ํฉ๋ฆฌ์ ์ธ ๋ฒ์๋ด์ ์๋๊ฐ?
- ๊ทน๋จ์น(์ต๋/์ต์)๊ฐ ์กด์ฌํ๋๊ฐ?
4. ๋ฐ์ดํฐ๋ฅผ ์ถ์ํ๊ณ ๋ถํ ํ๋ค.
- ๋ถํ์ํ ๋ณ์๋ฅผ ์ ๊ฑฐ
- ๋ณ์๋ฅผ ๋ถ์๊ฐ๋ฅํ ํํ๋ก ๋ณํ
- ์๋ก์ด ๋ณ์๋ฅผ ์์ฑ
- ๋ฐ์ดํฐ๋ฅผ ๋ค์ํ ๋ฐ์ดํฐ ์งํฉ์ผ๋ก ๋ถํ
- ๋ฐ์ดํฐ ์งํฉ์ ์ข
๋ฅ
- ํ์ต์ฉ ๋ฐ์ดํฐ (training)(๊ธฐ๊ณ๊ฐ ํ๋ ํ์ต)
- ํ๊ฐ์ฉ ๋ฐ์ดํฐ (test, evaluation)
- ๊ฒ์ฆ์ฉ ๋ฐ์ดํฐ (verification)
5. ๋ฐ์ดํฐ ๋ง์ด๋ ๊ธฐ๋ฒ์ ์ ํํ๋ค.
- ํ๋ก์ ํธ์ ์ ํฉํ ๋ถ์ ์ ํ์ ๊ฒฐ์
- ๊ธฐ๋ฒ
- ๋ถ์ฐ๋ถ์ฑ, ์๊ด๋ถ์, ํ๊ท๋ถ์ ๋ฑ ๊ณ ์ ๋ถ์ ๋ชจ๋ธ
- ์ ๊ฒฝ๋ง ๋ชจํ ๋ฑ ๋ฅ๋ฌ๋ ๋ถ์ ๋ชจ๋ธ
- ๊ณ์ธต์ ๊ตฐ์ง ๋ถ์ ๋ฑ
6. ๋ฐ์ดํฐ ๋ง์ด๋์ ์ํํ๋ค.
- ์ด์ ์ ๊ฒฐ์ ํ ์ฌํญ์ ํ ๋๋ก ๋ฐ์ดํฐ ๋ง์ด๋์ ์ํ
- ๋ค์ํ ๋ณ์ธ์ ์ ์ฉํ์ฌ ๋ถ์ ์ํ
- ํ๊ฐ์ฉ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ์ํ ํ ๊ฐ์ ๋๋ ๋ณ์ธ์ ํ ๋๋ก ์ ์ฉ
- ์ํ ๊ฒฐ๊ณผ๋ก ๊ตฌ์ถ๋ ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก ์ํ ์ ์ฉ
ํ์ต ๋ฐฉ๋ฒ๋ก
supervised- ๊ฐ๋ ํ๋ค, ์ง๋ํ๋ค
์ง๋ํ์ต(Supervised Learning)(๊ต์ฌํ์ต) : ์ถ๋ ฅ ๋ฐ์ดํฐ์ ๋ง๊ฒ ์ถ๋ ฅ๋๋๋ก ํ์ต์ฉ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ ์์ธก๋ณ์์ ์ถ๋ ฅ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ต (๋ชฉํ๊ฐ ํ์ค)
๋ฐ์ง๋ํ์ต(Semi-supervised Learning) : ์ง๋ํ์ต๊ณผ ์์จํ์ต์ ๋ฐฉ์์ ์กฐํฉํ์ฌ ์์ธก๋ณ์์ ์ถ๋ ฅ๋ณ์ ๊ฐ์ ์ผ๋ถ๋ฅผ ์์จ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ํํธ, ์ ํด์ง ๋ฐ์ดํฐ์ ์ ๋ํ ํ์ต ๋ํ ์ํ
์์จํ์ต(Unsupervised Learning)(๋น๊ต์ฌํ์ต) : ์ถ๋ ฅ๋ณ์๊ฐ ๋ช ํํ ์ ์๋์ง ์์ ๊ฒฝ์ฐ ์์ธก๋ณ์์ ๋ํ ์์จํ์ต์ ํตํ์ฌ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ (์ปดํจํฐ๊ฐ ์๊ธฐ๋ง์ ๊ตฌ์ถ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด๋ธ๋ค. / ๋ชฉํ๊ฐ ์๋ค.)
๋ฐ์ดํฐ ๋ง์ด๋ ์ ์ฉ ์ฌ๋ก
๊ณต๊ณต์์คํ
- ๊ตญ์ธ์ฒญ์ ํ์ธ ๋ฐฉ์ง ์์คํ ์ ์ ์ฉ
- ์ฌ๊ธฐ๋ฐฉ์ง ์๋ฅ์ , ์์ ๋คํธ์ํฌ ๋ถ์, ์ง๋ฅํ ๊ฐ์ง ์์คํ ๊ตฌ์ถ
- ์ธ๊ธ ๋๋ฝ ๋ฐ ๋ถํ์ํ ์ธ๊ธ ํ๊ธ ์ ๊ฐ ํจ๊ณผ ๋ฐ์
- ํ์ธ์ ์ ๊ฐ์ ๋ฐ ๋ฒ๋ ์ฌ๊ฑด ๋ฏธ์ฐ ๋ฐฉ์ง ๊ฐ๋ฅ
GPS ์์คํ
- ์๋์ฐจ์ ์ผ์ ๋ฐ์ดํฐ (์: GPS)๋ฅผ ํตํ์ฌ ๊ตํต ์ ๋ณด ์์ง
- ์ง๋ฅํ ๊ตํต ์ ๋ณด ์์คํ ์ ๊ตฌ์ถ ๊ฐ๋ฅ
- ์ค์๊ฐ ๊ตํต ์ ๋ณด๋ฅผ ๊ณต์ ํ์ฌ ์ต์ ์ ๊ตํต ์๋ด ์๋น์ค
- ๋ถํ์ํ ์๋์ง ๋ญ๋น ๋ฐฉ์ง ๋ฐ ๊ตํต ์์คํ ํจ์จ ์ฆ๋
๋ณด๊ฑด / ์๋ฃ
- ์ ์ ์ ์ ๋ณด๋ฅผ ํ ๋๋ก ์ง๋ณ ์ฐ๊ตฌ์ ํ์ฉ
- ์๋ก์ด ์ง๋ณ์ ๋ํ ๋น ๋ฅธ ์ง๋จ ์๋น์ค
- ๋์น๋ณ ๋ฐ ๋ถ์น๋ณ ๊ด๋ จ ์ ์ ์ ์ ๋ณด๋ฅผ ํ ๋๋ก ์ ์น๋ฃ์ ๊ฐ๋ฐ
- ์ต์ IT๊ธฐ์ ๊ฒฐํฉ์ผ๋ก ์น๋ฃ ํ๋ฅ ์์น
์ ์กฐ / ๋ฌผ๋ฅ / ๋ง์ผํ
- ์๋น์์ ๋์ฆ๋ฅผ ์์ธกํ์ฌ ์ ํ์ ๋ฏธ๋ฆฌ ์ ์กฐ ๋ฐ ๋ฐฐ๊ธ
- ์ ์กฐ/ ๋ฌผ๋ฅ/ ๋ง์ผํ ๋น์ฉ์ ์ต์ํ ๊ฐ๋ฅ
- ์ ํ์ ์๋น์ ๋๋ฌ ์๊ฐ ์ต์ํ