๋น์ ํ ๋ฐ์ดํฐ ๋ง์ด๋
ํ ์คํธ ๋ง์ด๋
ํ ์คํธ ๋ฐ์ดํฐ(Text Data)
- ASCII, UTF-8 ๋ฑ์ ์ธ์ฝ๋ฉ ํํ
- ๋น์ ํ ํน์ ๋ฐ์ ํ์ ๋ฐ์ดํฐ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์
- ์์ฐ์ด ์ฒ๋ฆฌ(NLP: Natural Language Processing)์ ๊ธฐ๋ฐํ์ฌ ์ ๋ณด๋ฅผ ์ถ์ถ
ํ ์คํธ ๋ง์ด๋ ์ ์ฐจ
1. ๋ฐ์ดํฐ ์์ง : ๋น์ ํ/ ๋ฐ์ ํ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์์ง
2. ๋ฐ์ดํฐ ์ฒ๋ฆฌ : ํน์ ํค์๋๋ ์๋ฏธ์๋ ์์๋ฅผ ์ถ์ถ / ์ ์ฒ๋ฆฌ(preprocessing) ์ํ
3. ๋ฐ์ดํฐ ์ถ์ถ : ์ํ์ ๋ชจ๋ธ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ๋ณด ์ถ์ถ / NLP,TF-IDF ๋ฑ์ ๋ฐฉ๋ฒ ์ฌ์ฉ
4. ๋ฐ์ดํฐ ๋ถ์ : ์ต์ข ํค์๋, ์๋ฏธ์๋ ์์์ ์ฐ์ ์์๋ฅผ ๋์ถํ๋ ๋จ๊ณ
์์ฐ์ด ์ฒ๋ฆฌ(Natural Language Processing)
NLP๋ผ๊ณ ๋ ๋ถ๋ฅด๋ฉฐ ์ธ๊ฐ์ ์ธ์ด ํ์์ ์ปดํจํฐ์์ ๋ชจ์ฌํ ์ ์๋๋ก ์ฐ๊ตฌํ๊ณ ๊ตฌํํ๋ ์ธ๊ณต์ง๋ฅ์ ์ฃผ์ ๋ถ์ผ
์์
- ํํ์ ๋ถ์ /์) ๋๋ = ๋(๋๋ช ์ฌ)+๋(์กฐ์ฌ)
- ํ์ฌ ๋ถ์ฐฉ - ์ ์ ํ ํ์ฌ๋ฅผ ๋ถ์ฐฉํ์ฌ ๋ฌธ์ฅ ์์ฑ
- ๊ตฌ์ ๋จ์ ๋ถ์ - ๋ช ์ฌ๊ตฌ/ ๋์ฌ๊ตฌ/ ๋ถ์ฌ๊ตฌ ๋ฑ
- ๊ตฌ๋ฌธ ๋ถ์, ์ดํ ๋ถ์
ํ ์คํธ ๋ง์ด๋ ๋ฐฉ๋ฒ๋ก
์ดํ ๋ถ์(Lexical Analysis)
- ๋ฌธ์ฅ ๋ถ๋ฆฌ(Sentence Splitting)
- ๋ง๋ญ์น(corpus)๋ฅผ ๋ฌธ์ฅ ๋จ์๋ก ๋ถ๋ฆฌ
- ๋ง์นจํ(.) ๋ฑ์ ๊ธฐํธ๋ฅผ ์ด์ฉํ์ฌ ๋ถ๋ฆฌ
- ํ ํฐํ(Tokenize)
- ํ ํฐ(token)์ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋ฌธ์์ด
- ์ดํ ์์ ์ ์ํ์ฌ ํ ํฐ์ผ๋ก ๋ถ๋ฆฌ
- ํํ์ ๋ถ์(Morphological Analysis)
- ๋จ์ด์ ์๋ฅผ ์ค์ฌ ๋ถ์์ ํจ์จ์ฑ์ ๋์
- ์) cars์ car, stopped์ stop
- ํฌ์ค ํ๊น
(POS Tagging)
- POS(Part-Of-Speech)
- ํ ํฐ์ ํ์ฌ ์ ๋ณด๋ฅผ ํ ๋นํ๋ ์์
์ดํ ๋ถ์์ ์์
TF-IDF
- ์ฌ๋ฌ ๋ฌธ์๋ก ์ด๋ฃจ์ด์ง ๋ฌธ์๊ตฐ์์ ์ถํํ๋ ํน์ ๋จ์ด๊ฐ ๋ฌธ์ ๋ด์์ ์ค์ํ ์ ๋๋ฅผ ํํํ๋ ํต๊ณ์ ์์น
- TF์ IDF์ ๊ณฑ์ผ๋ก ํํ โญ tfidf(t, d, D) = tf(t, d) X idf(t, D)
TF(Term Frequency): ๋ฌธ์ ๋ด์์ ํน์ ๋จ์ด์ ์ถํ ๋น๋
- ๋ฌธ์ ๋ด์ ๋จ์ด์ ์ธก์ ๋น๋๋ฅผ ์ธก์
- ์์ฃผ ๋ฑ์ฅํ ์๋ก โญ ํด๋น ์ธ์ด์ ์ค์์ฑ ์ฆ๊ฐ
IDF(Inverse Document Frequecy) : ๋ฌธ์๊ตฐ ๋ด์์ ๋ฑ์ฅํ๋ ๋จ์ด์ ๋น๋
๋ฉํฐ๋ฏธ๋์ด ๋ง์ด๋
๋ฉํฐ๋ฏธ๋์ด(Multimedia)
- ์ค๋์ค(Audio)
- ์๋ฆฌ๋ฅผ ๋์งํธ ๋ฐ์ดํฐ ํํ๋ก ์ ์ฅ
- ์) WAV, MP3, AAC ๋ฑ์ ํ์ผ ํ์
- ์ด๋ฏธ์ง(Image)
- ์๊ฐ ์ ๋ณด๋ฅผ ๋์งํธ ๋ฐ์ดํฐ ํํ ์ ์ฅ
- ์) JPEG, PNG ๋ฑ์ ํ์ผ ํ์
- ๋น๋์ค(Video)
- ์๋ฆฌ์ ์๊ฐ ์ ๋ณด๋ฅผ ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ ์ฅํ ๋ฐ์ดํฐ ํ์
- ์) MPEG4, HEVC
- ๋ด๋ฏธ๋์ด(New Media)
- ์์ ์ ํ์ผ๋ก ์ ์ํ ์ ์๋ ๋ฉํฐ๋ฏธ๋์ด ๋ฐ์ดํฐ ํ์
๋ฉํฐ๋ฏธ๋์ด ๋ง์ด๋ ๋ฐฉ๋ฒ๋ก
ํน์ง ์ถ์ถ(Feature Extraction) : ๋ฉํฐ๋ฏธ๋์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ๋์ ํ์ผ๋ก ๋ถ์ํ๊ณ ์ด์ ๋ฐ๋ผ ํน์ง(feature)์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ
๋ฅ ๋ฌ๋(Deep Learning) : ์ ์ฒ๋ฆฌ ๋ ๋ฉํฐ๋ฏธ๋์ด ๋ฐ์ดํฐ์ ๋ํ์ฌ ์ธ๊ณต์ ๊ฒฝ๋ง(ANN)๋ฑ์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์ฌ ์์จํ์ต์ ํ์ฌ ํน์ง์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ
๋ฉํฐ๋ฏธ๋์ด ํน์ง ์ถ์ถ์ ์์
- ์ค๋์ค(Audio)
- ํ๋ ์(frame)๋ณ ํต๊ณ์ ์ ๋ณด ์ถ์ถ
- ํธ๋ฆฌ์(Fourier)๋ณํ์ ํตํ ์ ๋ณด ์ถ์ถ (์ฃผํ์ ์์ญ)
- ์ด๋ฏธ์ง(Image)
- JPEG๋ฑ์ ๊ธฐ๋ฐ ๊ธฐ์ ์ธ DCT, DWT๋ฑ์ ์ ์ฉํ์ฌ ํน์ง ์ถ์ถ
- ๋น๋์ค(video)
- ์ธํฐ(inter) ๋ฐ ์ธํธ๋ผ(intra) ํน์ง ์ถ์ถ
- H.264, HEVC๋ฑ์ ์ฝ๋ฑ ํน์ง์ ๊ธฐ๋ฐ
- ๋ด๋ฏธ๋์ด(New Media)
- ์ค๋์ค, ์ด๋ฏธ์ง, ๋น๋์ค์ ํน์ฑ ํ์ฉ
- ํ์ฅ, ๋ฌด๋, ์ค์น ๋ฑ์ ํน์ฑ ํ์ฉ
์์ ๋คํธ์ํน ์๋น์ค(social Networking Service)
- ์ฌ์ฉ์๊ฐ์ ์์ ๋ก์ด ์์ฌ์ํต๊ณผ ์ ๋ณด ๊ณต์ , ์ธ๋งฅ ํ๋ ๋ฑ์ ํตํ์ฌ ์ฌํ์ ๊ด๊ณ๋ฅผ ์์ฑํ๊ณ ๊ฐํํ๋ ค ์ฃผ๋ ์จ๋ผ์ธ ํ๋ซํผ
ํน์ง
- ์ฌํ์ ๊ด๊ณ๋ง์ ์์ฑ, ์ ์ง, ๊ฐํฉ, ํ์ฅ ๊ฐ๋ฅ
- ์ต๊ทผ์ SNS ์๋น์ค๋ ๋๋ถ๋ถ ์น ๊ธฐ๋ฐ
- ๋น ๋ฐ์ดํฐ ๋ถ์์ ํตํ ๋ง์ผํ ํ์ฉ๊ฐ์น ๋์
์์ ๋ง์ด๋ ๋ฐฉ๋ฒ๋ก
- ๋ฌธ์ ์์ง(Crawling)
- SNS ๋ฑ์ ํตํ์ฌ ์ฌ์ฉ์์ ๋ฌด์ ์์ง
- ์ฌ์ฉ์์ ์ ์๊ถ ๋ฐ ๊ฐ์ธ์ ๋ณด ์ ์
- ํํฐ๋ง(Filtering)
- ์คํธ ๋ฐ์ดํฐ, ๋ฌด๊ด ๋ฌธ์ ๋ฑ์ ํํฐ๋ง
- ์ฐ๊ด๋ฌธ์๋ฅผ ํ ๋๋ก ๋ถ์
- ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์(NLP Analysis)
- ์์ฐ์ด์ฒ๋ฆฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์ํ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ์ฐ๊ด์ด ๋ถ์
- ๋ฐ์ดํฐ ๋ถ์ ๋ณด๊ณ (Reporting)
- ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํํ๊ณ ํด์ํ์ฌ ๋ณด๊ณ