๐Ÿ’ป IT/๋น…๋ฐ์ดํ„ฐ

๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹

Record_er 2024. 4. 27. 09:59

ํ…์ŠคํŠธ ๋งˆ์ด๋‹ 

 

 

ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ(Text Data)

  • ASCII, UTF-8 ๋“ฑ์˜ ์ธ์ฝ”๋”ฉ ํ‘œํ˜„
  • ๋น„์ •ํ˜• ํ˜น์€ ๋ฐ˜์ •ํ˜•์˜ ๋ฐ์ดํ„ฐ์ธ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ
  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP: Natural Language Processing)์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ •๋ณด๋ฅผ ์ถ”์ถœ

 

ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ์ ˆ์ฐจ

 

1. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ : ๋น„์ •ํ˜•/ ๋ฐ˜์ •ํ˜• ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘

2. ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ : ํŠน์ • ํ‚ค์›Œ๋“œ๋‚˜ ์˜๋ฏธ์žˆ๋Š” ์š”์†Œ๋ฅผ ์ถ”์ถœ / ์ „์ฒ˜๋ฆฌ(preprocessing) ์ˆ˜ํ–‰

3. ๋ฐ์ดํ„ฐ ์ถ”์ถœ :  ์ˆ˜ํ•™์  ๋ชจ๋ธ์ด๋‚˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ •๋ณด ์ถ”์ถœ / NLP,TF-IDF ๋“ฑ์˜ ๋ฐฉ๋ฒ• ์‚ฌ์šฉ

4. ๋ฐ์ดํ„ฐ ๋ถ„์„ : ์ตœ์ข… ํ‚ค์›Œ๋“œ, ์˜๋ฏธ์žˆ๋Š” ์š”์†Œ์˜ ์šฐ์„  ์ˆœ์œ„๋ฅผ ๋„์ถœํ•˜๋Š” ๋‹จ๊ณ„

 

 

์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(Natural Language Processing)

NLP๋ผ๊ณ ๋„ ๋ถ€๋ฅด๋ฉฐ ์ธ๊ฐ„์˜ ์–ธ์–ด ํ˜„์ƒ์„ ์ปดํ“จํ„ฐ์—์„œ ๋ชจ์‚ฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์—ฐ๊ตฌํ•˜๊ณ  ๊ตฌํ˜„ํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ์˜ ์ฃผ์š” ๋ถ„์•ผ

 

์ž‘์—…

  • ํ˜•ํƒœ์†Œ ๋ถ„์„ /์˜ˆ) ๋‚˜๋Š” = ๋‚˜(๋Œ€๋ช…์‚ฌ)+๋Š”(์กฐ์‚ฌ)
  • ํ’ˆ์‚ฌ ๋ถ€์ฐฉ - ์ ์ ˆํ•œ ํ’ˆ์‚ฌ๋ฅผ ๋ถ€์ฐฉํ•˜์—ฌ ๋ฌธ์žฅ ์™„์„ฑ
  • ๊ตฌ์ ˆ ๋‹จ์œ„ ๋ถ„์„ - ๋ช…์‚ฌ๊ตฌ/ ๋™์‚ฌ๊ตฌ/ ๋ถ€์‚ฌ๊ตฌ ๋“ฑ
  • ๊ตฌ๋ฌธ ๋ถ„์„, ์–ดํœ˜ ๋ถ„์„

 

ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก 

 

์–ดํœ˜ ๋ถ„์„(Lexical Analysis)

  • ๋ฌธ์žฅ ๋ถ„๋ฆฌ(Sentence Splitting)
    • ๋ง๋ญ‰์น˜(corpus)๋ฅผ ๋ฌธ์žฅ ๋‹จ์œ„๋กœ ๋ถ„๋ฆฌ
    • ๋งˆ์นจํ‘œ(.) ๋“ฑ์˜ ๊ธฐํ˜ธ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ถ„๋ฆฌ
  • ํ† ํฐํ™”(Tokenize)
    • ํ† ํฐ(token)์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„ ๋ฌธ์ž์—ด
    • ์ดํ›„ ์ž‘์—…์„ ์œ„ํ•˜์—ฌ ํ† ํฐ์œผ๋กœ ๋ถ„๋ฆฌ
  • ํ˜•ํƒœ์†Œ ๋ถ„์„(Morphological Analysis)
    • ๋‹จ์–ด์˜ ์ˆ˜๋ฅผ ์ค„์—ฌ ๋ถ„์„์˜ ํšจ์œจ์„ฑ์„ ๋†’์ž„
    • ์˜ˆ) cars์™€ car, stopped์™€ stop
  • ํฌ์Šค ํƒœ๊น…(POS Tagging)
    • POS(Part-Of-Speech)
    • ํ† ํฐ์˜ ํ’ˆ์‚ฌ ์ •๋ณด๋ฅผ ํ• ๋‹นํ•˜๋Š” ์ž‘์—…

์–ดํœ˜ ๋ถ„์„์˜ ์˜ˆ์‹œ

 

 

TF-IDF

  • ์—ฌ๋Ÿฌ ๋ฌธ์„œ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฌธ์„œ๊ตฐ์—์„œ ์ถœํ˜„ํ•˜๋Š” ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ ๋‚ด์—์„œ ์ค‘์š”ํ•œ ์ •๋„๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ํ†ต๊ณ„์  ์ˆ˜์น˜
  • TF์™€ IDF์˜ ๊ณฑ์œผ๋กœ ํ‘œํ˜„ โžญ tfidf(t, d, D) = tf(t, d) X idf(t, D)

TF(Term Frequency): ๋ฌธ์„œ ๋‚ด์—์„œ ํŠน์ • ๋‹จ์–ด์˜ ์ถœํ˜„ ๋นˆ๋„

  • ๋ฌธ์„œ ๋‚ด์˜ ๋‹จ์–ด์˜ ์ธก์ • ๋นˆ๋„๋ฅผ ์ธก์ •
  • ์ž์ฃผ ๋“ฑ์žฅํ• ์ˆ˜๋ก โžญ ํ•ด๋‹น ์–ธ์–ด์˜ ์ค‘์š”์„ฑ ์ฆ๊ฐ€

IDF(Inverse Document Frequecy) : ๋ฌธ์„œ๊ตฐ ๋‚ด์—์„œ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด์˜ ๋นˆ๋„

 

 


 

 

๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋งˆ์ด๋‹

 

 

๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด(Multimedia)

  • ์˜ค๋””์˜ค(Audio)
    • ์†Œ๋ฆฌ๋ฅผ ๋””์ง€ํ„ธ ๋ฐ์ดํ„ฐ ํ˜•ํƒœ๋กœ ์ €์žฅ
    • ์˜ˆ) WAV, MP3, AAC ๋“ฑ์˜ ํŒŒ์ผ ํ˜•์‹
  • ์ด๋ฏธ์ง€(Image)
    • ์‹œ๊ฐ ์ •๋ณด๋ฅผ ๋””์ง€ํ„ธ ๋ฐ์ดํ„ฐ ํ˜•ํƒœ ์ €์žฅ
    • ์˜ˆ) JPEG, PNG ๋“ฑ์˜ ํŒŒ์ผ ํ˜•์‹
  • ๋น„๋””์˜ค(Video)
    • ์†Œ๋ฆฌ์™€ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ์ €์žฅํ•œ ๋ฐ์ดํ„ฐ ํ˜•์‹ 
    • ์˜ˆ) MPEG4, HEVC
  • ๋‰ด๋ฏธ๋””์–ด(New Media)
    • ์œ„์˜ ์œ ํ˜•์œผ๋กœ ์ •์˜ํ•  ์ˆ˜ ์—†๋Š” ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋ฐ์ดํ„ฐ ํ˜•์‹

 

 

๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก 

 

ํŠน์ง• ์ถ”์ถœ(Feature Extraction) : ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ๋žŒ์˜ ํž˜์œผ๋กœ ๋ถ„์„ํ•˜๊ณ  ์ด์— ๋”ฐ๋ผ ํŠน์ง•(feature)์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•

๋”ฅ ๋Ÿฌ๋‹(Deep Learning) : ์ „์ฒ˜๋ฆฌ ๋œ ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•˜์—ฌ ์ธ๊ณต์‹ ๊ฒฝ๋ง(ANN)๋“ฑ์˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•˜์—ฌ ์ž์œจํ•™์Šต์„ ํ•˜์—ฌ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•

 

 

๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด ํŠน์ง• ์ถ”์ถœ์˜ ์˜ˆ์‹œ

  • ์˜ค๋””์˜ค(Audio)
    • ํ”„๋ ˆ์ž„(frame)๋ณ„ ํ†ต๊ณ„์  ์ •๋ณด ์ถ”์ถœ
    • ํ‘ธ๋ฆฌ์—(Fourier)๋ณ€ํ™˜์„ ํ†ตํ•œ ์ •๋ณด ์ถ”์ถœ (์ฃผํŒŒ์ˆ˜ ์˜์—ญ)
  • ์ด๋ฏธ์ง€(Image)
    • JPEG๋“ฑ์˜ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์ธ DCT, DWT๋“ฑ์„ ์ ์šฉํ•˜์—ฌ ํŠน์ง• ์ถ”์ถœ
  • ๋น„๋””์˜ค(video)
    • ์ธํ„ฐ(inter) ๋ฐ ์ธํŠธ๋ผ(intra) ํŠน์ง• ์ถ”์ถœ
    • H.264, HEVC๋“ฑ์˜ ์ฝ”๋ฑ ํŠน์ง•์— ๊ธฐ๋ฐ˜
  • ๋‰ด๋ฏธ๋””์–ด(New Media)
    • ์˜ค๋””์˜ค, ์ด๋ฏธ์ง€, ๋น„๋””์˜ค์˜ ํŠน์„ฑ ํ™œ์šฉ
    • ํ˜„์žฅ, ๋ฌด๋Œ€, ์„ค์น˜ ๋“ฑ์˜ ํŠน์„ฑ ํ™œ์šฉ

 


 

 

์†Œ์…œ ๋„คํŠธ์›Œํ‚น ์„œ๋น„์Šค(social Networking Service)

  • ์‚ฌ์šฉ์ž๊ฐ„์˜ ์ž์œ ๋กœ์šด ์˜์‚ฌ์†Œํ†ต๊ณผ ์ •๋ณด ๊ณต์œ , ์ธ๋งฅ ํ™•๋Œ€ ๋“ฑ์„ ํ†ตํ•˜์—ฌ ์‚ฌํšŒ์  ๊ด€๊ณ„๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๊ฐ•ํ™”ํ•˜๋ ค ์ฃผ๋Š” ์˜จ๋ผ์ธ ํ”Œ๋žซํผ

ํŠน์ง•

  • ์‚ฌํšŒ์  ๊ด€๊ณ„๋ง์„ ์ƒ์„ฑ, ์œ ์ง€, ๊ฐ•ํ™ฉ, ํ™•์žฅ ๊ฐ€๋Šฅ
  • ์ตœ๊ทผ์˜ SNS ์„œ๋น„์Šค๋Š” ๋Œ€๋ถ€๋ถ„ ์›น ๊ธฐ๋ฐ˜
  • ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•œ ๋งˆ์ผ€ํŒ… ํ™œ์šฉ๊ฐ€์น˜ ๋†’์Œ

 

์†Œ์…œ๋งˆ์ด๋‹ ๋ฐฉ๋ฒ•๋ก 

 

  1. ๋ฌธ์„œ ์ˆ˜์ง‘(Crawling)
    • SNS ๋“ฑ์„ ํ†ตํ•˜์—ฌ ์‚ฌ์šฉ์ž์˜ ๋ฌด์„  ์ˆ˜์ง‘
    • ์‚ฌ์šฉ์ž์˜ ์ €์ž‘๊ถŒ ๋ฐ ๊ฐœ์ธ์ •๋ณด ์œ ์˜
  2. ํ•„ํ„ฐ๋ง(Filtering)
    • ์ŠคํŒธ ๋ฐ์ดํ„ฐ, ๋ฌด๊ด€ ๋ฌธ์„œ ๋“ฑ์„ ํ•„ํ„ฐ๋ง
    • ์—ฐ๊ด€๋ฌธ์„œ๋ฅผ ํ† ๋Œ€๋กœ ๋ถ„์„
  3. ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋ถ„์„(NLP Analysis)
    • ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•๋ก ์˜ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ์—ฐ๊ด€์–ด ๋ถ„์„
  4. ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ณด๊ณ (Reporting)
    • ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๊ณ  ํ•ด์„ํ•˜์—ฌ ๋ณด๊ณ