λΉ…λ°μ΄ν„°μ˜ 생성

 

데이터(Data) : κ΄€μ°° 및 츑정을 ν†΅ν•œ νšλ“ / λ‹¨μˆœν•œ μ‚¬μ‹€μ΄λ‚˜ κ²°κ³Ό / κ°€κ³΅λ˜μ§€ μ•Šμ€ μƒνƒœ

정보(Information) : 데이터λ₯Ό κ°€κ³΅ν•˜μ—¬ 얻은 κ²°κ³Ό, μ˜μ‚¬κ²°μ •μ— κΈ°μ—¬

 

μ •λŸ‰μ  데이터(Quantitative Data): μ–Έμ–΄, 문자 등이 κ³„λŸ‰ κ°€λŠ₯ ν˜•νƒœ / (그릇이 μ •ν•΄μ Έμžˆμ–΄μ•Όν•¨) ➭ μ •ν˜•, λ°˜μ •ν˜• 데이터 ν˜•νƒœ

정성적 데이터(Qualitative Data):  μ–Έμ–΄, κ°œλ… λ“± 좔상적 ν˜•νƒœ / λΉ„μ •ν˜• 데이터 ν˜•νƒœ

 

 

λΉ…λ°μ΄ν„°μ˜ μˆ˜μ§‘

 

μ •μ˜ : μ‹œμŠ€ν…œμ˜ λ‚΄μ™ΈλΆ€μ—μ„œ 주기성을 κ°€μ§€κ³  ν•„μš”ν•œ ν˜•νƒœλ‘œ 데이터λ₯Ό λͺ¨μœΌλŠ” μž‘μ—…

 

μ—­ν•  

  • μœ μš©ν•œ 데이터λ₯Ό 선택 ➭ μ‚°μΆœλ¬Ό ν’ˆμ§ˆ ν–₯상
  • 졜적의 방법둠 선택 ➭ μˆ˜μ§‘ μ•ˆμ •μ„± κ·ΉλŒ€ν™”
  • μˆ˜μ§‘ μ†Œμš” λΉ„μš© μ΅œμ†Œν™”

 

빅데이터 μˆ˜μ§‘ 절차 섀계
  1. μˆ˜μ§‘ 데이터 μ„ μ • - λ‹€μ–‘ν•œ μš”μ†Œλ₯Ό κ³ λ €ν•˜λ € μ„ μ •
  2. μ„ΈλΆ€κ³„νš 수립 - μœ„μΉ˜, μœ ν˜•μ— λ”°λ₯Έ κ³„νšμ„œ μž‘μ„±
  3. ν…ŒμŠ€νŠΈ μˆ˜μ§‘ μ§„ν–‰ - ν…ŒμŠ€νŠΈλ₯Ό 톡해 기술/ ν–‰μ • κ²€ν† 
  4. μˆ˜μ§‘ μ§„ν–‰

 

μˆ˜μ§‘ 데이터 μ„ μ •

 

κ°€λŠ₯μ„± : λΆˆκ°€λŠ₯ ν˜Ήμ€ μ£ΌκΈ° ν†΅μ œ κ°€λŠ₯ μ—¬λΆ€ 확인

μ •ν™•μ„± : λ‚΄μš© μ •ν™•μ„±/μ •λ°€μ„±, μ‚¬μ „μ²˜λ¦¬ ν•„μš” μ—¬λΆ€

λ‚œμ΄λ„ : λΉ„μš©, μˆ˜μ§‘ 과정에 λ”°λ₯Έ λŒ€μ•ˆ κ³ λ €

λΉ„μš© : 데이터 νšλ“μ— ν•„μš”ν•œ 직접 λΉ„μš© κ²€ν† 

λ³΄μ•ˆ : κ°œμΈμ •λ³΄λ³΄ν˜Έ 및 μ €μž‘κΆŒ 문제 κ²€ν† 

 

 

μ„ΈλΆ€κ³„νš 수립

 

λ°μ΄ν„°μ˜ μœ„μΉ˜μ™€ μœ ν˜• νŒŒμ•…: λ‚΄λΆ€ ν˜Ήμ€ μ™ΈλΆ€ 데이터 여뢀확인 ➭ κΈ°κ΄€ ν˜‘μ˜ κ³ λ €

νŠΉμ§•, ꡬ성, ν˜•νƒœ λ“± νŒŒμ•… ➭ 방법둠 선택에 영ν–₯

 

μˆ˜μ§‘ κ³„νšμ„œ μž‘μ„±

데이터 μ†ŒμŠ€, μˆ˜μ§‘ μ£ΌκΈ°, μˆ˜μ§‘ 방법을 ν¬ν•¨ν•˜μ—¬ μž‘μ„± (λ°˜λ“œμ‹œ 포함)

 

 

ν…ŒμŠ€νŠΈ μˆ˜μ§‘ μ§„ν–‰

기술적 κ²€ν†  : 데이터 λˆ„λ½, 원본 데이터와 비ꡐ, μ •ν™•μ„± μΈ‘μ •

행정적 κ²€ν†  : λ³΄μ•ˆμ„±, μ €μž‘κΆŒ, νŠΈλž˜ν”½ λ°œμƒλŸ‰λ“±

 

 

빅데이터 μˆ˜μ§‘ κ³„νšμ„œ

데이터 μ†ŒμŠ€ : μ†ŒμŠ€ μœ„μΉ˜, ν˜•νƒœ, μΈν„°νŽ˜μ΄μŠ€ , μ‹€λ¬΄μž ν˜‘μ•½ 상세

μˆ˜μ§‘ μ£ΌκΈ°: μ£ΌκΈ°μ‹œκ°„(κ·œμΉ™μ„±) λ˜λŠ” μ‹€μ‹œκ°„(λΆˆκ·œμΉ™μ„±), 데이터/νŠΈλž˜ν”½λŸ‰

μˆ˜μ§‘ 방법: μˆ˜μ§‘ 기술, 사전/μ‚¬ν›„μ²˜λ¦¬,λŒ€μ•ˆ

 

 

빅데이터 μˆ˜μ§‘ 도ꡬ

 

인적 μžμ› ν™œμš© :

  • μ‚¬λžŒμ„ ν†΅ν•˜μ—¬ 데이터 μˆ˜μ§‘
  • 인적 μžμ› λΉ„μš© λ°œμƒ
  • μ˜€ν•΄μ„ λ˜λŠ” μ˜€μ°¨λ“±μ˜ 문제점

μžλ™ν™” 도ꡬ μ‚¬μš©:

  • λŒ€λΆ€λΆ„μ˜ κ³Όμ •μ—μ„œ μ‚¬λžŒμ˜ κ°œμž… μ—†μŒ
  • 인적 μžμ› λΉ„μš© μ΅œμ†Œν™” κ°€λŠ₯
  • 데이터 μ›μ²œμ˜ ν˜•νƒœμ— 따라 적용이 λΆˆκ°€λŠ₯ν•  μˆ˜λ„ 있음

 

빅데이터 μžλ™ν™” μˆ˜μ§‘ 기술

 

λ„€νŠΈμ›Œν¬ μˆ˜μ§‘

  • 크둀링(Crawling): 사전 μ •μ˜ νŒ¨ν„΄μ— 따라 μ •ν•΄μ§„ λ„€νŠΈμ›Œν¬ μ§€μ μ˜ 데이터 μˆ˜μ§‘
  • OpenAPI: 데이터 배포자 제곡 μΈν„°νŽ˜μ΄μŠ€

둜그/ μ„Όμ„œ μˆ˜μ§‘

  • 둜그 (Log)μˆ˜μ§‘: κΈ°κ΄€ 단체 λ‚΄λΆ€μ˜ μˆ˜μ§‘ / μž‘λ™ λ˜λŠ” 이용 νŒ¨ν„΄μ˜ 기둝
  • μ„Όμ„œ (Sensor)μˆ˜μ§‘ : μ„Όμ„œ μž₯치λ₯Ό μ΄μš©ν•œ 기둝

 

μˆ˜μ§‘ 사둀

 

JSON(Javascript Object Notation):

  • XML μœ μ‚¬ 데이터 μ •ν˜•ν™” 방식
  • 인터넷 μƒμ˜ 데이터 μ†‘μˆ˜μ‹  방식
  • ν…μŠ€νŠΈ ν˜•νƒœ, μž‘μ‘ μš©λŸ‰, λΉ λ₯Έ λ³€ν™˜ 속도
  • ν”„λ‘œκ·Έλž˜λ° μ–Έμ–΄ λ˜λŠ” ν”Œλž«νΌ 독립적

Flume:

  • 2010λ…„ Cloudera 개발, 둜그 데이터 μˆ˜μ§‘κΈ°
  • λΆ„μ‚° 데이터 톡합 κ°€λŠ₯, μ•ˆμ •μ„± κ°€μš©μ„± λ†’μŒ

Chukwa(척와):

  • 2008λ…„ Yahoo 개발, 둜그 데이터 μˆ˜μ§‘κΈ°
  • μ•„νŒŒμΉ˜ ν•˜λ‘‘ 기반, μ‹€μ‹œκ°„ 뢄석 κΈ°λŠ₯

SQOOP(슀쿱):

  • SQI-to-hadOOP, λ‹€μ–‘ν•œ DBMS λ²€ν„° ν˜Έν™˜
  • DBMS, ν•˜λ‘‘, NoSQL κ°„ 데이터 연동에 적용

OpenRefine(μ˜€ν”ˆ 리파인):

  • 2010λ…„ Google의 μ˜€ν”ˆ ν”„λ‘œμ νŠΈ
  • 데이터 μ •μ œ 도ꡬ: 였λ₯˜ μˆ˜μ •, 데이터 정리
  • 데이터 연계 API 및 μ›Œν¬ ν”Œλ‘œμš° κΈ°λŠ₯ 제곡

Protocol Buffers( ν”„λ‘œν† μ½œ 버퍼):

  • Google의 μ˜€ν”ˆ μ†ŒμŠ€ 직렬화 라이브러리
  • λ‹€μ–‘ν•œ ν”Œλž«νΌ κ°„μ˜ 톡신 κ°€λŠ₯

 

 

 

 

 

 

 

 

 

 

 

 

+ Recent posts