λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

Business Analytics

Part. 2 빅데이터와 λ°μ΄ν„°λ§ˆμ΄λ‹

   Part. 1 λΉ„μ¦ˆλ‹ˆμŠ€ μ• λ„λ¦¬ν‹±μŠ€μ—μ„œ '데이터 λ§ˆμ΄λ‹ 방법에 λŒ€ν•œ μ •ν™•ν•œ 이해'κ°€ μ€‘μš”ν•˜λ‹€κ³  언급을 ν•˜λ©° 글을 λ§ˆμ³€λ‹€.

이번 κΈ€μ—μ„œλŠ” 데이터 λ§ˆμ΄λ‹μ˜ μ •μ˜μ™€ κ΄€λ ¨ μš©μ–΄, λΉ…λ°μ΄ν„°μ˜ μ •μ˜μ— λŒ€ν•΄ μ•Œμ•„λ³΄κ² λ‹€.

 

λ°μ΄ν„°λ§ˆμ΄λ‹(DataMining)

"λ°μ΄ν„°λ§ˆμ΄λ‹μ΄λž€ λŒ€κ·œλͺ¨μ˜ 데이터 μ†μ—μ„œ 체계적이고 μžλ™μ μœΌλ‘œ

톡계적 κ·œμΉ™μ΄λ‚˜ νŒ¨ν„΄μ„ λΆ„μ„ν•˜μ—¬ κ°€μΉ˜μžˆλŠ” 정보λ₯Ό μΆ”μΆœν•˜λŠ” κ³Όμ •. [각주:1]

λΉ„μ¦ˆλ‹ˆμŠ€μ—μ„œ λ°μ΄ν„°λ§ˆμ΄λ‹μ€ 계산, 기술 톡계, λ¦¬ν¬νŒ… 및

λΉ„μ¦ˆλ‹ˆμŠ€ κ·œμΉ™μ„ 기반으둜 ν•˜λŠ” 방법을 λ›°μ–΄λ„˜λŠ” λΉ„μ¦ˆλ‹ˆμŠ€ 뢄석 방법을 의미"

 

 λ°μ΄ν„° λ§ˆμ΄λ‹μ€ μ˜μ‚¬ 결정을 μžλ™ν™”ν•˜λŠ” λ°©μ‹μœΌλ‘œ 정보λ₯Ό μ œκ³΅ν•˜λŠ” 톡계 및 κΈ°κ³„ν•™μŠ΅(Machine Learning) 방법을 ν¬ν•¨ν•œλ‹€. 데이터 λ§ˆμ΄λ‹μ€ 톡계학과 κΈ°κ³„ν•™μŠ΅(인곡지λŠ₯)의 결합이닀. 

사싀 ν†΅κ³„ν•™μ˜ μ„Έκ³„μ—μ„œλŠ” 였래 μ „λΆ€ν„° 데이터λ₯Ό μ„€κ³„ν•˜λŠ” λ‹€μ–‘ν•œ κΈ°μˆ λ“€μ΄ μ‘΄μž¬ν•΄μ™”λ‹€. κ·ΈλŸ¬λ‚˜ λ°μ΄ν„°λ§ˆμ΄λ‹μ€ κ³ μ „ ν†΅κ³„ν•™μ˜ 격언인 "계산은 μ–΄λ ΅κ³ , λ°μ΄ν„°λŠ” 적닀" λ₯Ό ν’μ‘±ν•œ 데이터와 압도적인 μ»΄ν“¨νŒ… λŠ₯λ ₯을 톡해 ν•΄κ²°ν•œλ‹€.

Daryl Pregibon 은 데이터 λ§ˆμ΄λ‹μ„ "규λͺ¨μ™€ μ†λ„μ˜ 톡계학" 이라고 μΌμ»«λŠ”λ‹€. 

 

 ν†΅κ³„와 λ°μ΄ν„°λ§ˆμ΄λ‹μ˜ 또 λ‹€λ₯Έ 차이점은 ν†΅κ³„λŠ” 평균 효과λ₯Ό 근거둜 λͺ¨μ§‘단에 λŒ€ν•œ 좔둠에 μ§‘μ€‘ν•˜λŠ” 반면, 데이터 λ§ˆμ΄λ‹μ€ 개개인의 값을 μ˜ˆμΈ‘ν•˜λŠ” 것에 μ΄ˆμ μ„ λ‘λŠ” 것이닀. 

μ˜ˆμΈ‘μ€ λ°μ΄ν„°λ§ˆμ΄λ‹μ—μ„œ 일반적으둜 μ€‘μš”ν•œ ꡬ성 μš”μ†Œμ΄λ©°, 개인 λ‹¨μœ„λ‘œ λΆ„μ„λ˜κ³€ ν•œλ‹€. 

"광고와 판맀 μ‚¬μ΄μ˜ κ΄€κ³„λŠ” 무엇인가?" λΌλŠ” 질문처럼 μ‹œμž₯에 관심이 μžˆλŠ” 것이 μ•„λ‹ˆλΌ

"νŠΉμ • κ΄‘κ³ λ‚˜ μΆ”μ²œ μ œν’ˆμ„ μ§€κΈˆ μ–΄λ–€ 온라인 κ΅¬λ§€μžμ—κ²Œ 보여주어야 ν•˜λŠ”κ°€?" λΌλŠ” 질문처럼 κ°œμΈμ— 관심이 μžˆλŠ” 것이닀.

 

사싀 λ°μ΄ν„°λ§ˆμ΄λ‹μ€ 좔둠에 관심이 μ—†λ‹€κ³  해도 과언이 μ•„λ‹ˆλ‹€.

 

 ν†΅κ³„λ°©λ²•λ‘ κ³ΌλŠ” 달리 λ°μ΄ν„°λ§ˆμ΄λ‹μ€ 큰 규λͺ¨μ˜ 데이터셋을 닀루기 λ•Œλ¬Έμ—, 좔둠이 λ‹΅ν•˜κ³ μž ν•˜λŠ” μ§ˆλ¬Έλ“€μ— μ œν•œμ„ λ‘λŠ” 것이 μ–΄λ ΅λ‹€. λͺ‡ κ°€μ§€ ν‘œλ³Έμ„ κ°€μ§€κ³  λͺ¨μ§‘단을 μΆ”λ‘ ν•˜λ €κ³  λ°μ΄ν„°λ§ˆμ΄λ‹μ„ μ‚¬μš©ν•˜λŠ” 것이 μ•„λ‹ˆλ‹€. λ°μ΄ν„°λ§ˆμ΄λ‹μ€, μ–΄μ©Œλ©΄ κ·Έ λ°˜λŒ€μ˜ 방법둠이라고 ν•  수 μžˆλ‹€. λ§Žμ€ 데이터가 ν™•λ³΄λ˜μ–΄ μžˆλŠ” μƒνƒœμ—μ„œ(μ–΄μ©Œλ©΄ λͺ¨μ§‘단이라 ν•  수 μžˆλŠ”) κ·Έ 데이터λ₯Ό λ°”νƒ•μœΌλ‘œ, μž‘μ€ ν‘œλ³Έλ“€μ˜ 곡톡점과 차이점을 μ°Ύμ•„κ°€λŠ” 과정이 λ°μ΄ν„°λ§ˆμ΄λ‹μ΄λ‹€. 

 

 λ¬Όλ‘  κ·Έλ ‡λ‹€κ³  ν•΄μ„œ ν†΅κ³„방법둠이 λ°μ΄ν„°λ§ˆμ΄λ‹ λΆ„μ•Όμ—μ„œ μ“Έλͺ¨μ—†λ‹€κ³  μƒκ°ν•˜λŠ” 것 μ—­μ‹œ κΈˆλ¬Όμ΄λ‹€. λ°μ΄ν„°λ§ˆμ΄λ‹ λΆ„μ•Όμ—μ„œ, κΈ°κ³„ν•™μŠ΅κ³Ό 톡계λͺ¨λΈμ€ λ°˜μ˜μ–΄μ΄κ³ , μ„œλ‘œμ˜ 역할이 λ‹€λ₯Ό 뿐 μ£Όμš”ν•˜κ²Œ μ‚¬μš©λœλ‹€. 이 ν†΅κ³„λͺ¨λΈμ˜ 근간이 λ˜λŠ” 것이 톡계방법둠이고, λ°μ΄ν„°λ§ˆμ΄λ‹μ€ 톡계방법둠이 적용된 λͺ¨λΈμ„ μ‚¬μš©ν•œλ‹€κ³  λ³Ό 수 μžˆλ‹€. 

 

κΈ°κ³„ν•™μŠ΅

계측적 λ˜λŠ” 반볡적인 λ°©μ‹μœΌλ‘œ 직접 λ°μ΄ν„°λ‘œλΆ€ν„° ν•™μŠ΅ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜ (Ex. k- μ΅œκ·Όμ ‘μ΄μ›ƒ μ•Œκ³ λ¦¬μ¦˜)

톡계λͺ¨λΈ

데이터 전체 ꡬ쑰λ₯Ό μ μš©ν•˜λŠ” 방법(Ex. μ„ ν˜• νšŒκ·€λͺ¨λΈ)

 

 μˆ˜λ§Žμ€ λ°μ΄ν„°μ—μ„œλŠ”, μΈκ°„μ˜ μ‚¬κ³ λ‘œλŠ” μ΄ν•΄ν•˜κΈ° νž˜λ“  곡톡점이 λ°œκ²¬λ˜κΈ°λ„ ν•˜κ³ , κ·Έ μ•ˆμ—μ„œ μΈμ‚¬μ΄νŠΈκ°€ λ‚˜μ˜€κΈ°λ„ ν•œλ‹€. (후에 μžμ„Ένžˆ μ„€λͺ…ν•˜κ² μ§€λ§Œ, μž₯λ°”κ΅¬λ‹ˆ 뢄석은 λ§₯μ£Όλ₯Ό μ‚¬λŠ” 고객이 κΈ°μ €κ·€λ₯Ό μ‚°λ‹€λŠ” μΈμ‚¬μ΄νŠΈλ₯Ό κ°€μ Έμ˜€κΈ°λ„ ν–ˆλ‹€.) λ¬Όλ‘  이 κ³Όμ •μ—μ„œ λ°μ΄ν„°λ§ˆμ΄λ‹μ€ 과적합 μœ„ν—˜ (곡학 μš©μ–΄λ‘œ, λͺ¨ν˜•이 μ‹ ν˜Έ 뿐만 μ•„λ‹ˆλΌ μž‘μŒκΉŒμ§€λ„ λΆ„μ„ν•˜κ²Œ λ˜λŠ” ν˜„μƒ_ μ—­μ‹œ μΆ”ν›„ μžμ„Ένžˆ μ„€λͺ…)에 빠지기도 ν•˜μ§€λ§Œ, μ˜¬λ°”λ₯Έ 예츑이 λΉ„μ¦ˆλ‹ˆμŠ€μ— κ°€μ Έλ‹€μ£ΌλŠ” μΈμ‚¬μ΄νŠΈμ™€ 이점은 μƒλ‹Ήν•˜λ‹€.  

 

 μœ„μ—μ„œλΆ€ν„° 계속 λŒ€κ·œλͺ¨μ˜ 데이터, 큰 규λͺ¨μ˜ 데이터λ₯Ό μ–ΈκΈ‰ν–ˆμ§€λ§Œ, μ΄μ œλΆ€ν„°λŠ” 빅데이터λ₯Ό 직접 μ–ΈκΈ‰ν•˜κ³ μž ν•œλ‹€. 

빅데이터(Big Data) μ‹œλŒ€λŠ” 데이터 λ§ˆμ΄λ‹ μ‚¬μš©μ„ κ°€μ†ν™”ν•œλ‹€. 데이터 λ§ˆμ΄λ‹μ€ κ°•λ ₯ν•˜κ³  μžλ™ν™”λœ κΈ°λŠ₯으둜 λΉ„μ¦ˆλ‹ˆμŠ€μ—μ„œ λŒ€μš©λŸ‰ 데이터λ₯Ό λΉ λ₯΄κ²Œ μ²˜λ¦¬ν•˜κ³  κ°€μΉ˜λ₯Ό μΆ”μΆœν•  수 μžˆλ„λ‘ λ•λŠ”λ‹€. λΉ…λ°μ΄ν„°λŠ” μƒλŒ€μ μΈ μš©μ–΄μ΄λ‹€. μ˜€λŠ˜λ‚ μ˜ λ°μ΄ν„°λŠ” 과거와 λΉ„κ΅ν•΄μ„œ, λͺ¨λ“  것이 λŒ€μš©λŸ‰μ΄λ‹€. μ ˆλŒ€μ μΈ 양도 κ·Έλ ‡κ³ , μ²˜λ¦¬ν•  수 μžˆλŠ” 방법과 κ·Έ μž₯치(μ†Œν”„νŠΈμ›¨μ–΄, ν•˜λ“œμ›¨μ–΄) λ“± λͺ¨λ“  것이 λ§Žμ•„μ§€κ³  λ°œμ „ν•΄μžˆλŠ” μƒνƒœμ΄λ‹€. 

 

빅데이터가 μ œμ‹œν•˜λŠ” κ³Όμ œλŠ” 4κ°€μ§€ V둜 μ •μ˜ν•  수 μžˆλ‹€.

 

Volume (λΆ€ν”Ό)

λ°μ΄ν„°μ˜ μ–‘

Velocity (속도)

μœ λ™λ₯ , 데이터가 μƒμ„±λ˜κ±°λ‚˜ λ³€κ²½λ˜λŠ” 속도

Variety (λ‹€μ–‘μ„±)

μƒμ„±λ˜λŠ” λ‹€μ–‘ν•œ μœ ν˜•μ˜ 데이터( λ‚ μ§œ, 숫자, ν…μŠ€νŠΈ λ“± )

Veracity (μ§„μ‹€μ„±)

μˆ˜μ§‘λ˜λŠ” 데이터가 연ꡬλ₯Ό μœ„ν•΄ ν†΅μ œλ˜κ³  ν’ˆμ§ˆ 검사 λŒ€μƒμ΄ λ˜λŠ” μ‘΄μž¬κ°€ μ•„λ‹˜

 

 μ΄μ œ λŒ€λΆ€λΆ„μ˜ 기업듀은 빅데이터가 μ œμ‹œν•˜λŠ” κ³Όμ œλΌλŠ” λ„μ „μ΄μž κΈ°νšŒμ— 직면해 μžˆλ‹€. λͺ¨λ“  것이 λ””μ§€ν„Έλ‘œ λ³€ν™˜λ˜λŠ” μ‹œλŒ€μ—, μš°λ¦¬κ°€ ν•˜λŠ” λͺ¨λ“  ν–‰μœ„λŠ” κ³§ λ°μ΄ν„°λ‘œ μ €μž₯λœλ‹€. 심지어 μ„Όμ„œμ˜ λ°œλ‹¬λ‘œ μš°λ¦¬κ°€ μ£ΌλŠ” μ•„λ‚ λ‘œκ·Έ μ‹ ν˜Έ(μ–Έμ–΄, 행동 λ“±) 도 λ°μ΄ν„°λ‘œ λ³€ν™˜μ΄ λ˜μ–΄ μƒμ„±λ˜κ³  μžˆλ‹€. λ…Έλ ₯ν•œλ‹€λ©΄ 이 λͺ¨λ“  데이터듀을 뢄석할 수 있고, κ°€μΉ˜λ₯Ό λ§Œλ“€μ–΄ λ‚Ό 수 μžˆλ‹€. 빅데이터 μ‹œλŒ€ μ΄μ „μ—λŠ” κ²°μ½” μ‹€ν˜„λ  μˆ˜λ„, 상상할 μˆ˜λ„ μ—†μ—ˆλ˜ 일듀이 μΌμ–΄λ‚˜κ³ , μ£Όλ₯˜(Mainstream)κ°€ λ˜μ–΄κ°€κ³  μžˆλŠ” λΉ„μ¦ˆλ‹ˆμŠ€ ν™˜κ²½μ΄ λ„λž˜ν–ˆλ‹€.  

 


λ‹€μŒ Part3. 데이터 μ‚¬μ΄μ–ΈμŠ€ μ—μ„œλŠ” 데이터 μ‚¬μ΄μ–ΈμŠ€μ˜ μ •μ˜μ™€ λ‹€μ–‘ν•œ λΆ„μ„λ°©λ²•λ“€μ˜ λ‘œλ“œλ§΅κ³Ό 쑴재 μ΄μœ μ— λŒ€ν•΄ μ•Œμ•„λ³΄κ² λ‹€.


μ°Έκ³ ) Grlit Shmueli ε€– 4, γ€ŽλΉ„μ¦ˆλ‹ˆμŠ€ μ• λ„λ¦¬ν‹±μŠ€λ₯Ό μœ„ν•œ λ°μ΄ν„°λ§ˆμ΄λ‹γ€, WILEY(2018), p28-31

 

  1. 이재규,κΆŒμˆœλ²”,μž„κ·œκ±΄. γ€Šκ²½μ˜μ •λ³΄μ‹œμŠ€ν…œμ›λ‘ (제2판), 2005, 534p》. λ²•μ˜μ‚¬. ISBN-10 : 027375453X / ISBN-13 : 9780273754534. [본문으둜]

'Business Analytics' μΉ΄ν…Œκ³ λ¦¬μ˜ λ‹€λ₯Έ κΈ€

Part 3. 데이터 μ‚¬μ΄μ–ΈμŠ€  (1) 2021.07.10
Part. 1 λΉ„μ¦ˆλ‹ˆμŠ€ μ• λ„λ¦¬ν‹±μŠ€  (1) 2021.07.06