๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

DataScience/Machine Learning Basic

Linear Regression Cost Function & Gradient Descent Algorithm

Linear Regression ์˜ ๊ด€์‹ฌ

์ง€๋‚œ ์‹œ๊ฐ„์— ์•Œ์•„๋ดค๋˜ Linear Regression ์˜ Cost ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

Linear Regression์˜ Cost ํ•จ์ˆ˜

์šฐ๋ฆฌ์˜ ๊ด€์‹ฌ์€ , ์šฐ๋ฆฌ๊ฐ€ ์กฐ์ž‘ ๊ฐ€๋Šฅํ•œ W ๊ฐ’(x ์˜ ๊ธฐ์šธ๊ธฐ)๊ณผ b ๊ฐ’(y ์ ˆํŽธ)์„ ์กฐ์ •ํ•˜์—ฌ Cost ํ•จ์ˆ˜ ๊ฐ’์ด ๊ฐ€์žฅ ์ ๊ฒŒ ๋‚˜์˜ค๋Š” ๋ชจ๋ธ์„ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. 

์šฐ๋ฆฌ์˜ ๊ด€์‹ฌ

 

Gradient Descent Algorithm

์šฐ์„  ์ง€๋‚œ ๋ฒˆ ์˜ˆ์‹œ๋กœ ์‚ดํŽด๋ณด์•˜๋˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด์ž

X Y
1 1
2 2
3 3

๋˜ํ•œ ๊ฐ€์„ค ํ•จ์ˆ˜ H(x) = Wx ๋ผ๊ณ  ํ•˜๋ฉด, (b ๊ฐ’์„ 0์ด๋ผ๊ณ  ํ•˜์ž) ๋‹ค์Œ๊ณผ ๊ฐ™์€ Cost ํ•จ์ˆ˜๊ฐ€ ํ‘œํ˜„๋œ๋‹ค.

์ƒˆ๋กœ์šด ๊ฐ€์„ค ํ•จ์ˆ˜ , Cost ํ•จ์ˆ˜

์ด ํ•จ์ˆ˜(Cost ํ•จ์ˆ˜)์˜ ๋ชจํ˜•์„ ๊ทธ๋ ค๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

W ๊ฐ’์— ๋‹ค๋ฅธ Cost ํ•จ์ˆ˜์˜ ๋ณ€ํ™” : x ์ถ•์ด W, y ์ถ•์ด Cost ํ•จ์ˆ˜๊ฐ’

W ๊ฐ’์— ๋”ฐ๋ผ Cost ํ•จ์ˆ˜๊ฐ’์ด ๋‹ฌ๋ผ์ง€๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. W๊ฐ€ 0์ผ ๋•Œ๋Š” Cost ๊ฐ’์ด 0.4667์ด๊ณ , 1๋กœ ๊ฐˆ์ˆ˜๋ก ์ ์  ์ค„์–ด๋“ค์–ด 0์ด ๋˜๋ฉฐ, ๊ทธ ์ดํ›„๋ถ€ํ„ฐ๋Š” ์ ์  ๋‹ค์‹œ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. 

์ฆ‰, ์ด ๋ฐ์ดํ„ฐ์—์„œ Cost ํ•จ์ˆ˜๋ฅผ ๊ฐ€์žฅ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” W ๊ฐ’์€ 1์ด๋ผ๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

์ด์ฒ˜๋Ÿผ Cost ๊ฐ€ ์ตœ์†Œํ™”๋˜๋Š” ์ง€์ ์„ ๊ธฐ๊ณ„์ ์œผ๋กœ ์ฐพ์„ ๋•Œ ์ ์šฉํ•˜๋Š” Algorithm์ด ๋ฐ”๋กœ Gradient Descent Algorithm์ด๋‹ค. ๋งŒ์•ฝ, ํŠน์ •ํ•œ ์ ์—์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์Œ์ˆ˜์ด๊ฑฐ๋‚˜, ์–‘์ˆ˜๋ผ๋ฉด ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋˜๋Š” ๋ณ€๊ณก์ ์œผ๋กœ ์ฐพ์•„๊ฐ€๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. 

์™ผ์ชฝ์—์„œ๋Š” ํŠน์ • ์ ์—์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์Œ์ˆ˜์ด๋ฏ€๋กœ, ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ด๋™ํ•œ๋‹ค. ์˜ค๋ฅธ์ชฝ์—์„œ๋Š” ๊ธฐ์šธ๊ธฐ๊ฐ€ ์–‘์ˆ˜์ด๋ฏ€๋กœ ์™ผ์ชฝ์œผ๋กœ ์ด๋™ํ•œ๋‹ค. 

Gradient Descent Algorithm์€ Cost Function์„ ์ตœ์†Œํ™”ํ•˜๋Š”๋ฐ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋ฉฐ, ์ตœ์†Œํ™” ๋ฌธ์ œ์— ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค. 

๊ธฐ๋ณธ์ ์ธ ์ž‘๋™ ์›๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

1. ์ž„์˜์˜ ์‹œ์ž‘์ ์—์„œ ์ถœ๋ฐœํ•œ๋‹ค.

2. Cost ํ•จ์ˆ˜๊ฐ€ ์ค„์–ด๋“ค ์ˆ˜ ์žˆ๊ฒŒ, W ๊ฐ’๊ณผ b๊ฐ’์„ ์กฐ๊ธˆ ๋ฐ”๊พผ๋‹ค.  

3. ํ•ด๋‹น ์ง€์ ์—์„œ์˜ ๊ฒฝ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , cost ํ•จ์ˆ˜๊ฐ€ ์ค„์–ด๋“œ๋Š” ๊ฒฝ์‚ฌ๋„ ๋ฐฉํ–ฅ์„ ์„ ํƒํ•œ๋‹ค.   

4. Local Minimum์— ๋„๋‹ฌํ•  ๋•Œ๊นŒ์ง€ 2,3 ๋ฒˆ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•œ๋‹ค.

 

์œ„์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์€ 2์ฐจ ํ•จ์ˆ˜ Cost ํ•จ์ˆ˜์—์„œ๋Š” Gradient Algorithm์„ ์ ์šฉํ•˜๋ฉด ํ•ญ์ƒ Local Minimum์ด Global Minimum์ด ๋˜๊ฒŒ ๋œ๋‹ค. ๋ฐ‘์ค„์นœ ๊ฒฝ์‚ฌ๋„ ๊ณ„์‚ฐ์€ ๋ฏธ๋ถ„์„ ํ†ตํ•ด ์ง„ํ–‰๋˜๊ฒŒ ๋œ๋‹ค. 

Cost ํ•จ์ˆ˜ ๋ฏธ๋ถ„

๊ฒฐ๊ตญ ์ตœ์ ํ™”๋œ W ๊ฐ’์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•ด์ง€๊ฒŒ ๋œ๋‹ค. 

Descent Algorithm์ด ์™„์„ฑ๋œ W

์ด๋ ‡๊ฒŒ ์ตœ์ ํ™”๋œ W ๊ฐ’์„ ๊ณ„์† ๊ฐฑ์‹ ํ•˜๋‹ค๋ณด๋ฉด, Cost ํ•จ์ˆ˜ ๊ฐ’์ด Minimum์ด ๋˜๋Š” W ๊ฐ’์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค. 

 

Convex Function

์œ„์—์„œ Local Minimum์ด๋ผ๋Š” ํ‘œํ˜„์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ์–ด๋–ค ํ•จ์ˆ˜์—์„œ๋Š” Local Minimum๊ณผ Global Minimum์ด ๋‹ค๋ฅธ ๊ฒฝ์šฐ๋„ ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. 

์„ธ๋กœ ์ถ•์„ Cost Function , θ0๋ฅผ W, θ1๋ฅผ b๋กœ ์ƒ๊ฐํ•˜์ž

์ด๋Ÿฌํ•œ Cost function ๋ชจํ˜•์ด ์กด์žฌํ•œ๋‹ค๊ณ  ํ•  ๋•Œ, ์‹œ์ž‘์ ์— ๋”ฐ๋ผ Gradient ๊ฐ’์ด 0์ด ๋˜๋Š” ์ง€์ ์ด ๋‹ฌ๋ผ, ํ•ญ์ƒ Cost Fuction์ด ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ์ ์„ ๊ตฌํ•  ์ˆ˜ ์—†๋Š” ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธฐ๊ฒŒ ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ, Gradient Algorithm์„ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์šฐ๋ฆฌ์˜ Cost Function์˜ ๋ชจํ˜•์ด Convex Function (๋ณผ๋กํ•จ์ˆ˜)์ธ์ง€๋ฅผ ํ™•์ธํ•ด๋ณด์•„์•ผ ํ•œ๋‹ค.

 

Convex Function์—์„œ๋Š” ์–ด๋А ์ ์—์„œ ์‹œ์ž‘ํ•˜๋˜์ง€ ๋„์ฐฉํ•˜๋Š” ์ ์ด Cost Function์ด ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ์ง€์ ์— ๋„์ฐฉํ•˜๊ณ , Gradient Descent Algorithm์ด ํ•ญ์ƒ ๋‹ต์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค. 

'DataScience > Machine Learning Basic' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

Multivariable linear regression  (0) 2022.02.21
Tensorflow Linear Regression Implementation  (1) 2022.01.26
Linear Regression  (0) 2022.01.25
Tensorflow ๊ธฐ๋ณธ Operation  (0) 2022.01.21
Tensorflow in Pycharm ๊ทธ๋ฆฌ๊ณ  Google Colab  (0) 2022.01.21