๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

DataScience/Machine Learning Basic

Linear Regression

Linear Regression ๊ธฐ์ดˆ

Linear Regression์€ ์—ฐ์†์ ์ธ ๋ฐ์ดํ„ฐ์˜ ์ถ”์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ ˆ์ด๋ธ”(๊ฒฐ๊ณผ๊ฐ’)์„ ์˜ˆ์ธกํ•˜๋Š” Supervised Learning ์˜ ์ผ์ข…์ด๋‹ค. 

๋งŒ์•ฝ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•  ๋•Œ, 

X Y
1 1
2 2
3 3

์šฐ๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ 2์ฐจ์› ์ƒ์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋‹ค. 

ํ™”๊ฐ€ ์ง€๋ง

์šฐ๋ฆฌ๊ฐ€ ํ•˜๊ณ ์ž ํ•˜๋Š” ์ž‘์—…์€ ์œ„์˜ ์„  ์ค‘์— ์–ด๋–ค ์„ ์ด ๊ฐ€์žฅ Data์˜ ์ถ”์ด๋ฅผ ์ž˜ ์„ค๋ช…ํ•˜๋Š”์ง€ ๊ฐ€์„ค์„ ์„ธ์šฐ๊ณ  ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด๋‹ค. 

์ฆ‰, ์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์žฅ ๋จผ์ € ํ•  ์ผ์€ Hypothesis (๊ฐ€์„ค)์„ ์„ธ์šฐ๋Š” ์ž‘์—…์ด๋‹ค. 

๊ทธ ๊ฐ€์„ค์€ 

"Linear ํ•œ Model์ด ์šฐ๋ฆฌ์˜ Data์— ๋งž์„ ๊ฒƒ์ด๋‹ค. "

 

๋Š” ๊ฐ€์„ค์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด์ œ๋ถ€ํ„ฐ Linearํ•œ ์„ ์„ ์ฐพ๋Š” ์ž‘์—…์— ๋“ค์–ด๊ฐ„๋‹ค. 

 

์œ„์— ์žˆ๋Š” ๊ทธ๋ž˜ํ”„ ๊ทธ๋ฆผ์—์„œ ๊ทธ๋ ค์ง„ ์„ ๋“ค์€ ๊ฐ๊ฐ์ด ํ•˜๋‚˜์˜ ๊ฐ€์„ค์ด๊ณ , ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

Linear Regression์˜ Hypothesis

๊ฐ€์„ค H(x) ๋Š” ๊ฐ๊ฐ์˜ x ๊ฐ’ (๊ด€์ธก์น˜)์— W (๊ธฐ์šธ๊ธฐ)๋ฅผ ๊ณฑํ•œ ๊ฐ’์— b (y ์ ˆํŽธ) ๊ฐ’์„ ๋”ํ•œ ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ์— ์ตœ์ ํ™”๋œ W ์™€ b ๊ฐ’์„ ์ฐพ์•„๋‚˜๊ฐ€์•ผ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ ์ตœ์ ํ™”๋œ W์™€ b ๊ฐ’์€ ๊ฒฐ๊ตญ ๋ฐ์ดํ„ฐ์— ๋งž๋Š” ์„ ์ด ๋‚˜์˜ค๊ฒŒ ํ•œ๋‹ค.

 

์šฐ๋ฆฌ๋Š” ์„ ๊ณผ Data์˜ ๊ฑฐ๋ฆฌ์˜ ์ฐจ๊ฐ€ ๊ฐ€์žฅ ์ ์€, ์ฆ‰ Data์™€ ๊ฐ€์žฅ ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์šด ์„ ์„ ์ฐพ์•„๋‚ด์•ผ ํ•œ๋‹ค.

Linear Regression์€ ์„ ๊ณผ Data์˜ ๊ฑฐ๋ฆฌ์˜ ์ฐจ๋ฅผ Cost Function (์†์‹คํ•จ์ˆ˜)๋ผ๊ณ  ํ‘œํ˜„ํ•œ๋‹ค. 

 

H(x)์™€ y ์˜ ์ฐจ์ด๋ฅผ ๋ฐ”๋กœ ๊ตฌํ•ด๋ฒ„๋ฆด ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ์ด๋ ‡๊ฒŒ ๋  ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ๋“ค์˜ ์ฐจ๋ผ๋ฆฌ ํ•ฉํ•  ๋•Œ, ์Œ์ˆ˜์™€ ์–‘์ˆ˜๊ฐ€ ์„ž์—ฌ ์žˆ์–ด์„œ ์˜ค๋ฅ˜๊ฐ€ ํฐ ๋ฐ์ดํ„ฐ์ž„์—๋„ ์ฐจ์˜ ํ•ฉ์ด ์ ์–ด์งˆ ์ˆ˜๋„ ์žˆ๋‹ค.

X Y Predict Difference
1 1 11 10
2 2 -8 -10
3 3 3 0
Sum of Differences = 0

๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๊ตฌํ•  ๋•Œ, H(x)์—์„œ y ๊ฐ’์„ ๋บ€ ๊ฐ’์˜ ์ œ๊ณฑ๋“ค์˜ ํ•ฉ์„ ๊ตฌํ•œ๋‹ค. 

๊ฐ€์„ค๊ณผ ๊ด€์ธก์น˜์˜ ์˜ค์ฐจ์˜ ์ œ๊ณฑ

X Y Predict Difference (square)
1 1 11 100
2 2 -8 100
3 3 3 0
Sum of Differences(square) 200

ํ‘œ์—์„œ ๋ณด๋ฉด ์ฐจ์ด๋ฅผ ์•Œ ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, ์ œ๊ณฑ์˜ ํ•ฉ์„ ๊ตฌํ•  ๊ฒฝ์šฐ, ํ•ฉ๊ณผ ์ฐจ๊ฐ€ ์ƒ์‡„๋˜์–ด ํฐ ์˜ค๋ฅ˜๊ฐ€ ๋ฌปํžˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์—†์–ด์ง€๊ฒŒ ๋œ๋‹ค.

 

๊ฒฐ๋ก ์ ์œผ๋กœ, Linear Regression์˜ Cost Function์„ ์ผ๋ฐ˜ํ™”ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

Linear Regression ์˜ CostFunction

m๊ฐœ์˜ ๋ฐ์ดํ„ฐ์˜ ๋ชจ๋“  H(x)์™€ y ๊ฐ’์˜ ์ฐจ์ด์˜ ์ œ๊ณฑ๋“ค์„ ๋”ํ•œ ํ›„, m๊ฐœ๋กœ ๋‚˜๋ˆ„๋Š”, ์ฆ‰ ์˜ค์ฐจ์˜ ์ œ๊ณฑ์— ํ‰๊ท ์„ ๊ตฌํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด ๋•Œ ์šฐ๋ฆฌ๊ฐ€ ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋ณ€์ˆ˜๋Š” W์™€ b๋กœ (์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”๊ฟ€ ์ˆ˜๋Š” ์—†์œผ๋‹ˆ) ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ์˜ ๊ฐ€์„ค ํ•จ์ˆ˜๋ฅผ ์ˆ˜์ •ํ•ด ๋‚˜๊ฐ€๋ฉฐ ๋ฐ์ดํ„ฐ์— ์ตœ์ ํ™”๋œ, ์ฆ‰ Cost Function์„ ์ตœ์†Œํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์„ ์ฐพ์•„๋‚˜๊ฐ€๋Š” ๊ฒƒ์ด๋‹ค. 

"์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ : cost ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” W,b ๊ฐ’ ์ฐพ๊ธฐ (๊ฐ€์„คํ•จ์ˆ˜ ์ฐพ๊ธฐ)"