Linear Regression

Linear Regression 기초

Linear Regression은 연속적인 데이터의 추이를 바탕으로 레이블(결과값)을 예측하는 Supervised Learning 의 일종이다.

만약 다음과 같은 데이터가 있다고 할 때,

X	Y
1	1
2	2
3	3

우리는 다음과 같은 2차원 상의 그래프를 그릴 수 있다.

우리가 하고자 하는 작업은 위의 선 중에 어떤 선이 가장 Data의 추이를 잘 설명하는지 가설을 세우고 선택하는 것이다.

즉, 우리가 가장 먼저 할 일은 Hypothesis (가설)을 세우는 작업이다.

그 가설은

"Linear 한 Model이 우리의 Data에 맞을 것이다. "

는 가설이다. 우리는 이제부터 Linear한 선을 찾는 작업에 들어간다.

위에 있는 그래프 그림에서 그려진 선들은 각각이 하나의 가설이고, 다음과 같이 표현할 수 있다.

가설 H(x) 는 각각의 x 값 (관측치)에 W (기울기)를 곱한 값에 b (y 절편) 값을 더한 것이다. 우리는 데이터에 최적화된 W 와 b 값을 찾아나가야 하는 것이다. 그 최적화된 W와 b 값은 결국 데이터에 맞는 선이 나오게 한다.

우리는 선과 Data의 거리의 차가 가장 적은, 즉 Data와 가장 거리가 가까운 선을 찾아내야 한다.

Linear Regression은 선과 Data의 거리의 차를 Cost Function (손실함수)라고 표현한다.

H(x)와 y 의 차이를 바로 구해버릴 수도 있지만, 이렇게 될 경우 데이터들의 차끼리 합할 때, 음수와 양수가 섞여 있어서 오류가 큰 데이터임에도 차의 합이 적어질 수도 있다.

X	Y	Predict	Difference
1	1	11	10
2	2	-8	-10
3	3	3	0
Sum of Differences =			0

그래서 우리는 손실 함수를 구할 때, H(x)에서 y 값을 뺀 값의 제곱들의 합을 구한다.

X	Y	Predict	Difference (square)
1	1	11	100
2	2	-8	100
3	3	3	0
Sum of Differences(square)			200

표에서 보면 차이를 알 수 있겠지만, 제곱의 합을 구할 경우, 합과 차가 상쇄되어 큰 오류가 묻히는 경우가 없어지게 된다.

결론적으로, Linear Regression의 Cost Function을 일반화하면 다음과 같다.

m개의 데이터의 모든 H(x)와 y 값의 차이의 제곱들을 더한 후, m개로 나누는, 즉 오차의 제곱에 평균을 구하는 방식이다. 이 때 우리가 수정할 수 있는 변수는 W와 b로 (실제 데이터를 바꿀 수는 없으니) 우리는 우리의 가설 함수를 수정해 나가며 데이터에 최적화된, 즉 Cost Function을 최소화할 수 있는 선형 회귀 모델을 찾아나가는 것이다.

"우리의 목표 : cost 함수를 최소화하는 W,b 값 찾기 (가설함수 찾기)"

'DataScience > Machine Learning Basic' 카테고리의 다른 글

Linear Regression Cost Function & Gradient Descent Algorithm (0)	2022.02.20
Tensorflow Linear Regression Implementation (1)	2022.01.26
Tensorflow 기본 Operation (0)	2022.01.21
Tensorflow in Pycharm 그리고 Google Colab (0)	2022.01.21
Tensorflow 와 머신러닝 (0)	2022.01.21

Dreams Come True💫

Linear Regression