[스터디] 3일차 머신러닝-지도학습(회귀), 평가지표
오늘은 지도학습 알고리즘 중 회귀에 대해 알아보겠습니다.😊
지도 학습의 알고리즘 종류
지도 학습의 알고리즘은 크게 두가지가 있다. 두가지 중 우리가 알아볼 알고리즘은 회귀이다.
2️⃣ 회귀(Regression)
머신러닝에서 회귀란? 시계열 데이터(연속된 데이터)를 취급할 때 사용되는 기법이기도 하다.
주어진 입력 변수(독립변수)와 출력 변수(종속변수) 사이의 관계를 모델링하는 기술이다.
주어진 입력 변수(독립변수)와 출력 변수(종속변수) 사이의 관계를 모델링 이 말은 사실 지도학습의 전체적인 정의인데 출력변수가 어떤 특성을 띄우냐에 따라 회귀냐 분류냐로 나뉠 수 있다.
연속형 출력 변수의 경우에는 회귀 기술을 사용하고, 범주형 출력 변수의 경우에는 분류 기술을 사용
🖥️예시
예를들어 날씨, 온도, 위치 등을 입력변수로 하여 자전거 대여률을 예측하는것을 예로 들 수 있다.
선형 회귀(Linear Regression)
선형 회귀는 가장 간단하면서도 널리 사용되는 회귀 분석 기법 중 하나이다. 이 기법은 입력 변수화 출력 변수 간의 선형 관계를 모델링한다. 데이터를 가장 잘 대변하는 최적의 선을 찾은 과정
선형관계란
변수 간의 관계를 나타낸 개별 값들과 가장 오차가 나지 않는 선을 그었을 때 직선이 나타나는 경우
아래 그래프에서 검정색 점이 데이터이고 이 데이터를 가장 잘 표현하는 선이 파란색 직선이다.
선형회귀 직선은 x와 y의 관계를 요약해서 설명해준다고 볼 수 있다. 이 때 x를 독립변수라고 하며, x에 의해 영향을 받는 값인 y를 종속변수라고 한다. 만약 독입변수 x가 하나라면 단순 선형회귀, 2개 이상이면 다중 선형 회귀라고 한다.
- 독립 변수는 예측(Predictor)변수, 설명(Explanatory), 특성(Feature) 등으로 불린다.
- 종속 변수는 반응(Response)변수, 레이블(Label), 타겟(Target) 등으로 불린다.
최소 제곱법(Least Squares Method)
선형회귀 모델은 다양한 방법으로 최적화될 수 있는데 그 중에 최소 제곱법(Least Squares Method)이 가장 일반적인 최적화 기법 중 하나이다. 최소 제곱법은 모델이 예측한 값과 실제 값 사이의 제곱 오차를 최소화하는 계수를 찾는 방법이다.
평가지표
1. MSE(Mean Squard Error)
예측값과 실체값의 차이에 대한 제곱에 대해 평균을 낸 값
2. MAE(Mean Absolute Error)
예측값과 실제값의 차이에 대한 절대값에 대해 평균을 낸 값
3. RMSE(Root Mean Absolute Error)
예측값과 실제값의 차이에 대한 제곱에 대해 평균을 낸 후 루트를 씌운 값