머신러닝&딥러닝

[머신러닝&딥러닝] 머신러닝(Machine Learning)

거북이07 2023. 12. 27. 16:10

머신러닝(Machine Learning)

머신러닝은 인공지능의 하위 집합으로, 많은 양의 데이터를 제공하여 명시적으로 프로그래밍하지 않고 신경망과 딥러닝을 사용하여 시스템이 자율적으로 학습하고 개선할 수 있게 해준다.

 

  • 인공지능: 인공(Artificial) + 지능(Interlligence)
  • 개발자에 의한 인공지능, 데이터에 의한 인공지능
  • 머신러닝: 데이터를 기반으로한 학습(learning)하는 기계(machinne)
  • 딥러닝: 깊은(deep) 신경망 구조의 머신러닝

1-1. 배경

  • 과거 컴퓨터로 데이터를 읽어들이고, 데이터 안에서 특징을 학습하여 패턴을 찾아내는 작업
  • 데이터를 대량으로 수집 처리할 수 있는 환경이 갖춰짐으로 할 수 있는 일들이 많아짐
  • 머신러닝은 데이터로부터 특징이나 패턴을 찾아내는 것이기 때문에 데이터가 가장 중요함

1-2. 정의

  • 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야
  • 무엇(x)으로 무엇(y)을 예측하고싶다의 f(함수)를 찾아내는것
   
y 출력변수(종속변수)
x 입력변수(독립변수)
f 머신러닝(알고리즘)

 

독립변수란?

어떤 실험에서 실험자가 직접 변경하는 변수를 의미

 

예제)

용돈을 벌기 위해 집안일을 돕는다는 가정한다. 집안일 한 개당 용돈 300원을 받습니다.
여기서 독립변수는 무엇일까요?

독립변수는 해야하는 집안일의 양입니다. 왜냐하면 이 변수는 스스로 바꿀 수 있는 값이기 때문입니다.

 

종속변수란?

독립변수의 값이 변함에 따라 달라지는 수량을 나타내는 변수

 

예제)

용돈을 벌기 위해 집안일을 돕는다는 가정한다. 집안일 한 개당 용돈 300원을 받습니다.
여기서 종속변수는 무엇일까요?

종속변수는 집안일을 해서 버는 용돈입니다. 왜냐하면 벌 수 있는 용돈의 양은 해야하는 집안일의 양에 달려있기 때문입니다.

 

참고링크

https://ko.khanacademy.org/math/cc-sixth-grade-math/cc-6th-equations-and-inequalities/cc-6th-dependent-independent/a/dependent-and-independent-variables-review

 

 

학습방법

3-1. 지도 학습(Supervised Learning)

지도 학습은 말 그대로 정답이 있는 데이터를 활용해 데이터를 학습시키는 것.

입력값(X data)이 주어지면 입력값에 대한 Label(Y data)를 주어 학습시키며 대표적으로 분류, 회귀 문제가 있다.

  • 문제와 정답을 모두 학습시켜 예측 또는 분류하는 문제
  • y=f(x)에 대하여 입력 변수(x)와 출력 변수(y)의 관계에 대하여 모델링 하는 것
  • y에 대하여 예특 또는 분류하는 문제

3-2. 비지도 학습(Unsuoervised Learning)

지도학습과는 다르게 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화 하여 새로운 데이터에 대한 결과를 예특하는 방법을 비지도학습이라고 한다.

 

라벨링이 되어있지 않은 데이터로부터 패턴이나 형태를 찾아야 하기 때문에 지도학습보다는 난이도가 있다. 비지도학습의 대표적인 종류는 클러스터링(Clustering)이 있다.

 

  • 출력 변수(y)가 존재하지 않고, 입력 변수(x)간의 관계에 대해 모델링 하는 것
  • 군집분석: 유사한 데이터끼리 그룹화
  • PCA: 독립변수들의 차원을 축소화

3-3. 강화 학습(Reinforcement Learning)

행동 심리학에서 나온 이론으로 분류할 수 있는 데이터가 존재하는 것도 아니고 데이터가 있어도 정답이 따로 정해져 있지 않으며 자신이 한 행동에 대해 보상(reward)를 받으며 학습하는 것을 말한다.

 

  • 결정을 순차적으로 내려야 하는 문제에 적용
  • 라벨이 있는 데이터를 통해서 가중치와 편향을 학습하는것과 비슷하게 보상이라는 개념을 사용하여 가중치와 편향을 학습하는 것.
강화학습의 개념
에이전트(Agent)
환경(Environment)
상태(State)
행동(Action)
보상(Reward)

 

참고)  https://ebbnflow.tistory.com/165

 

머신러닝으로 할 수 있는 것

 

2-1. 회귀(Regression) - 지도학습

  • 시계열(시간적인 변화를 연속적으로 관측한 데이터) 데이터 같은 연속된 데이터를 취급할 때 사용하는 기법
  • 예) 과거 주식추세를 학습해서 내일의 주가를 예측하는 시스템

2-2. 분류(Classification) - 지도학습

  • 주어진 데이터를 클래스별로 구별해내는 과정으로 데이터와 데이터의 레이블값을 학습시키고 어느 범주에 속한 데이터인지 판단하고 예측
  • 예) 스팸메일인지 아닌지 구별해주는 시스템을 개발

2-3. 클러스터링(Clustering) - 비지도학습

  • 분류와 비슷하지만 데이터에 레이블(정답 데이터)이 없음
  • 유사한 속성들을 갖는 데이터를 일정한 수의 구집으로 그룹핑하는 비지도 학습
  • 예) SNS 데이터를 통해 소셜 및 사회 이슈를 파악