MingyuPark

이진 분류와 다중 분류 - AI DEEP DIVE 후기 본문

Deep learning

이진 분류와 다중 분류 - AI DEEP DIVE 후기

MingyuPark 2023. 2. 7. 19:34

이번에는 강의 내용 정리보다는 Chapter 5. 이진 분류와 다중 분류. 의 학습 내용을 정리해보려고 한다. 

 

주어진 사진에 대해서 그 사진이 강아지의 사진일 확률을 q라고 정의하면,

강아지면 q를 maximize, 고양이면 1-q를 maximize 하는 식으로 학습할 수 있다.

→ 한 번에 표현하면, $q^y (1-q)^{1-y}$를 maximize 

 

각 데이터는 독립이기 때문에,

$q_1^{y_1} (1-q_1)^{1-y_1} \times q_2^{y_2} (1-q_2)^{1-y_2} \times ... q_n^{y_n} (1-q_n)^{1-y_n}$
 

를 maximize 해야 한다. 

 

n = 100인 상황을 고려해보자. $q_i^y_i (1-q_i)^{1-y_i}$가 0.9라도 이 값을 100번 곱하면 2.6561398887587544e-05로 거의 0에 가까운 값이 나온다. 이 문제를 해결하기 위해 log를 사용한다. 

 

$ \Sigma_{i=1}^{n} \log q_i^{y_i} (1-q_i)^{1-y_i} = \log q_1^{y_1} (1-q_1)^{1-y_1} + \log q_2^{y_2} (1-q_2)^{1-y_2} + ... + \log q_n^{y_n} (1-q_n)^{1-y_n}$ 를 maximize하면 된다. 

 

여기에 (-)를 붙여서 Loss function을 정의하면, Loss function을 minimize하는 방향으로 학습을 진행하면 된다. 

한 번 더 정리하면 다음과 같다. 

 

$$L=-\Sigma_{i=1}^{n} \log q_i^{y_i} (1-q_i)^{1-y_i}$$

 

100개 중에 1개를 꺼내서 update하면 sgd, 전체를 쓰면 gd,  등등 이전에 설명했던 optimizer에 대해서 다시 정리해주셨다. 

 

* Logistic regression ? 

  • logit에 대한 regression
    • logit : 승산. $\frac{q}{1-q}$로 계산한다. 즉, 위의 문제의 경우 (강아지사진일 확률[정답]) / (고양이일 확률[오답])

$$\log\dfrac{q}{1-q} = l \rightarrow \dfrac{q}{1-q} = e^{l} \rightarrow \dfrac{1}{q}-1 = e^{-l} \rightarrow q = \dfrac{1}{1+e^{-l}}$$

 

최종적으로 $q = \dfrac{1}{1+e^{-l}}$ 는 sigmoid와 동일해진다. 

새로운 고민거리도 던져주셨다. 

 

Loss function을 정의하는 것 자체가 잘못된 것은 아니지만, 아무 함수를 선택하면 그래프 개형이 달라지면서 계산이 더 복잡해지게 된다. 따라서 학습이 쉬워지고 어려워지는 등의 차이가 생긴다. 가 결론이다. 

 

 

 

다음으로는, 앞선 두 loss function의 문제가 다음의 두 가지 상황에 대한 가정의 차이라고 생각할 수 있다. 

$x_i$ 에 대한 출력값이 $f_w(x_i)$일 때, 정답 $y_i$의 분포 $p(y_i | f_w(x_i))$가

  • 1. 베르누이 분포라고 가정한 후에 출력 $f_w(x_i)$ 는 강아지일 확률 $q$라고 삼은 경우
  • 2. 가우시안 분포라고 가정한 후에 출력 $f_w(x_i)$ 는 평균값 $\hat{y}$로 삼은 경우.

 

결론은 MLE !

 

  • 본 게시글은 패스트캠퍼스 [혁펜하임의 AI DEEP DIVE] 체험단 활동을 위해 작성되었습니다.  
  • 링크 : https://bit.ly/3GV73FN
 

'Deep learning' 카테고리의 다른 글

MLP, Backpropagation - AI DEEP DIVE 후기  (0) 2023.02.06
가중치 초기화 / optimizer  (0) 2023.01.23
Comments