I about me

[강의노트 2] Activation Function 본문

AI/Lecture note

[강의노트 2] Activation Function

ssungni 2024. 6. 13. 04:10
  gradients 소실  zero-centered 계산 비용 역전파 학습

출력이 0이나 1에
가까워질수록 발생
X 지수함수
쓰기 때문
(But, 큰 문제 x)
 

출력이 -1이나 1에
가까워질수록 발생
O    

음수면 0.
양수이면 입력값
그대로 출력
gradients 소실X

음 →  dead ReLU
X 단순 연산이라 
계산 효율 뛰어남
 
음의 영역에도 0 X
(= dead ReLU X)
X 단순 연산이라 
계산 효율 뛰어남

α 역전파 통해
학습됨


  • 이 활성화 함수에서는 내적의 기본적인 형태를 미리 정의하지 않는다.
  • 대신에, 𝑚𝑎𝑥(𝑤1𝑇𝑥+𝑏1, 𝑤2𝑇𝑥+𝑏2)를 사용한다.
  • maxout은 둘 중에 최대값을 취한다.
    • 이는 saturation되지 않고, 그레이디언트를 잘 계산할 수 있다.
  • 하지만, 파라미터의 수가 두배가 되는 문제점이 있다.
음의 영역에도 0 X
(= dead ReLU X)

그러나 값이 너무 ↓
일정 값에 수렴
zero-centered
특성에 가까워짐
exp() 연산이 필요 α  역전파 통해
학습됨

 

Summary

  • Default는 ReLU를 쓴다. (하지만 학습률을 잘 따져본다.)
  • Leaky ReLU/Maxout/ELU/SELU 등을 시도해본다.
  • sigmoid/tanh는 쓰지 마라!

시간이 된다면... 이것까지 완벽하게 공부할 것

더보기

SELU

  • SELU(Scaled Exponential Linear Units)은 심층 신경망의 자기 정규화(Self-normalizing)에 더 잘 작동하는 ELU의 확장 버전이다.
  • 배치 정규화(Batch Normalization)없이 심층 SELU 신경망을 학습할 수 있다(고 한다).

'AI > Lecture note' 카테고리의 다른 글

[강의노트 5] Bias-Variance Tradeoff  (0) 2024.06.13
[강의노트 5] Learning rate  (1) 2024.06.13
Contents  (0) 2024.03.27