Loading [MathJax]/jax/output/CommonHTML/jax.js
반응형

미분을 표현하는 방법은 벡터/행렬을 만나면서 확장된다.

기계학습에서 사용하는 벡터의 미분을 기술하고자 정리한다.

처음 배우는 미분적분에서의 미분은 다음과 같았다.

 

미분(Derivative)

 변수 xR와, 변수 x를 매개변수로 하는 미분 가능한 함수 f:RR의 미분은 다음과 같이 표현된다.

f(x)=dfdxR

 

편미분(Partial derivative)

 미분 가능한 다변수 함수 f:RR를 변수 x에 대해 미분하는 것을 편미분이라고 부르며, 다음과 같다.

이때 재미있는 것은 미분과 달리 (d), 을 사용한다는 점이다.

fx=fxR

이 다음부터는 백터/행렬의 개념이 들어간다.

 

그래디언트(Gradient)

 열 벡터 xRn를 매개변수로 하는 미분 가능한 함수 f:RnR를 벡터로 미분한 것을 Gradient라고 한다. 어찌보면 벡터의 성분에 대해 함수의 편미분을 벡터로 묶었다고도 볼 수 있다.

열 벡터 x로 미분하면 Gradient 는 행 벡터가 된다.

fx=fxRn

 

야코비안/자코비안(Jacobian)

 미분가능한 벡터 함수 f:RnRm를 벡터 xRn로 미분하면 자코비안이라고 한다.

J=[f1x1f1xnfmx1fmxn]Rm×n

위와 같이 표현되면 선형 함수 표현이 자연스러워진다. 예를 들어 선형함수를 표현해보자.

y=f(x)=Ax=[f1x1f1xnfmx1fmxn][x1xn]

A=yx

 

헤시안 (Hessian)

 미분가능한 함수 f:RR에 대해 벡터 xRn로 두 번 미분하면 다음과 같다. 헤시안은 대칭 행렬이라는 특징점이 있다.

H(f)=[2fx212fx1xn2fxnx12fx2n]

 

 

다음을 참고했습니다.

1. https://darkpgmr.tistory.com/132

2. https://www.cse.huji.ac.il/~csip/tirgul3_derivatives.pdf

728x90

+ Recent posts