미분을 표현하는 방법은 벡터/행렬을 만나면서 확장된다.
기계학습에서 사용하는 벡터의 미분을 기술하고자 정리한다.
처음 배우는 미분적분에서의 미분은 다음과 같았다.
미분(Derivative)
변수 x∈R와, 변수 x를 매개변수로 하는 미분 가능한 함수 f:R→R의 미분은 다음과 같이 표현된다.
f′(x)=dfdx∈R
편미분(Partial derivative)
미분 가능한 다변수 함수 f:R→R를 변수 x에 대해 미분하는 것을 편미분이라고 부르며, 다음과 같다.
이때 재미있는 것은 미분과 달리 (d), ∂을 사용한다는 점이다.
f′x=∂f∂x∈R
이 다음부터는 백터/행렬의 개념이 들어간다.
그래디언트(Gradient)
열 벡터 x∈Rn를 매개변수로 하는 미분 가능한 함수 f:Rn→R를 벡터로 미분한 것을 Gradient라고 한다. 어찌보면 벡터의 성분에 대해 함수의 편미분을 벡터로 묶었다고도 볼 수 있다.
열 벡터 x로 미분하면 Gradient 는 행 벡터가 된다.
∇fx=∂f∂x∈Rn
야코비안/자코비안(Jacobian)
미분가능한 벡터 함수 f:Rn→Rm를 벡터 x∈Rn로 미분하면 자코비안이라고 한다.
J=[∂f1∂x1⋯∂f1∂xn⋮⋱⋮∂fm∂x1⋯∂fm∂xn]∈Rm×n
위와 같이 표현되면 선형 함수 표현이 자연스러워진다. 예를 들어 선형함수를 표현해보자.
y=f(x)=Ax=[∂f1∂x1⋯∂f1∂xn⋮⋱⋮∂fm∂x1⋯∂fm∂xn][x1⋮xn]
A=∂y∂x
헤시안 (Hessian)
미분가능한 함수 f:R→R에 대해 벡터 x∈Rn로 두 번 미분하면 다음과 같다. 헤시안은 대칭 행렬이라는 특징점이 있다.
H(f)=[∂2f∂x21⋯∂2f∂x1∂xn⋮⋱⋮∂2f∂xn∂x1⋯∂2f∂x2n]
다음을 참고했습니다.