•
미분은 함수의 입력 값의 변화에 대한 출력 값의 변화의 민감도를 측정하는 방법으로 그 결과는 일반적으로 기울기로 이해된다.
미분 기호
•
함수 에 대한 미분 기호는 다음과 같다.
◦
분자에는 미분할 대상, 분모에는 그 대상 안의 실제 미분할 매개변수라고 이해하면 쉽다.
•
미분을 2번 하는 경우 다음과 같이 표시한다.
◦
이것을 일반화 시키면 번에 대해 표기 가능.
•
일반적으로 미분을 나타내는 식 에서 는 로 함수 를 미분한다는 표기일 뿐이지만, 경우에 따라 를 에 대한 미소변화량을 나타내는 변수로 생각해도 타당하다. 이것은 다음이 성립한다는 뜻이다.
◦
이 경우 함수 를 에 대한 미소변화량 로 나눈다는 의미가 된다. 이는 점 에서의 미분이 해당 점에서의 기울기를 의미한다는 점에서 타당하다.
•
이것은 적분에 대해서도 비슷한 개념으로 적용할 수 있다. 다시 말해 아래의 적분은 구간 에 걸쳐 함수 에 의 미소변화량 를 곱한 것을 모두 합한다는 의미로 생각할 수 있다.
◦
이는 애초에 적분이 구간에 걸쳐 미소한 양으로 쪼갠 뒤 그것을 모두 합한다는 의미에서 볼 때 타당하다.
상수 미분
•
상수를 미분하면 0이 된다.
거듭제곱 미분
•
이는 역수나 제곱근에서도 동일하게 적용할 수 있다.
지수 미분
로그 미분
삼각함수 미분
미분함수 연산
•
두 함수 와 상수 에 대해 다음의 미분 연산이 성립한다.
편미분(Partial Derivative)
•
2개의 매개변수를 받는 함수 에 대해 편미분은 다음과 같이 표기한다.
•
편미분을 2번 할 때는 편미분하는 순서에 따라 다음과 같이 표기한다.
◦
함수 아래첨자는 왼쪽이 먼저하는 것이고, 미분 표기법에서는 오른쪽이 먼저 하는 것이다.
◦
이것을 일반화 시키면 번 편미분하는 것에 대해 표기 가능
•
참고로 편미분을 각각 다른 매개변수로 할 때, 그 순서와 관계 없이 결과가 같아지는데, —위의 예시에서 를 먼저하고 를 다음에 하는 것이나, 를 먼저하고 를 다음에 하는 것이나 결과가 같다— 이를 슈와르츠 정리(Schwarz’s theorem)라고 한다.
◦
편미분을 하면 다른 매개변수는 상수 취급이 되서 다 날아가기 때문에 어느 것을 먼저하든 상관 없다.
전미분(Total Derivative)
•
전미분은 각 매개변수의 미소변화량에 따라 함수가 어떻게 변하는지를 나타내는 개념으로, 다른 매개변수를 상수로 취급하는 편미분과 달리 각 매개변수에 대해 개별적으로 편미분을 하고 하나의 함수로 나타낸다. 예컨대 2개의 매개변수를 받는 함수 에 대해 전미분은 다음과 같이 표기한다.
◦
각각의 매개변수에 대해 미소 변화량이 곱해지는 것에 유의
•
함수 에 대한 전미분은 다음과 같이 계산된다.
◦
가 각각 곱해지는 것에 주의
연쇄 법칙(Chain Rule)
•
합성함수에 대해 미분할 때 Chain Rule이 적용된다.
•
일반적으로 log 함수가 내부에 식을 갖고 있다면 내부의 식을 치환한 후 합성 함수로 풀어야 한다.
◦
를 미분할 때, 로 치환하여 로 놓고 연쇄법칙으로 계산한다.
•
결론적으로 이런 형식이 된다.
•
이건 지수 함수에 대해서도 마찬가지로 적용한다.
◦
를 미분할 때, 로 치환하여 로 놓고 연쇄법칙으로 계산한다.
◦
일반적으로 지수로 올리면 표기가 잘 안보이기 때문에 로 표기한다.
•
결론적으로 이런 형식이 된다.
다변수함수와 연쇄법칙
•
다변수함수의 미분을 구할 때도 함수가 연결되어 있으면 연쇄법칙이 적용된다. 예컨대 변수 를 입력으로 가지는 함수가 과 같이 개가 있고 각각의 출력을 이라고 하자.
•
그리고 이 값에 의존하는 다른 함수 가 있다고 하자. 의 출력은 라고 한다.
•
이때 변수 값의 변화에 따른 값의 변화는 다음처럼 계산한다.
•
이번에는 함수 이 을 입력으로 가지는 다변수함수라고 하자.
•
이때의 변수 값의 변화에 따른 값의 변화도 마찬가지로 계산할 수 있다.
벡터와 행렬의 미분
•
벡터와 행렬에 대한 미분에 대해서는 벡터와 행렬의 각 항목에 대해 편미분을 수행하고 그 결과를 다시 벡터나 행렬 형태로 표현하는 식으로 한다. 예컨대 다음과 같은 벡터와 행렬이 있다고 하면
•
의 에 대한 미분 은 다음처럼 한다.
1.
우선 벡터와 행렬의 곱셈을 계산
2.
구해진 식에 대해 의 요소별로 편미분
3.
각각의 결과를 벡터 형태로 표현
•
을 이차 형식(quadratic form)이라고 하며, 이차 형식의 미분 결과는 가 된다.
◦
만일 이 대칭행렬이었다면 —— 위 결과는 가 된다.
•
같은 방식으로 을 미분하면 다음과 같다.
◦
여기서 이 대칭행렬이 되기 때문에 이 둘을 하나로 합칠 수 있다.
•
전치한 것 에 대한 미분은 곱해지는 변수의 전치된 결과가 나온다.
•
같은 식으로 를 미분하면 이 된다.
sub-gradient, super-gradient
•
subgradient는 볼록 함수(convex)에서 미분 불가능한 점 —연속인데 뾰족하거나 연속이 아닌 점— 에 대한 미분값을 정의하는 개념으로 다음과 같이 정의된다.
◦
아래는 실수에 대해 설명하지만 벡터에 대해서도 동일하게 확장 가능하다.
•
함수 의 모든 점 대해, 아래 부등식을 만족하면 를 점 에서 의 subgradient라고 한다.
•
이 식을 에 대해 정리하면 익숙한 모양을 얻을 수 있다.
◦
이러면 가 점 의 미분값에 대해 하한(lower bound)함을 알 수 있다.
•
이 부등식은 기본적으로 가 의 그래프 아래에 있는 모든 점에 대해 에서의 선형 근사보다 항상 낮거나 같다는 것을 의미한다. 이는 가 의 그래프를 에서 지지(support)한다는 개념이다.
◦
미분이 가능한 점에 대해 subgradient는 일반적인 미분값과 동일하다.
•
예컨대 의 함수는 인 지점에서 미분이 불가능하다. 따라서 인 지점을 기준으로 함수를 다음과 같이 두 부분으로 나눌 수 있다.
•
두 부분에 대해 각각 미분값을 구하면 다음과 같다.
•
이를 이용해서 다음과 같이 함수에 대해 subgradient를 정의할 수 있다.
◦
인 점에서는 의 값과 의 값 사이의 값을 구간으로 갖는다.
•
sub-gradient가 볼록 함수에서 하한인 점을 찾는 것에 반해, 이와 반대로 오목(concave) 함수에서는 상한인 점을 찾는 super-gradient가 존재한다. 상한이므로 subgradient와는 부등식 방향이 반대이다.
•
이 식을 에 대해 정리하면 익숙한 모양을 얻을 수 있다.
◦
이 경우 가 점 의 미분값에 대해 상한(upper bound)임을 알 수 있다.