-
๋ค๋ณ์ ํจ์์ ๋ฏธ๋ถMathematics/Linear algebra 2023. 5. 3. 00:30๋ฐ์ํ
1. ํธ๋ํจ์
์ผ๋ณ์ ํจ์ $f: โ \rightarrow โ$ ์ ๋ํจ์ $f' (x) $ ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
$ f' (x)= \displaystyle \lim_{h \to 0}\frac{f(x+h)-f(x)}{h} $
์ผ๋ณ์ ํจ์ $f $ ์ ๋ํจ์ $f' $ ์ ์ $x$์์ '$x$ ๊ฐ ๋ณํ ๋ ํจ์ $f $์ ์๊ฐ๋ณํ์จ' ์ด๋ค.
๋ค๋ณ์ ํจ์ $f$ ์ ๋ํจ์๋ ๊ฐ $x_{i} (i=1, \ldots , n)$ ์ ๋ํ ์๊ฐ๋ณํ์จ๋ก ์ ์๋๋ค.
์ด์ ๊ฐ์ด ๊ฐ $x_{i} (i=1, \ldots , n)$ ์ ๋ํ $f $ ์ ์๊ฐ๋ณํ์จ์ $f $ ์ $x_{i}$ ์ ๋ํ ํธ๋ํจ์ (partial derivative)๋ผ๊ณ ํ๋ค.
2. ํจ์์ ๊ธฐ์ธ๊ธฐ
(1) Gradient
์ด๋ค ํจ์ $f$ ๊ฐ $x_{1}, x_{2}, x_{3} $ ๋ณ์๋ก ๊ตฌ์ฑ๋์ด ์๋ค๋ฉด ํจ์ $f$ ๋ ๋ค๋ณ์ ํจ์์ด๊ณ Gradient๋ ๋ค์๊ณผ ๊ฐ์ด ํํ๋๋ค.
$ \bigtriangledown f=(\frac{\partial f}{\partial x_{1}},\frac{\partial f}{\partial x_{2}},\frac{\partial f}{\partial x_{3}})$
์ฆ, ๊ทธ๋๋์ธํธ๋ ํจ์๋ฅผ ๊ฐ ๋ณ์๋ก ํธ๋ฏธ๋ถํ ๋ฒกํฐ์ด๋ค.
๊ทธ๋ฌ๋ฏ๋ก ์ด ๋ฒกํฐ๋ ํจ์ $f$ ์ ์ฆ/๊ฐ ํ๋ ๋ฐฉํฅ์ ์๋ฏธํ๊ณ ๋ฒกํฐ์ ํฌ๊ธฐ๋ ์ฆ/๊ฐ์ ํฌ๊ธฐ(๊ธฐ์ธ๊ธฐ)๋ฅผ ๋ํ๋ธ๋ค.
(2) Jacobian matrix
์ผ์ฝ๋น์์ ์ด๋ค ๋ค๋ณ์ ๋ฒกํฐํจ์์ ๋ํ ์ผ์ฐจ ๋ฏธ๋ถ์ผ๋ก ๋ณผ ์ ์๋ค. ์ผ์ฝ๋น์ $J$ ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ $m\times n$ ํ๋ ฌ์ด๋ค.
$$\textbf{J}=\bigtriangledown_{x}\textbf{f}=\frac{d\textbf{f}}{d\textbf{x}}\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}& \cdots & \frac{\partial f_{m}}{\partial x_{n}} \\ \end{pmatrix}$$ $$\textbf{f} =\begin{pmatrix} f_{1}(x)\\ \vdots\\ f_{m}(x)\\ \end{pmatrix}, \textbf{x}=\begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \\ \end{pmatrix}$$
(3) Hessian matrix
์ด๋ค ๋ค๋ณ์ ํจ์ f๊ฐ ์์ ๋, f์ Hessian ํ๋ ฌ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
$$H(f)=\left [ \begin{matrix}
\frac{\partial ^{2}f}{\partial x_{1}^{2}} & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{2}} & \cdots & \frac{\partial ^{2}f}{\partial x_{1}x_{n}}\\
\frac{\partial ^{2}f}{\partial x_{2}x_{1}} & \frac{\partial ^{2}f}{\partial x_{2}^{2}} & \cdots & \frac{\partial ^{2}f}{\partial x_{2}x_{n}}\\
\vdots & \vdots & \ddots & \vdots \\
\frac{\partial ^{2}f}{\partial x_{n}x_{1}} & \frac{\partial ^{2}f}{\partial x_{n}x_{2}} & \cdots & \frac{\partial ^{2}f}{\partial x_{n}^{2}}\\
\end{matrix} \right ]$$์์ ์ค๋ช ํ gradient(๊ทธ๋ ๋์ธํธ), Jacobian(์ผ์ฝ๋น์ธ)์ด ๋ชจ๋ ํจ์์ ๋ํ ์ผ์ฐจ๋ฏธ๋ถ(first derivative)๋ฅผ ๋ํ๋ด๋ ๋ฐ๋ฉด Hessian์ ํจ์์ ์ด์ฐจ๋ฏธ๋ถ(second derivative)๋ฅผ ๋ํ๋ธ๋ค๋ ์ ์์ ์ฐจ์ด๊ฐ ์๋ค.
์ฆ, Hessian์ ํจ์์ ๊ณก๋ฅ (curvature) ํน์ฑ์ ๋ํ๋ด๋ ํ๋ ฌ๋ก์ ์ต์ ํ ๋ฌธ์ ์ ์ ์ฉํ ๊ฒฝ์ฐ Hessian์ ์ด์ฉํ๋ฉด ๋ค์ ์๊ณผ ๊ฐ์ด p ๊ทผ์ฒ์์ ํจ์๋ฅผ 2์ฐจ ํญ๊น์ง ๊ทผ์ฌ์ํฌ ์ ์๋ค. (Second-order Taylor expansion)
$$f(x)\simeq f(p)+\bigtriangledown f(p)(x-p)+\frac{1}{2}(x-p)^{T}H(x)(x-p)$$
๋ํ Hessian์ critical point์ ์ข ๋ฅ๋ฅผ ํ๋ณํ๋ ๋ฐ ํ์ฉ๋ ์ ์๋ค. ์ด๋ค ํจ์์ ์ผ์ฐจ ๋ฏธ๋ถ์ด 0์ด ๋๋ ์ ์ critical point (๋๋ stationary point) ๋ผ ๋ถ๋ฅด๋๋ฐ ํจ์์ ๊ทน์ (๊ทน๋, ๊ทน์), saddle point๋ฑ์ด ํด๋น๋๋ค.
์ด๋ค ๋ค๋ณ์ํจ์๋ฅผ ์ต์ ํ์ํค๊ธฐ ์ํด ๊ทน์ ์ ์ฐพ๊ธฐ ์ํด์๋ ๋จผ์ ๊ทธ ํจ์์ ์ผ์ฐจ ๋ฏธ๋ถ์ธ gradient ๊ฐ 0์ด ๋๋ ์ง์ (critical point)์ ์ฐพ๋๋ค. ๊ทธ๋ฐ๋ฐ, ์ด๋ ๊ฒ ์ฐพ์ critical point (์๊ณ์ ) ๊ฐ ๊ทน๋์ ์ธ์ง ๊ทน์์ ์ธ์ง, ์๋๋ฉด saddle point (๋ง์์ฅ์ฒ๋ผ ๋ฐฉํฅ์ ๋ฐ๋ผ์ ๊ทน๋, ๊ทน์๊ฐ ๋ฐ๋๋ ์ )์ธ์ง ๊ตฌ๋ถํ๊ธฐ ์ํด์๋ ์ด์ฐจ ๋ฏธ๋ถ๊ฐ์ ์กฐ์ฌํด์ผ ํ๋๋ฐ ์ด๋ ๋ฐ๋ก Hessian์ ์ฌ์ฉํ ์ ์๋ค.
๊ทธ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ์, ์ด๋ค ํจ์์ critical point์์ ๊ณ์ฐํ Hessian ํ๋ ฌ์
1)๋ชจ๋ ๊ณ ์ ๊ฐ์ด ์์์ด๋ฉด ํด๋น ์ง์ ์์ ํจ์๋ ๊ทน์,
2) ๋ชจ๋ ๊ณ ์ ๊ฐ์ด ์์์ด๋ฉด ๊ทน๋,
3) ์์ ๊ณ ์ ๊ฐ๊ณผ ์์ ๊ณ ์ ๊ฐ์ ๊ฐ์ง๋ฉด saddle point์ธ ๊ฒ์ผ๋ก ํ๋จํ๋ค.
์ด๋ฌํ ๊ตฌ๋ถ์ ํต์ฌ์๋ Hessian ํ๋ ฌ์ ๊ณ ์ ๋ฒกํฐ๋ ํจ์์ ๊ณก๋ฅ ์ด ํฐ ๋ฐฉํฅ๋ฒกํฐ๋ฅผ ๋ํ๋ด๋ ๊ณ ์ ๊ฐ์ ํด๋น ๊ณ ์ ๋ฒกํฐ ๋ฐฉํฅ์ผ๋ก์ ํจ์์ ๊ณก๋ฅ (curvature, ์ด์ฐจ๋ฏธ๋ถ๊ฐ)์ ๋ํ๋ธ๋ค๋ ์ ์ ์๋ค.
***Curvature์ ๊ณก์ ์ด๋ ํ๋ฉด์ ๊ณก๋ฅ ์ ์ธก์ ํ๋ค.
๊ณก์ ์ ๊ฒฝ์ฐ: ํน์ ์ ์์ ๊ณก์ ์ด ์ผ๋ง๋ ํ์ ํ๋์ง
ํ๋ฉด์ ๊ฒฝ์ฐ: ํน์ ์ ์์ ํ๋ฉด์ด ์ผ๋ง๋ ๊ตฌ๋ถ๋ฌ์ง๋์ง
Hessian ํ๋ ฌ์ ๋์นญํ๋ ฌ์ด๋ฏ๋ก ํญ์ ๊ณ ์ ๊ฐ ๋ถํด๊ฐ ๊ฐ๋ฅํ๋ฉฐ ์๋ก ์์ง์ธ (orthogonal์ธ) n๊ฐ์ ๊ณ ์ ๋ฒกํฐ๋ฅผ ๊ฐ์ง๋ค.
(๋จ, Hessian์ด ๋์นญํ๋ ฌ์ด ๋๊ธฐ ์ํด์๋ ํธ๋ฏธ๋ถ์ ์์๊ฐ ๋ฐ๋์ด๋ ๊ทธ ๊ฒฐ๊ณผ๊ฐ ๋์ผํด์ผ ํ๋ฏ๋ก f๊ฐ ํด๋น ์ง์ ์๋ 2์ฐจ ๋ฏธ๋ถ์ด ๊ฐ๋ฅํ๊ณ ๋ํ ์ฐ์์ด์ด์ผ ํ๋ค.)
์์ 1>>
$f(x,y)=x^{2}+xy+y^{2}+3x-3y+4$
์ด ๋ค๋ณ์ ํจ์์ critical point (์๊ณ์ ) ๊ฐ ์กด์ฌํ๋์ง, ์กด์ฌํ๋ค๋ฉด ๊ทน์์ ์ธ์ง ๊ทน๋์ ์ธ์ง ์๋๋ฉด ์์ฅ์ ์ธ์ง ํ์ ํ๋ผ.
์๊ณ์ ์ ๊ฐ๋์ง๋ฅผ ํ์ธํ๊ธฐ ์ํด ์ผ์ฐจ๋ฏธ๋ถ๊ฐ์ ๊ตฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋๋ค.
$\frac{\partial f}{\partial x}=2x+y+3$
$\frac{\partial f}{\partial y}=x+2y-3$
์ด ๋ ์์ด 0์ด ๋๊ฒ ํ๋ x, y ๊ฐ ์๊ณ์ ์ด ๋๋ฏ๋ก ์ฐ๋ฆฝ์ผ์ฐจ๋ฐฉ์ ์์ ํ๋ฉด ์๊ณ์ ์ ์ฐพ์ ์ ์๋ค.
์ฐ๋ฆฝ๋ฐฉ์ ์์ ํด๋ x=-3, y=3 ์ด๋ฏ๋ก ์ (-3,3) ์ด ์๊ณ์ ์ด๋ค. ์๊ณ์ ์ด ์กด์ฌํ๋ฏ๋ก Hessian matrix๋ฅผ ๊ตฌํด๋ณด์.
$\frac{\partial ^{2}f}{\partial x^{2}}=2$
$\frac{\partial ^{2}f}{\partial x\partial y}=1$
$\frac{\partial ^{2}f}{\partial y^{2}}=2$
์ด๋ฏ๋ก Hessian matrix๋ ๋ค์๊ณผ ๊ฐ๋ค.
$$H(f)=\left [ \begin{matrix}
2 & 1\\
1 & 2\\
\end{matrix} \right ]$$์ด ํ๋ ฌ์ ๊ณ ์ ๊ฐ์ $\lambda =1,3$ ์ด๋ค.
Hessian matrix์ ๊ณ ์ ๊ฐ์ด ๋ชจ๋ ์์์ด๋ฏ๋ก ์๊ณ์ (-3,3) ์ ๊ทน์์ ์ด๋ค.
(์ถ์ฒ: https://darkpgmr.tistory.com/132)
3. ์ค์นผ๋ผ ํจ์๋ฅผ ๋ฒกํฐ (๋ณ์)๋ก ๋ฏธ๋ถ
$ \frac{df}{d\textbf{x}}$ ๋ ๋ค๋ณ์ํจ์ $f$๋ฅผ ๋ฒกํฐ $x_{1}, x_{2}$ ๋ก ๋ฏธ๋ถํ ๊ฒ์ด๋ค.
์ด๋ฅผ ๊ตฌํ๋ ค๋ฉด ์๊ฐ๋ณํ๋ $df$ ์ ์๊ฐํด๋ณด๋ฉด ๋๋ค. ์ด๋ฅผ ์ ๊ฐํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
$$\begin {align*} df &=\displaystyle \lim_{\Delta x_{1} \to 0,\Delta x_{2} \to 0}f(x_{1}+\Delta x_{1},x_{2}+\Delta x_{2})-f(x_{1},x_{2}) \\ &= \frac{\partial f}{\partial x_{1}}dx_{1}+\frac{\partial f}{\partial x_{2}}dx_{2}\\&=\left [ dx_{1} \ dx_{2} \right]\begin{bmatrix}
\frac{\partial f}{\partial x_{1}} \\
\frac{\partial f}{\partial x_{2}}
\end{bmatrix} \\&=d\textbf{x}\frac{\partial f}{\partial {\textbf{x}}^{T}}\end{align*}โ $$
$$\therefore \frac{df}{d\textbf{x}}=\frac{\partial f}{\partial \textbf{x}^{T}}$$4. ๋ฒกํฐ ํจ์๋ฅผ ๋ฒกํฐ (๋ณ์)๋ก ๋ฏธ๋ถ
$$d\textbf{f}=\left [ df_{1} \ df_{2}\right ]=\left [ dx_{1} \ dx_{2}\right ]\left [ \begin{matrix}
\frac{\partial f_{1} }{\partial x_{1}} & \frac{\partial f_{2}}{\partial x_{2}} \\
\frac{\partial f_{1}}{\partial x_{1}}& \frac{\partial f_{2} }{\partial x_{2}}\\
\end{matrix} \right ]=d\textbf{x}\frac{\partial \textbf{f}}{\partial \textbf{x}^{T}}$$
$$ \therefore \frac{d\textbf{f}}{d\textbf{x}} =\frac{\partial \textbf{f}}{\partial \textbf{x}^{T}}$$5. ๋ฒกํฐ๋ฅผ ๋ฒกํฐ๋ก ๋ฏธ๋ถ - ์ฐ์๋ฒ์น(Chain rule)
๋ฒกํฐ๋ฅผ ๋ฒกํฐ๋ก ๋ฏธ๋ถํ ๋๋ ์ฐ์๋ฒ์น์ด ๋ท์ชฝ ํจ์๋ถํฐ ์์ชฝ ํจ์๋ก ์งํ๋๋ ๊ฒ์ด ์๋๋ผ, ์์ชฝ์์๋ถํฐ ๋ค๋ก ์งํ๋๋ค.
์ด๊ฒ์ด ๋ฌด์จ ์๋ฏธ์ธ์ง ์๋ฅผ ๋ค์ด ์ดํด๋ณด์.
$\textbf{y}=\textbf{x}\textbf{A}, \textbf{z}=\textbf{y}\textbf{B}$ ์ผ ๋ $ \textbf{z} $๋ฅผ $ \textbf{x} $ ๋ก ๋ฏธ๋ถํ๋ ค๋ฉด
$\textbf{z}$๋ผ๋ ํฉ์ฑํจ์๋ฅผ $\textbf{x}\to \textbf{y}\to \textbf{z}$ ๋ก ์ด์ด์ง ๋ ๋ท์ชฝ ํจ์์ธ $\textbf{z}$ ๋ถํฐ $\textbf{x}$ ๋ก ํฅํ๋ ์์๋ก ๋ฏธ๋ถํ๊ณ ๊ณฑํ๋ ๊ฒ์ผ๋ก ์ฐ์ ๋ฒ์น์ ์ ์ฉํ๋ฉด ๋๋ค.
$\textbf{z}=\textbf{yB}=\textbf{xAB}$ ์์ $\frac{\partial \textbf{z}}{\partial \textbf{x}^{T}}=\textbf{AB}$ ๋ฅผ ์๋ ์ํ์์ ์ฐ์๋ฒ์น์ ํตํด ๋์ด๋ด ๋ณด์.
์์, (4) ๋ฅผ ํตํด $d\textbf{y}=d\textbf{x}\frac{\partial \textbf{y}}{\partial \textbf{x}^{T}}$ ์์ ์๊ฒ ๋๋ค.
์ฆ, $d\textbf{z}=d\textbf{y}\frac{\partial \textbf{z}}{\partial \textbf{y}^{T}}$ ์์ ์ ์ ์๊ณ , ์์ฐ์ค๋ฝ๊ฒ $d\textbf{z}=d\textbf{x}\frac{\partial \textbf{y}}{\partial \textbf{x}^{T}}\frac{\partial \textbf{z}}{\partial \textbf{y}^{T}}$ ๊ฐ ๋จ์ ์ ์ ์๋ค.
๊ตฌํ๊ณ ๋ณด๋, ๋ฒกํฐ๋ฅผ ๋ฒกํฐ๋ก ๋ฏธ๋ถํ ๋๋ ์ฐ์๋ฒ์น์ด ๋ค์์ ์์ผ๋ก๊ฐ ์๋๊ณ ์์์๋ถํฐ ์์๋๋ก ๋ฏธ๋ถํ๊ณ ๊ณฑํ๋ ๊ฒ์ผ๋ก ์ ์ฉ๋๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ Backpropagation ์์ ๋ฒกํฐ๋ฅผ ๋ฒกํฐ(ํ๋ ฌ์ vectorizeํ ๊ฒ)๋ก ๋ฏธ๋ถํ ๋์ Chain rule์์ ์ฌ์ฉ๋ ์ ์๋ค.
'Mathematics > Linear algebra' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Principal component analysis (0) 2023.05.29 Determinant์ ํน์ฑ - eigenvalue๋ค์ ๊ณฑ (0) 2023.05.28 ๊ฐ์ญํ๋ ฌ ์ ๋ฆฌ (0) 2023.05.14 ์ค์นผ๋ผ, ๋ฒกํฐ๋ฅผ ํ๋ ฌ๋ก ๋ฏธ๋ถ (0) 2023.05.03