ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ๋‹ค๋ณ€์ˆ˜ ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„
    Mathematics/Linear algebra 2023. 5. 3. 00:30
    ๋ฐ˜์‘ํ˜•

    1. ํŽธ๋„ํ•จ์ˆ˜

    ์ผ๋ณ€์ˆ˜ ํ•จ์ˆ˜ $f:  โ„  \rightarrow โ„$ ์˜ ๋„ํ•จ์ˆ˜ $f' (x) $ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

     

    $ f' (x)= \displaystyle \lim_{h \to 0}\frac{f(x+h)-f(x)}{h} $

     

    ์ผ๋ณ€์ˆ˜ ํ•จ์ˆ˜ $f $ ์˜ ๋„ํ•จ์ˆ˜ $f' $ ์€ ์  $x$์—์„œ '$x$ ๊ฐ€ ๋ณ€ํ•  ๋•Œ ํ•จ์ˆ˜ $f $์˜ ์ˆœ๊ฐ„๋ณ€ํ™”์œจ' ์ด๋‹ค. 

     

    ๋‹ค๋ณ€์ˆ˜ ํ•จ์ˆ˜ $f$ ์˜ ๋„ํ•จ์ˆ˜๋Š” ๊ฐ $x_{i}  (i=1,   \ldots , n)$ ์— ๋Œ€ํ•œ ์ˆœ๊ฐ„๋ณ€ํ™”์œจ๋กœ ์ •์˜๋œ๋‹ค.

    ์ด์™€ ๊ฐ™์ด ๊ฐ $x_{i}  (i=1,   \ldots , n)$ ์— ๋Œ€ํ•œ $f $ ์˜ ์ˆœ๊ฐ„๋ณ€ํ™”์œจ์„ $f $ ์˜ $x_{i}$ ์— ๋Œ€ํ•œ ํŽธ๋„ํ•จ์ˆ˜ (partial derivative)๋ผ๊ณ  ํ•œ๋‹ค. 

     

    2. ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ

    (1) Gradient

    ์–ด๋–ค ํ•จ์ˆ˜ $f$ ๊ฐ€ $x_{1}, x_{2}, x_{3} $ ๋ณ€์ˆ˜๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค๋ฉด ํ•จ์ˆ˜ $f$ ๋Š” ๋‹ค๋ณ€์ˆ˜ ํ•จ์ˆ˜์ด๊ณ  Gradient๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋œ๋‹ค. 

     

    $ \bigtriangledown f=(\frac{\partial f}{\partial x_{1}},\frac{\partial f}{\partial x_{2}},\frac{\partial f}{\partial x_{3}})$

     

    ์ฆ‰, ๊ทธ๋ž˜๋””์–ธํŠธ๋Š” ํ•จ์ˆ˜๋ฅผ ๊ฐ ๋ณ€์ˆ˜๋กœ ํŽธ๋ฏธ๋ถ„ํ•œ ๋ฒกํ„ฐ์ด๋‹ค. 

    ๊ทธ๋Ÿฌ๋ฏ€๋กœ ์ด ๋ฒกํ„ฐ๋Š” ํ•จ์ˆ˜ $f$ ์˜ ์ฆ/๊ฐ ํ•˜๋Š” ๋ฐฉํ–ฅ์„ ์˜๋ฏธํ•˜๊ณ  ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋Š” ์ฆ/๊ฐ์˜ ํฌ๊ธฐ(๊ธฐ์šธ๊ธฐ)๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. 

     

    (2) Jacobian matrix

    ์•ผ์ฝ”๋น„์•ˆ์€ ์–ด๋–ค ๋‹ค๋ณ€์ˆ˜ ๋ฒกํ„ฐํ•จ์ˆ˜์— ๋Œ€ํ•œ ์ผ์ฐจ ๋ฏธ๋ถ„์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์•ผ์ฝ”๋น„์•ˆ $J$ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•  ์ˆ˜ ์žˆ๋Š” $m\times n$ ํ–‰๋ ฌ์ด๋‹ค. 

     

    $$\textbf{J}=\bigtriangledown_{x}\textbf{f}=\frac{d\textbf{f}}{d\textbf{x}}\begin{pmatrix} \frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}}& \cdots & \frac{\partial f_{m}}{\partial x_{n}} \\ \end{pmatrix}$$ $$\textbf{f} =\begin{pmatrix} f_{1}(x)\\ \vdots\\ f_{m}(x)\\ \end{pmatrix}, \textbf{x}=\begin{pmatrix} x_{1} \\ \vdots \\ x_{n} \\ \end{pmatrix}$$

     

    (3) Hessian matrix

     

    ์–ด๋–ค ๋‹ค๋ณ€์ˆ˜ ํ•จ์ˆ˜ f๊ฐ€ ์žˆ์„ ๋•Œ, f์˜ Hessian ํ–‰๋ ฌ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋œ๋‹ค.

    $$H(f)=\left [ \begin{matrix}
    \frac{\partial ^{2}f}{\partial x_{1}^{2}} & \frac{\partial ^{2}f}{\partial x_{1}\partial x_{2}} & \cdots  & \frac{\partial ^{2}f}{\partial x_{1}x_{n}}\\
    \frac{\partial ^{2}f}{\partial x_{2}x_{1}} & \frac{\partial ^{2}f}{\partial x_{2}^{2}} & \cdots  & \frac{\partial ^{2}f}{\partial x_{2}x_{n}}\\
    \vdots  & \vdots  & \ddots  & \vdots \\
    \frac{\partial ^{2}f}{\partial x_{n}x_{1}} & \frac{\partial ^{2}f}{\partial x_{n}x_{2}} & \cdots  & \frac{\partial ^{2}f}{\partial x_{n}^{2}}\\
    \end{matrix} \right ]$$

    ์•ž์„œ ์„ค๋ช…ํ•œ gradient(๊ทธ๋ ˆ๋””์–ธํŠธ), Jacobian(์•ผ์ฝ”๋น„์–ธ)์ด ๋ชจ๋‘ ํ•จ์ˆ˜์— ๋Œ€ํ•œ ์ผ์ฐจ๋ฏธ๋ถ„(first derivative)๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฐ˜๋ฉด Hessian์€ ํ•จ์ˆ˜์˜ ์ด์ฐจ๋ฏธ๋ถ„(second derivative)๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค๋Š” ์ ์—์„œ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

    ์ฆ‰, Hessian์€ ํ•จ์ˆ˜์˜ ๊ณก๋ฅ  (curvature) ํŠน์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ–‰๋ ฌ๋กœ์„œ ์ตœ์ ํ™” ๋ฌธ์ œ์— ์ ์šฉํ•  ๊ฒฝ์šฐ Hessian์„ ์ด์šฉํ•˜๋ฉด ๋‹ค์Œ ์‹๊ณผ ๊ฐ™์ด p ๊ทผ์ฒ˜์—์„œ ํ•จ์ˆ˜๋ฅผ 2์ฐจ ํ•ญ๊นŒ์ง€ ๊ทผ์‚ฌ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. (Second-order Taylor expansion)

    $$f(x)\simeq f(p)+\bigtriangledown f(p)(x-p)+\frac{1}{2}(x-p)^{T}H(x)(x-p)$$

    ๋˜ํ•œ Hessian์€ critical point์˜ ์ข…๋ฅ˜๋ฅผ ํŒ๋ณ„ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ์–ด๋–ค ํ•จ์ˆ˜์˜ ์ผ์ฐจ ๋ฏธ๋ถ„์ด 0์ด ๋˜๋Š” ์ ์„ critical point (๋˜๋Š” stationary point) ๋ผ ๋ถ€๋ฅด๋Š”๋ฐ ํ•จ์ˆ˜์˜ ๊ทน์ (๊ทน๋Œ€, ๊ทน์†Œ), saddle point๋“ฑ์ด ํ•ด๋‹น๋œ๋‹ค.

     

    ์–ด๋–ค ๋‹ค๋ณ€์ˆ˜ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ทน์ ์„ ์ฐพ๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋จผ์ € ๊ทธ ํ•จ์ˆ˜์˜ ์ผ์ฐจ ๋ฏธ๋ถ„์ธ gradient ๊ฐ€ 0์ด ๋˜๋Š” ์ง€์  (critical point)์„ ์ฐพ๋Š”๋‹ค. ๊ทธ๋Ÿฐ๋ฐ, ์ด๋ ‡๊ฒŒ ์ฐพ์€ critical point (์ž„๊ณ„์ ) ๊ฐ€ ๊ทน๋Œ€์ ์ธ์ง€ ๊ทน์†Œ์ ์ธ์ง€, ์•„๋‹ˆ๋ฉด saddle point (๋ง์•ˆ์žฅ์ฒ˜๋Ÿผ ๋ฐฉํ–ฅ์— ๋”ฐ๋ผ์„œ ๊ทน๋Œ€, ๊ทน์†Œ๊ฐ€ ๋ฐ”๋€Œ๋Š” ์ )์ธ์ง€ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ด์ฐจ ๋ฏธ๋ถ„๊ฐ’์„ ์กฐ์‚ฌํ•ด์•ผ ํ•˜๋Š”๋ฐ ์ด๋•Œ ๋ฐ”๋กœ Hessian์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. 

    ๊ทธ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ•์€, ์–ด๋–ค ํ•จ์ˆ˜์˜ critical point์—์„œ ๊ณ„์‚ฐํ•œ Hessian ํ–‰๋ ฌ์˜

    1)๋ชจ๋“  ๊ณ ์œ ๊ฐ’์ด ์–‘์ˆ˜์ด๋ฉด ํ•ด๋‹น ์ง€์ ์—์„œ ํ•จ์ˆ˜๋Š” ๊ทน์†Œ,

    2) ๋ชจ๋“  ๊ณ ์œ ๊ฐ’์ด ์Œ์ˆ˜์ด๋ฉด ๊ทน๋Œ€,

    3) ์Œ์˜ ๊ณ ์œ ๊ฐ’๊ณผ ์–‘์˜ ๊ณ ์œ ๊ฐ’์„ ๊ฐ€์ง€๋ฉด saddle point์ธ ๊ฒƒ์œผ๋กœ ํŒ๋‹จํ•œ๋‹ค. 

     

    ์ด๋Ÿฌํ•œ ๊ตฌ๋ถ„์˜ ํ•ต์‹ฌ์—๋Š” Hessian ํ–‰๋ ฌ์˜ ๊ณ ์œ ๋ฒกํ„ฐ๋Š” ํ•จ์ˆ˜์˜ ๊ณก๋ฅ ์ด ํฐ ๋ฐฉํ–ฅ๋ฒกํ„ฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ณ ์œ ๊ฐ’์€ ํ•ด๋‹น ๊ณ ์œ ๋ฒกํ„ฐ ๋ฐฉํ–ฅ์œผ๋กœ์˜ ํ•จ์ˆ˜์˜ ๊ณก๋ฅ (curvature, ์ด์ฐจ๋ฏธ๋ถ„๊ฐ’)์„ ๋‚˜ํƒ€๋‚ธ๋‹ค๋Š” ์ ์— ์žˆ๋‹ค. 

    ***Curvature์€ ๊ณก์„ ์ด๋‚˜ ํ‘œ๋ฉด์˜ ๊ณก๋ฅ ์„ ์ธก์ •ํ•œ๋‹ค.

    ๊ณก์„ ์˜ ๊ฒฝ์šฐ: ํŠน์ • ์ ์—์„œ ๊ณก์„ ์ด ์–ผ๋งˆ๋‚˜ ํšŒ์ „ํ•˜๋Š”์ง€

    ํ‘œ๋ฉด์˜ ๊ฒฝ์šฐ: ํŠน์ • ์ ์—์„œ ํ‘œ๋ฉด์ด ์–ผ๋งˆ๋‚˜ ๊ตฌ๋ถ€๋Ÿฌ์ง€๋Š”์ง€

     

    Hessian ํ–‰๋ ฌ์€ ๋Œ€์นญํ–‰๋ ฌ์ด๋ฏ€๋กœ ํ•ญ์ƒ ๊ณ ์œ ๊ฐ’ ๋ถ„ํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฉฐ ์„œ๋กœ ์ˆ˜์ง์ธ (orthogonal์ธ) n๊ฐœ์˜ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ง„๋‹ค.

    (๋‹จ, Hessian์ด ๋Œ€์นญํ–‰๋ ฌ์ด ๋˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํŽธ๋ฏธ๋ถ„์˜ ์ˆœ์„œ๊ฐ€ ๋ฐ”๋€Œ์–ด๋„ ๊ทธ ๊ฒฐ๊ณผ๊ฐ€ ๋™์ผํ•ด์•ผ ํ•˜๋ฏ€๋กœ f๊ฐ€ ํ•ด๋‹น ์ง€์ ์—๋Š” 2์ฐจ ๋ฏธ๋ถ„์ด ๊ฐ€๋Šฅํ•˜๊ณ  ๋˜ํ•œ ์—ฐ์†์ด์–ด์•ผ ํ•œ๋‹ค.)

     

    ์˜ˆ์ œ 1>>

    $f(x,y)=x^{2}+xy+y^{2}+3x-3y+4$

    ์ด ๋‹ค๋ณ€์ˆ˜ ํ•จ์ˆ˜์— critical point (์ž„๊ณ„์ ) ๊ฐ€ ์กด์žฌํ•˜๋Š”์ง€, ์กด์žฌํ•œ๋‹ค๋ฉด ๊ทน์†Œ์ ์ธ์ง€ ๊ทน๋Œ€์ ์ธ์ง€ ์•„๋‹ˆ๋ฉด ์•ˆ์žฅ์ ์ธ์ง€ ํŒ์ •ํ•˜๋ผ.

    ์ž„๊ณ„์ ์„ ๊ฐ–๋Š”์ง€๋ฅผ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ผ์ฐจ๋ฏธ๋ถ„๊ฐ’์„ ๊ตฌํ•ด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋œ๋‹ค.

    $\frac{\partial f}{\partial x}=2x+y+3$

    $\frac{\partial f}{\partial y}=x+2y-3$

    ์ด ๋‘ ์‹์ด 0์ด ๋˜๊ฒŒ ํ•˜๋Š” x, y ๊ฐ€ ์ž„๊ณ„์ ์ด ๋˜๋ฏ€๋กœ ์—ฐ๋ฆฝ์ผ์ฐจ๋ฐฉ์ •์‹์„ ํ’€๋ฉด ์ž„๊ณ„์ ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

    ์—ฐ๋ฆฝ๋ฐฉ์ •์‹์˜ ํ•ด๋Š” x=-3, y=3 ์ด๋ฏ€๋กœ ์  (-3,3) ์ด ์ž„๊ณ„์ ์ด๋‹ค. ์ž„๊ณ„์ ์ด ์กด์žฌํ•˜๋ฏ€๋กœ Hessian matrix๋ฅผ ๊ตฌํ•ด๋ณด์ž.

    $\frac{\partial ^{2}f}{\partial x^{2}}=2$

    $\frac{\partial ^{2}f}{\partial x\partial y}=1$

    $\frac{\partial ^{2}f}{\partial y^{2}}=2$

    ์ด๋ฏ€๋กœ Hessian matrix๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

    $$H(f)=\left [ \begin{matrix}
    2 &  1\\
    1 &  2\\
    \end{matrix} \right ]$$

    ์ด ํ–‰๋ ฌ์˜ ๊ณ ์œ ๊ฐ’์€ $\lambda =1,3$ ์ด๋‹ค.

    Hessian matrix์˜ ๊ณ ์œ ๊ฐ’์ด ๋ชจ๋‘ ์–‘์ˆ˜์ด๋ฏ€๋กœ ์ž„๊ณ„์  (-3,3) ์€ ๊ทน์†Œ์ ์ด๋‹ค.

     

    (์ถœ์ฒ˜: https://darkpgmr.tistory.com/132)

     

    3. ์Šค์นผ๋ผ ํ•จ์ˆ˜๋ฅผ ๋ฒกํ„ฐ (๋ณ€์ˆ˜)๋กœ ๋ฏธ๋ถ„

    $ \frac{df}{d\textbf{x}}$ ๋Š” ๋‹ค๋ณ€์ˆ˜ํ•จ์ˆ˜ $f$๋ฅผ ๋ฒกํ„ฐ $x_{1}, x_{2}$ ๋กœ ๋ฏธ๋ถ„ํ•œ ๊ฒƒ์ด๋‹ค. 

    ์ด๋ฅผ ๊ตฌํ•˜๋ ค๋ฉด ์ˆœ๊ฐ„๋ณ€ํ™”๋Ÿ‰ $df$ ์„ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋œ๋‹ค. ์ด๋ฅผ ์ „๊ฐœํ•ด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. 


    $$\begin {align*} df &=\displaystyle \lim_{\Delta x_{1} \to 0,\Delta x_{2} \to 0}f(x_{1}+\Delta x_{1},x_{2}+\Delta x_{2})-f(x_{1},x_{2}) \\ &= \frac{\partial f}{\partial x_{1}}dx_{1}+\frac{\partial f}{\partial x_{2}}dx_{2}\\&=\left [ dx_{1} \ dx_{2} \right]\begin{bmatrix}
    \frac{\partial f}{\partial x_{1}} \\
    \frac{\partial f}{\partial x_{2}}
    \end{bmatrix} \\&=d\textbf{x}\frac{\partial f}{\partial {\textbf{x}}^{T}}\end{align*}โ€‹ $$
    $$\therefore \frac{df}{d\textbf{x}}=\frac{\partial f}{\partial \textbf{x}^{T}}$$

    4. ๋ฒกํ„ฐ ํ•จ์ˆ˜๋ฅผ ๋ฒกํ„ฐ (๋ณ€์ˆ˜)๋กœ ๋ฏธ๋ถ„

    $$d\textbf{f}=\left [ df_{1} \ df_{2}\right ]=\left [ dx_{1} \ dx_{2}\right ]\left [ \begin{matrix}
    \frac{\partial f_{1} }{\partial x_{1}} & \frac{\partial f_{2}}{\partial x_{2}} \\
     \frac{\partial f_{1}}{\partial x_{1}}&  \frac{\partial f_{2} }{\partial x_{2}}\\
    \end{matrix} \right ]=d\textbf{x}\frac{\partial \textbf{f}}{\partial \textbf{x}^{T}}$$
    $$ \therefore \frac{d\textbf{f}}{d\textbf{x}} =\frac{\partial \textbf{f}}{\partial \textbf{x}^{T}}$$

     

    5. ๋ฒกํ„ฐ๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ฏธ๋ถ„ - ์—ฐ์‡„๋ฒ•์น™(Chain rule)

    ๋ฒกํ„ฐ๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ฏธ๋ถ„ํ•  ๋•Œ๋Š” ์—ฐ์‡„๋ฒ•์น™์ด ๋’ท์ชฝ ํ•จ์ˆ˜๋ถ€ํ„ฐ ์•ž์ชฝ ํ•จ์ˆ˜๋กœ ์ง„ํ–‰๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์•ž์ชฝ์—์„œ๋ถ€ํ„ฐ ๋’ค๋กœ ์ง„ํ–‰๋œ๋‹ค. 

    ์ด๊ฒƒ์ด ๋ฌด์Šจ ์˜๋ฏธ์ธ์ง€ ์˜ˆ๋ฅผ ๋“ค์–ด ์‚ดํŽด๋ณด์ž.

    $\textbf{y}=\textbf{x}\textbf{A}, \textbf{z}=\textbf{y}\textbf{B}$ ์ผ ๋•Œ $ \textbf{z} $๋ฅผ $ \textbf{x} $ ๋กœ ๋ฏธ๋ถ„ํ•˜๋ ค๋ฉด

    $\textbf{z}$๋ผ๋Š” ํ•ฉ์„ฑํ•จ์ˆ˜๋ฅผ $\textbf{x}\to \textbf{y}\to \textbf{z}$ ๋กœ ์ด์–ด์งˆ ๋•Œ ๋’ท์ชฝ ํ•จ์ˆ˜์ธ $\textbf{z}$ ๋ถ€ํ„ฐ $\textbf{x}$ ๋กœ ํ–ฅํ•˜๋Š” ์ˆœ์„œ๋กœ ๋ฏธ๋ถ„ํ•˜๊ณ  ๊ณฑํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์—ฐ์‡„ ๋ฒ•์น™์„ ์ ์šฉํ•˜๋ฉด ๋œ๋‹ค. 

    $\textbf{z}=\textbf{yB}=\textbf{xAB}$ ์—์„œ $\frac{\partial \textbf{z}}{\partial \textbf{x}^{T}}=\textbf{AB}$ ๋ฅผ ์•„๋Š” ์ƒํƒœ์—์„œ ์—ฐ์‡„๋ฒ•์น™์„ ํ†ตํ•ด ๋Œ์–ด๋‚ด ๋ณด์ž.

    ์•ž์„œ, (4) ๋ฅผ ํ†ตํ•ด $d\textbf{y}=d\textbf{x}\frac{\partial \textbf{y}}{\partial \textbf{x}^{T}}$ ์ž„์„ ์•Œ๊ฒŒ ๋๋‹ค.

    ์ฆ‰, $d\textbf{z}=d\textbf{y}\frac{\partial \textbf{z}}{\partial \textbf{y}^{T}}$ ์ž„์„ ์•Œ ์ˆ˜ ์žˆ๊ณ , ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ $d\textbf{z}=d\textbf{x}\frac{\partial \textbf{y}}{\partial \textbf{x}^{T}}\frac{\partial \textbf{z}}{\partial \textbf{y}^{T}}$ ๊ฐ€ ๋จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

    ๊ตฌํ•˜๊ณ  ๋ณด๋‹ˆ, ๋ฒกํ„ฐ๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ฏธ๋ถ„ํ•  ๋•Œ๋Š” ์—ฐ์‡„๋ฒ•์น™์ด ๋’ค์—์„œ ์•ž์œผ๋กœ๊ฐ€ ์•„๋‹ˆ๊ณ  ์•ž์—์„œ๋ถ€ํ„ฐ ์ˆœ์„œ๋Œ€๋กœ ๋ฏธ๋ถ„ํ•˜๊ณ  ๊ณฑํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ ์šฉ๋œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” Backpropagation ์—์„œ ๋ฒกํ„ฐ๋ฅผ ๋ฒกํ„ฐ(ํ–‰๋ ฌ์„ vectorizeํ•œ ๊ฒƒ)๋กœ ๋ฏธ๋ถ„ํ•  ๋•Œ์˜ Chain rule์—์„œ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. 

     

Designed by Tistory.