Sobolev空間での平滑化スプラインの一般化(機械学習のためのカーネル4.4節)

平滑化スプラインの問題は、
$$\sum_{i=1}^N\{y_i-f(x_i)\}^2+\lambda \int_0^1 \{f^{(q)}(x)\}^2dx \rightarrow {\rm min}$$を最小にする$f \in H:=W_q[0,1]$を求める問題として定式化できます。$q=2$の場合は、3次の自然なスプラインの範囲で最適解が存在することが知られています (「統計的機械学習の数理100問」の第6章)。また、Sobolev空間は$H=H_0+H_1$という直交するHilbert空間の直和で書けて、$P$を$H$から$H_1$への写像とすると、上記の問題は$$\sum_{i=1}^N\{y_i-f(x_i)\}^2+\lambda \|Pf\|^2dx \rightarrow {\rm min}$$とかけます。さらに、$H_0,H_1$もRKHSであって、その再生核を$k_0,k_1$と書くと、$H$の再生核は$k=k_0+k_1$となります。

まず、$M={\rm span}(k(x_1,\cdot),\ldots,k(x_N,\cdot))$、$M^\perp$をその直交補空間とし、$f=f_*+f_{\perp}$, $f_*\in M$, $f_{\perp}\in M^\perp$とかくと、$$\sum_{i=1}^N\{y_i-f_*(x_i)\}^2+\lambda \|Pf_*\|^2dx \rightarrow {\rm min}$$の最小化に帰着できます。というのも、$f(x_i)=\langle f,k(x_i,\cdot)\rangle_H=f_*(x_i)$とでき、
$$\|Pf\|^2= \|Pf_*+Pf_\perp\|^2=\|Pf_*|^2+\|Pf_\perp\|^2\geq \|Pf_*|^2$$ここで、$\langle Pf_*,Pf_\perp\rangle_H=0$を用いました。したがって、一般性を失うことなく、$f=\sum_{i=1}^N\beta_ik(x_i,\cdot)$とおいて、その最小化をはかればよいことになります。その場合、$$Pf=\sum_{i=1}^N\beta_iPk(x_i,\cdot)=\sum_{i=1}^N\beta_ik_1(x_i,\cdot)$$となるので、
$$\sum_{i=1}^N\{y_i-\sum_{j=1}^N\beta_j k(x_i,x_j)\}^2+\lambda \sum_{i=1}^N\sum_{j=1}^N\beta_i\beta_jk_1(x_i,x_j)$$
$K=(k(x_i,x_j))\in {\mathbb R}^{N\times N}$, $K_1=(k_1(x_i,x_j))\in {\mathbb R}^{N\times N}$, $y=[y_1,\ldots,y_N]^{\top}$とおけば、$\beta=[\beta_1,\ldots,\beta_N]^{\top}$は
$$\beta=(K^2+\lambda K_1)^{-1}Ky$$となります。