Uncategorized」カテゴリーアーカイブ

2025年度前期「機械学習の数理II」今年は、深層学習の数理

2025年度「機械学習の数理 II」は、深層学習の数理についてです。
月曜13:30-15:00 4/14(月)が初日
オンラインですので、吹田キャンパスの方も履修できます

教科書・指定教材  鈴木讓: 機械学習の数理100問シリーズ「深層学習の数理 with Python」(共立出版)のベータ版の原稿を配布
参考図書・参考教材  C.M. Bishop, H. Bishop “Deep Learning: Foundations and Concepts” (2024)

1. 一層のネットワーク
2. 深層学習の概要
3. 勾配法
4. Back Propagation
5. 正則化
6. Convolutional Networks
7. Transformer
8. Graph Neural Networks
9. サンプリング
10. 潜在変数(離散)
11. 潜在変数(連続)
12. GAN(敵対的生成ネットワーク)
13. Normalizing Flow
14. Auto Encoder
15. Diffusion Model

2025年度大阪大学集中講義「データ科学特論」、今年は「スパース推定とそのモデリング」というテーマで実施(オンライン、無料で一般にも公開)

鈴木讓がオーガナイズしている大阪大学「データ科学特論」という集中講義を、今年は「スパース推定とそのモデリング」というテーマで実施します。阪大の大学院の講義であるばかりでなく、公開講座として提供します(オンライン、無料)。2025年7月以降に募集を開始します。

2025年 9月2日(火)-9月5日(金) 3限 13:30-15:00, 4限 15:10-16:40, 5限 16:50-18:20
2025年 9月6日(金) 1限 8:50-10:20, 2限 10:30-12:00, 3限 13:30-15:00

初日の9月2日(火)に鈴木がスパース推定全体の基本的なことを下記の教科書を使って3コマ使って説明します。その後、12名のゲストスピーカーにお話しいただきます。BerkeleyのRyan Tibishrani教授を始め、この分野で活躍されている一流の方々です。

教科書:
鈴木讓「スパース推定 with R」「スパース推定 with Python」 機械学習の数理100問シリーズ (共立出版)

参考書:
川野、松井、廣瀬「スパース推定による統計モデリング」統計学 One Pointシリーズ (共立出版)

講師リスト (あいうえお順、敬称略)
梅津 佑太 (長崎大)
大石峰暉 (東北大)
川野秀一 (九大)
坂田綾香 (統数研)
菅澤翔之助 (慶應大)
高田正彬 (東芝)
二宮嘉行 (統計研)
廣瀬慧 (九大)
松井秀俊 (滋賀大)
山田誠 (OIST)
Poignard Benjamin Michel Claude (阪大)
Ryan Tibishrani (Berkeley)

正規分布の再生性

「正規分布にしたがう確率変数の和が確率変数にしたがう」という命題を、1年生後期の統計学で積率母関数を用いて証明しています。

100問シリーズの次の巻「確率的グラフィカルモデルと因果推論」で、積率母関数を用いない証明でスッキリしたものが完成したので(自己満足ですが)お見せします。他のブログにも載っていますが、スジのよいものがないとぼやいていました。計算が複雑で、普通にやるとめげやすいです。

独立な確率変数 XN(μX,σX2) および YN(μY,σY2) があり、それぞれの確率密度関数を fX(x) および fY(y) とると、和 X+Y の確率密度関数 fX+Y(x) は、
fX(xy)fY(y)dy=12πσXσYexp{(xyμX)22σX2(yμY)22σY2}dyであり、指数部分はay2+by+c=a(y+b2a)2+cb24a a=12(1σX2+1σY2),b=xμXσX2+μYσY2,c=(xμX)22σX2μY22σY2となる。また、
cb24a=(xμX)22σX2μY22σY2+{σY2(xμX)+σX2μY}22(σX2+σY2)σX2σY2={σY2(xμX)+σX2μY}2(σX2+σY2)σY2(xμX)2(σX2+σY2)σX2μY22(σX2+σY2)σX2σY2=(xμXμY)22(σX2+σY2)が成立する。そして、正規分布の確率密度関数を積分して1になる、すなわち
12πσ2exp{(xμ)22σ2}dx=1となることにより、exp{a(y+b2a)2}dy=2π(12a)=2π(1σX2+1σY2)1=2πσX2σY2σX2+σY2とできる。ただし、μ=b2aσ2=12aとおいた。したがって、
fX+Y(x)=12π(σX2+σY2)exp{(x(μX+μY))22(σX2+σY2)}が成立する。これは、N(μX+μY,σX2+σY2) の確率密度関数である。

2024年9月 阪大集中講義「渡辺澄夫ベイズ理論」盛況のうちに幕

2024年9月8日(日)から13日(金)にかけて、鈴木が6コマ、それ以外の9コマを9名の講師の先生にお話しいただきました。

Andrew Gelman先生 (Columbia University)・Mathias Drton (Technical University of Munich)、伊庭幸人先生(統計数理研究所)、車谷優樹先生(りそな銀行)、徳田悟先生(九州大学)、渡辺澄夫先生(理研)、 二宮嘉行先生(統計数理研究所)、矢野恵佑先生(統計数理研究所)、青柳美輝先生(日本大学)

下記は、鈴木が入門向けに行いました最初の6コマの中の重要箇所の切り抜きです。

RKHSでは2乗平均連続過程とランダム要素の区別がない(「機械学習のためのカーネル」命題70(4) )

証明だけ書いておきます。

f:Ω×ERRKHS(k)のランダム要素であれば、Ωωf(ω,)RKHS(k)が可測です。内積は連続な写像であり、再生性から各xEf(ω,),k(,x)=f(ω,x)が成立するので、各xEΩωf(ω,x)Rが可測であり、確率変数になります。

逆に、fRKHS(k)に値をとる確率変数、つまり各ωΩf(ω,)RKHS(k)であってΩωf(ω,x)が各xEで可測であることを仮定しましょう。各gRKHS(k)に対して、gng0となるようなgn():=i=1naik(,xi)を構成できます。再生性から、f(ω,),gn=i=1naif(ω,xi)とでき、各nで可測です。そして、内積の連続性からf(ω,),gはその極限であり、可測であることがわかります。$g\in RKHS(k)は任意でしたので、命題70(1)の議論から、Ωωf(ω,)RKHS(k)は可測になります。

平均0の平均2乗連続過程に対応するランダム要素(「機械学習のためのカーネル」命題70(3))

平均2乗連続過程f:Ω×ERの共分散関数がkであれば、共分散作用素がHgEk(,y)g(y)dμ(y)となるランダム作用素が存在する

テキストと同様の方法で、{(Ei,xi)}1iM(n)を決めます。そしてF(ω,x;{(Ei,xi)}1iM(n))=i=1m(n)IEi(x)f(ω,xi)とおき、nn(n)に置き換えたものとの差の2乗平均誤差をとります。平均は確率空間(Ω,F,P)と測度空間(E,B(E),μ)の両方に関してです。
ΩE{F(ω,x;{(Ei,xi)}1iM(n))F(ω,x;{(Ei,xi)}1iM(n))}2dμ(x)dP(ω)=Ω{i=1m(n)f(ω,xi)Eidμ(x)i=1m(n)f(ω,xi)Eidμ(x)}2dP(ω)テキストの方法と同様にこの値は0に収束します。すなわち、任意のCauchy列が収束したことになり、完備であることも考えると、ΩE{F(ω,x;{(Ei,xi)}1iM(n))F(ω,x)}2dμ(x)dP(ω)0であって、ΩE{F(ω,x)}2dμ(x)dP(ω)<なるFが存在します。そして、E{F(ω,x)}2dμ(x)=なる事象AΩについて、F(ω,x)=0, ωAというようにFを修正すると、任意のωΩについて、E{F(ω,x)}2dμ(x)<とできます。したがって、F(,ω)H=L2(E,B(E),μ)がすべてのωΩについていえて、命題70(1)の議論から、そのようなFL2(E,B(E),μ)のランダム要素になります。

そして、Fの共分散作用素E[FF]は、各h1,h2L2(E,B(E),μ)を適用すると、E[FF]h1,h2=E(F,h1F,h2)となり、それはΩi=1m(n)f(ω,xi)Eih1(x)dμ(x)j=1m(n)f(ω,xj)Eih2(y)dμ(y)dP(ω)=i=1m(n)j=1m(n)k(xi,xj)Eih1(x)dμ(x)Eih2(y)dμ(y)nの極限であって、作用素L2(E,B(E),μ)hEk(,y)h(y)dμ(y)を適用することと同じになります。

Eをコンパクト集合として、確率過程f:Ω×ERが各ωΩで連続なら、Ωωf(ω,)はランダム要素(「機械学習のためのカーネル」命題70(2))

Eをコンパクト集合、(Ω,F,P)を確率空間とします。f:Ω×ERが各xEで可測のとき(確率変数のとき)、fを確率過程と呼びます。同様に、HをHilbert空間として、F:ΩHが可測のとき、Fはランダム要素と呼びます。この可測性は、Hのノルムで距離を定義して開集合を定義し、各開集合の逆像が事象になっていることをさします。

この証明のために、まず(E,B(E),μ)を測度空間とし、g(ω,x):=i=1kIEi(x)hi(ω), ωΩという形式の関数を用意します。ただし、E1,,EkB(E)は重なりがなく、それらの和集合がEとなるものとします。また、IEi(x)xExEiであれば1、そうでなければ0であるとします。さらに、fi:ΩRは可測であるとします。このとき、Rの任意のBorel集合Bについて、g1(B)=i=1k(Ei×hi1(B))とでき、これは積のσ集合体F×B(E)の中にあります。つまり、gΩ×Eに関して可測になります。テキストでも設定したように、{(Ei,xi)}1im(n)を設定し、
fn(ω,x):=i=1m(n)IEi(x)f(ω,xi)とおくと、ωΩを固定したときにf(ω,)の一様連続性から、fn(ω,x)f(ω,x)xEに関して一様に収束します。したがって、fΩ×Eに関して可測である(可測関数列の一様極限は可測関数)。命題70(1)と同様の議論から、Ωωf(ω,)はランダム要素になります。

「統計的機械学習の数理」がYoutube(ぜうチャンネル)に

2024年3月から着手した「統計的機械学習の数理」のYoutubeが見れるようになりました。

辛口データサイエンス(ぜうチャンネル)

これまでは、講義の録画がメインで、またvimeoのアカウントに入れていました。2024年3月からはYoutubeのチャネルを「辛口データサイエンス(ぜうチャネル)」という名前に変更しました。そして、講義の録画だけでなく、オフィスで録画した動画も公開するようにしました。

「統計的機械学習の数理」の動画は、各節事に分かれていて、毎回5-25分程度の分量です。温泉や海外旅行のときの写真をカバーにおいていますが、内容とは関係ありません。カバーがクリック率に影響するように思いました。

現在は、大学院の講義の「機械学習のためのカーネル」も並行して、順次公開しています(2024年8月に完成の予定)。

よろしければ、チャネル登録と、いいねをお願いします。

Cholesky分解を求める計算量 (機械学習のためのカーネル6.1節)

正定値対称行列ARn×nに対して、A=RRなる下三角行列RRn×nが存在します(この証明は省略します)。成分で書くと
Aji=h=1nRjhRih,i,j=1,,n が成立します。最初にRij, i,j=1,,n をすべて0にしてから、各i=1,,n
1. Rii=Aiih=1i1Rih2
2. Rji=(Ajih=1i1RjhRih)/Rii, j=i+1,,n
によって、Rの第i列が求まります。2.は(ni)2回の演算(乗算)が必要で、全体で
i=1n(ni)2=j=0n1j2=16(n1)n(2(n1)1)=n33(11n)(112n)回、高々n3/3の演算が必要です。他方、A,BRn×nの乗算は、その第i,j成分がh=1nAihBhjによって得られ、この操作をn2個の成分すべてに対して行うので、n3回の演算が必要です。Aの逆行列を求める操作も同様の時間を要します。

計算量のオーダー表現は、定数倍の差異を除いて考えるので、上記すべてO(n3)という表記が本来ですが、機械学習のためのカーネル6.1節では、O(n3/3), O(n3)というように両者を区別しています。

また、下三角行列LRn×nとある定数ベクトルbRnがあって、Lx=bなるxを求めるためには、xi=(bih=1i1Li,jxj)/Liiを各i=1,,nに対して行う必要があり、高々1++(n1)=n(n1)/2回の乗算が必要です。テキストではこれをO(n2)の時間がかかるとしています。

YouTubeをはじめました。「ぜうちゃねる」にご登録を。いいねも歓迎です。

テキストにそった内容のYouTube動画を作成しています。パワーポイントでスライドを作成し、Goodnoteを用いて書きながら丁寧に説明しています。各節につき1動画になっています。2024年3月の段階ではまだ第1章のみですが、2024年4月中には、統計的機械学習の数理のすべての動画が完成することになっています。ゆっくり話しているので、上級者の方は速度を125%や150%にして見ていただければと思います。