「()」

sadachi
sadachi

第1部 第17章 リジッド幾何学とデータサイエンス

サンの計算

公開日時: 2021年11月26日(金) 18:00
文字数:1,237


サンはカガリと話していて,質量分析の1種である液体クロマトグラフィー-質量分析法(LC/MS)では随分お金がかかるのに,再現性が今一な時もあることが話題になった.サンはそれを聞いて,今セイジやカズ,リーと取り組んでいる計算法がLC/MSのunused valueというタンパク質の定量データに関して1つの解法になるのではないかと思った.まずIm(s)をセイジやカズの共同研究と同じように取り,v = lnNk/ln(Im(s))という計算を考えてみる.これでコヒーレントなリジッド解析空間が出来る.lnNkはコヒーレントな形式スキームから算出され,ln(Im(s))がブローアップをしている形になる.これで,擬コンパクトで擬分離の空間がvという計算に対応する形で出来る.このことが再現性を取りやすくするミソになる.ここでlnNkはテイト代数に従っているとする.ln(Im(s))はk-バナッハ代数に従うことになる.vが本当にリジッド幾何に従うことは,複素平面上の楕円曲線のショットキー型の一意化を通して分かる.vを再帰的に計算して行くことはクリスタリンコホモロジーを取っていくことになり,v = (NklnDalnD – lnζ(s) + lnE(N))/(E(N)ln|D|)となって高次元性がvの中でキャンセルされ,次元の呪いから解放されてG-位相が入ることから,データが収束することになると考えられる.

 

サンはそのアイデアを思いつくと,実際のLC/MSのデータその他に適用してみた.まずヒト胎児腎細胞株HEK-293の経年した極低温保存サンプルのLC/MSのデータをカガリに取ってもらって解析すると,そのままのデータでは階層的クラスター分析やk-平均法,ニューラルネットワーク,非計量多次元尺度法の計算をしても再現性は取れなかった.ところが,サンの考え出した計算法で前処理したデータはニューラルネットワーク以外では見事に再現性が取れるようになった.高次元のデータにおける次元の呪いが正に解消された形だ.出芽酵母や大腸菌のマイクロアレイのデータでも同様のことが確認された.これは他の計量,最近傍距離,動径基底カーネル,相関距離には出来ないことだった.ボルツマン分布に近い分布を取るデータなら,この方法は有効だと思われた.ゲンはこれらの結果も纏めて論文にした.

 

サンはセイジの勘案したsが気に入っていた.そしてsは統計学的にはWAICと近い形をしていることに気付いた.WAICは経験損失をTn,汎関数分散をVn,逆温度をβとおけばWn = Tn +β/n · Vnとなる.ここでNk = a – lnbをギブズの自由エネルギー的に捉えればaがエンタルピー,bが温度,lnkがエントロピーの類似物になる.汎関数分散の分散の部分に共分散を用いれば,ΔzklnDkkが添字の集合のWAICと近い形になり,sも最尤法的な情報量基準の1種であるとみなせる.この絶対値が大きい時にフラクタルが,小さい時にカオスが現れる.


読み終わったら、ポイントを付けましょう!

ツイート