お絵描き統計学の今や昔
基幹理工学部 応用数理学科 劉 言

 眩しいぐらい太陽の光が降り注ぐ中,何気なく拾った木の枝で砂場をキャンバスにして,時間が止まったかのように自分の想いを描き込んでいきます.そして気がつけば,大自然の一角に自分の魂が宿った壮大な絵が完成したということは,子供のときに誰しも経験のあることでしょう.

 いつの時からか,絵が数式に置き換わり,学びというものが始まったと記憶しています.足し算,引き算が難しいから,線分図を描きなさい,難しい数式を絵で理解して欲しいという先生の親心は今でも忘れられません.その延長線上にあるのは,未知量を文字で代替して,絵の,数式による表現ではないか,と今となって思います.

 パラメータと呼ばれる文字が増えれば増えるほど,絵の自由度も高くなる,ということは皆さんがよくご存知のことと思います.それに纏わる逸話の一つに,天才とも称されるジョン・フォン・ノイマン氏がフェルミ氏への返事に以下のことを述べています:

  With four parameters I can fit an elephant, and with five I can make him wiggle his trunk.

 

この象のことをフォン・ノイマンの象と呼ばれています(図1).

 統計学では,方向統計学と呼ばれる分科があります.円周上の分布を研究するものです.学部の統計学の講義では,実数値確率変数を対象とするのが基本で,馴染みのない方も読者の中に少なからずいると想像します.円周上の分布関数も一般的に密度関数をもち,パラメータ付けすることにより,母集団の統計的性質や,推定問題,検定問題などを考えることができます.図2では,円周上の密度関数を,ほんの2例,示しています.円周分布は風向データや犯罪データ,温室効果ガスデータなどへの応用があります.さらには乳幼児突然死症候群の特徴づけにも円周分布が使われています.

 

 円周分布の密度関数は一般的につぎのように与えられます:

 

\(\displaystyle f(ω; \rho_1,\cdots ,\rho_q, \gamma_1,\cdots ,\gamma_q, \nu_1,\cdots ,\nu_p, \mu_1,\cdots ,\mu_p)\)

 

\(\displaystyle =\frac{c}{2\pi}\ \frac{|1+ \sum_{k=1}^{q}(\rho_k e^{-\mathrm{i}k\gamma_k})e^{\mathrm{i}k\omega}|^2}{|1- \sum_{j=1}^{p}(\nu_j e^{-\mathrm{i}j\mu_j})e^{\mathrm{i}j\omega}|^2}\),    \(\omega \in (- \pi, \pi].\)

 パラメータは, \(2 (p+q) \) 個あります.つまり,パラメータ付けされた密度関数のモデルが複雑であればあるほど,パラメータの数も増えていきます.フォン・ノイマンの言葉を借りれば,パラメータが5つもあれば,象の鼻を振らせることができます.だから,データ解析においては観測データを十分に表現することができれば,できる限りシンプルなモデルを使いたい,というのは統計学者のココロです.

 昔話はさておき,少し最近のお話をします.円周分布のこの固有の特徴,つまり複雑なモデルに多くのパラメータを抱えている特徴を見て,私は方向統計学の文脈に経験尤度法を最近の投稿論文で導入しました.経験尤度はデータ駆動型の手法で様々な統計的最適性をそのまま受けるものですが,あまり広まっていない印象です.学部学生の習う統計学では,分布論が一つのテーマで,確率変数を表現するにはどのような分布があるかを勉強するものです.一方で,本来の統計学の見地からデータそのものを見ていないのに,そのデータにある分布をもっていると仮定するのはいささか乱暴なことであり,講義の受講生から納得できないという声もよく聞きます.実は,この経験尤度,モデルより一つ弱い階層であるパラメータの満たすべき方程式という観点に着目して,その方程式の成り立つ確率を最大にしているものを考えています.即ち,パラメータの満たすべき方程式の尤もらしさを評価しているものです.このように,方向統計学の文脈に経験尤度法を導入することにより,複雑なモデルを忘れて,パラメータの信頼領域の構成,パラメータに関わる仮説の統計的検定などができるようになりました.

 本題からお話がやや逸れましたが,数理的観点からデータ解析のフィロソフィーが少しずつ明かされてきて,統計科学が進化し続けています.今後はお絵描きにも一助となれば,幸いです.