2017.08.01

集合知の数理 (基幹理工学部 情報理工学科 内田 真人)

沈没して消息不明となった潜水艦の位置をわずかな手掛かりから予想する場合、スペースシャトル・チャレンジャー号爆発事故の直後にその原因企業を特定する場合、未公開映画の興行成績を予想する場合などにおいて、集団の判断が個人の判断よりも正確であったという数多くの事例が知られています[1]。集団が持つこのような能力は「集合知」と呼ばれています。学校でのテストの直後に友達同士で答え合わせをして、一喜一憂した経験を持つ読者も多いでしょう。先生が正解を示す前であっても、友達同士で答え合わせをするだけで、自分の成績がほぼ正確に予測できてしまう。これも集合知の一例です。その他にも、インターネットを通じて、不特定多数の人材に仕事を発注したり募集したりするビジネス形態であるクラウドソーシングも集合知の一例であるといえるでしょう。このように、集合知の事例は身の回りに溢れています。

一方、機械学習の分野では、集合知に類似した特徴を持つ“アンサンブル学習”と呼ばれる学習手法が知られています(下図参照)。アンサンブル学習とは、複数の予測器(以下、要素予測器)を集約して生成された予測器(以下、混合予測器)を最終的な意思決定や問題解決のために利用するということを特徴とした機械学習の手法の総称です。ところが、アンサンブル学習に関する従来研究における典型的な問題設定と、上記の集合知の事例には根本的な相違点があります。それは、集合知の事例においては、個人の判断を集団の判断へと集約する際に、集約結果の良し悪しを評価するための外部的な参考情報が事前には与えられていないという点です。このことは、混合予測器を生成する際に、入力(問題)とそれに対する出力(正解)のペアからなる教師ありデータを利用することができるというアンサンブル学習に関する従来研究における暗黙の仮定が、集合知の事例では満足されない(あるいは、満足されにくい)ということを意味します。しかし、集合知の事例から示唆されるように、教師ありデータが与えられていない場合であっても、複数の要素予測器を集約して混合予測器を生成するというアンサンブル学習の基本戦略そのものは有効です。つまり、“教師なしデータ(答えが分からない問題)”が与えられたときに、その問題に対して何らかの予測を行う能力を持つ複数の要素予測器が利用可能であるならば、それらの要素予測器を適切に集約することで、より良い予測を行う能力を持った混合予測器を生成できる可能性があります。しかし、このことは“教師ありデータ”の利用を前提とした従来研究の手法では原理的に不可能となります。

著者は、このような場面においても実行可能な、教師なしデータを利用したアンサンブル学習である“教師なしアンサンブル学習”について研究しています[2、3]。具体的には、各要素予測器を集約する際の重みパラメータを教師なしデータから推定する手法を提案し、その数理的なアルゴリズム構造を指数型混合形式の確率モデルとカルバック-ダイバージェンスと呼ばれる情報量を用いて特徴付けています。また、この提案アルゴリズムに基づいて各要素予測器を集約することが合理的な戦略となるための必要条件を明らかにしています。さらに、各要素予測器を平等に集約すること(すなわち単純平均すること)が合理的な戦略となるための必要条件も明らかにしています。

集合知の活用はこれからのネット社会において大きな役割を果たしますでしょう。しかし、集合知は必ずしも万能ではないということには注意しなくてはなりません。教師なしアンサンブル学習に関する研究は、集合知が有効に機能する条件や限界を理解し、集合知の活用の幅を広げる上で重要です。

[1] ジェームズ・スロウィッキー【「みんなの意見」は案外正しい 】角川書店  2006
[2] M. Uchida, Y. Maehara, and H. Shioya, “Unsupervised Weight Parameter Estimation Method for Ensemble Learning,” Journal of Mathematical Modelling and Algorithms, Volume 10, Number 4, pp.307-322, Dec. 2011.
[3] M. Uchida, “Unsupervised Weight Parameter Estimation for Exponential Mixture Distribution based on Symmetric Kullback-Leibler Divergence,” IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, Vol.E98-A, No.11, pp.2349-2353, Nov. 2015.