ことばを真に理解する人工知能の実現に向けて
基幹理工学部 情報通信学科 河原 大輔

コンピュータで文章(テキスト)を扱う研究分野を自然言語処理と言います。「自然言語」と言っているのは、C言語やJava言語などのプログラミング言語と区別するためです。(しかし、最近では、プログラミング言語のコードの処理や自動生成に関する研究もありますので、単に「言語処理」でよいかもしれません。)

自然言語処理の研究の成果としては、検索エンジン、自動翻訳システムやチャットボットなどがあります。みなさんは、日頃、ウェブ上の検索エンジンを使って、調べたいことを検索しているのではないでしょうか。時には、自動翻訳システムで外国語を翻訳したり、スマートフォン上のチャットボットに質問することもあるかもしれません。

では、自然言語処理における難しさや問題はどこにあるのでしょうか? 次の3つが大きな問題として挙げられます。

・ことばの曖昧性
・知識の欠如
・文脈の適切な考慮

1つ目の問題の例として、「外国人参政権」の単語区切りの曖昧性を挙げます。

(1)
    a. 外国/人/参政/権
    b. 外国/人参/政権

日本語を知っている人であればaが正解だと容易に分かりますが、コンピュータには知識がないため分かりません。これが2つ目の知識の欠如の問題です。つまり、言語や世界に関する知識がコンピュータには欠如しているために、ことばを理解できないのです。

そこで、コンピュータに知識を与えることについて長い間研究されてきました。古くは人手で知識を与えていましたが、1990年代頃から、大量のテキストから自動的に獲得するという方法が主流になりました。さらに、ここ数年は深層学習が進展し、2018年に発表されたBERT [1]やその派生の深層学習モデルでは、テキスト中の単語を隠して、それを当てるという穴埋め問題を何度も繰り返し解くことで言語の基本的な知識を獲得しています(図参照)。このような穴埋め問題はテキストから自動的に大量に作り出せますので、人手をかけずに大量の学習データを作ることができるという利点があります。

3つ目の問題ですが、知識を用いて曖昧性を解消するには、文脈を適切に考慮する必要があります。次の2文では「米/原発」なのか「米原/発」なのかを文脈から判断しないといけません。

(2)
    a. 米原発、外部電源失い緊急停止
    b. 米原発の521系の列車の時刻

知識の獲得、および、獲得した知識の適切な利用によって、単語区切りの認識、構文構造の解析、同義語認識など多くの問題を高精度に解けるようになってきました。しかし、句や文の同義性の認識などはまだ難しく、ことばを本当に理解しているとは到底言えません。上記の知識獲得手法において、句や文のような大きな単位の穴埋め問題にする手法なども提案されていますが、まだ研究の真っ最中です。

テキストからの知識獲得手法にも限界があります。テキストに書いてあることは学習できても、書いていないことは学習できません。人は誰でも知っている常識的なことは基本的に書かず、むしろ変わったことやニュースを書く傾向があります。そのため、常識的な知識はクラウドソーシングなどで人に書いてもらって集合知として獲得するようなことが行われています。

我々の研究室では、コンピュータがテキストから自動的に獲得する知識と、集合知をうまく組み合わせて、ことばを真に理解する人工知能を作るべく、研究を進めています。今後ますます、検索エンジンや自動翻訳など、人の言語活動を支援するアプリケーションの精度が上がり、さらに便利になることが期待されます。

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proc. of NAACL 2019, pp.4171–4186. https://aclanthology.org/N19-1423/