ことばを複雑系として捉え、社会的な系の数理工学として生かす基幹理工学部　情報理工学科　田中久美子

2024.02.01

ことばを複雑系として捉え、社会的な系の数理工学として生かす
基幹理工学部　情報理工学科　田中久美子

私は学生の時以来、一貫して、数理的な方法論により自然言語を対象とする研究をしています。ことばがどのようなものか、を考察することは、最も古い学問の一つで、長く人文系の「言語学」として位置付けられてきました。言語学では、ことばの中の要素が何であるかを中心に据え、単語とは何か、文構造とはどのようなものか、意味とは何か、などが考察されてきました。

近年、インターネットにより大量にことばのデータが得られるようになり、「ことば」を計算機で処理する必要性が増大しました。大量のデータを扱うのですから、その基礎として情報理工学や応用数理などの方法論が必要となります。単語の出現の数理的性質に基づき、言語モデルを構築することが、言語を計算機で扱う分野の基礎の一つとなりました。言語モデルとは、与えられた単語列に後続する単語を予測するもので、自動分類、自動翻訳、情報検索など、言語工学の基礎です。

ひと昔前は、言語モデルとして、短い有限長の単語列に後続する単語を予測する、単純なマルコフモデルが用いられていました。今では、ニューラルネットワークを用いてこの予測を行い、これこそがChatGPTやLlamaをはじめとする大規模言語モデルです。大規模言語モデルにより、自然言語処理の性能は格段に上がりました。

次の単語の予測は、簡単なように見えて容易ではありません。その理由の第一は、文書に初出の単語が意外に多いことです。コーパス中に現れる、異なる単語を集合と考えると、非常にざっとではありますが、その集合の約半分程度の単語が、そのコーパス中に1回限りで現れます。驚くべきことに、小さな文書でも、大きな文書でも、だいたいこの性質が成り立ち、言語には統計的に自己相似的な性質があります。初出の単語は、それまでのコーパスの中に「無い」からこそ初出ですが、それをどのように言語モデルで予測するかは難しい問題です。第二は、単語の出方には独特のパターンがある点が挙げられます。単語の出現は塊として表れ、その現象は系列の中でどこでも似ています。このパターンがどのように生成されるのかを数理的に記述し、それをふまえて次の単語を予測することは簡単ではありません。以上の、単語の頻度、ならびに系列の中の単語の出現の現象の中にある性質は、冪乗則として観測することができ、左の図1に、その解析の例を挙げました。近年のその前線を著書「言語とフラクタル」(東京大学出版会、図2の著書)においてまとめましたので、ご参考までに挙げます。

私が取り組んできたのは、このような自然言語の性質を、数理的な方法論を用いて「複雑系」として捉え直すことです。自然言語を「複雑系」として捉える考え方は、ことばを科学的に捉え直す基礎の一つともなり、また、工学においては、言語モデルの基礎となる機械学習技術を再考するきっかけともなると考えています。

大規模なデータは、情報理工学分野の全域において必要となりますが、大規模な系から生成されたデータには、さまざまな冪乗則が共通して表れます。冪乗則は、生物、地震、気象など自然のデータだけでなく、金融、法律、インターネットなど、さまざまな社会的なデータにも共通します。左の図3に示す通り、私の研究室では、人の社会的な系を、「複雑系」と捉え、自然言語を基軸として、大規模な社会的な系の性質を理解し、機械学習に基づく工学の研究を展開しています。

> 一覧へ

ことばを複雑系として捉え、社会的な系の数理工学として生かす基幹理工学部 情報理工学科 田中久美子

ことばを複雑系として捉え、社会的な系の数理工学として生かす
基幹理工学部　情報理工学科　田中久美子