大規模な多言語化
(この記事は、2022年11月23日に公開された記事「Massively multilingual」の日本語訳です。)
Google 翻訳の対応言語数が50に達したのが、つい昨日のことのようです(実際は2009年)。
過去数年にわたり、Google 翻訳が対応する言語数は、100台の前半でほぼ停滞しているようでした。現在は133の言語をサポートしており、直近ではドーグリー語、エウェ語、バンバラ語を追加しました(そう、これらの言語は私にとっても新しい言語です)。
しかし133言語といえば、かなりの数です。ほとんどの企業Webサイトがサポートしているのは、10カ国語以下。そして主要なグローバルサイトでさえ、平均して34の言語をサポートしているに過ぎません。
だからこそ、Google 翻訳のチームによる最近の進展は、大ニュースなのです。The Vergeの記事から引用します:
Googleは、世界で「最も話されている1,000言語」をサポートする、単一のAI言語モデルを開発するための野心的な新プロジェクトを発表しました。この目標に向けた第一歩として、同社は400以上の言語で訓練されたAIモデルを発表しており、これを同社は「今日ある言語モデルで見られるうち最大の言語カバー率」と表現しています。
400言語というと、Wikipediaとほぼ同レベルです(間違いなくベンチマークでしょう)。Wikipedia and the Internet language chasmもあわせてご覧ください。
Google 翻訳が400言語に対応するのはいつになるでしょう?近い将来であることを期待します。
言語は、インターネットにとって大きな障壁の1つです。機械翻訳が不完全なものであり、時には笑いものにされる場合があることも私は理解しています。しかし、何も無いよりましだと思いますし、そう思うの私が一人だけではないと信じます。