ジャパン/コンピュータ・ネット代表取締役 岩戸あつし

日英、英日機械翻訳の歴史は、パソコンの歴史と同じ年代まで遡ることができる。1980年代初期、第5世代コンピュータ・プロジェクトと呼ばれる日本の通産省指導プロジェクトが発足した。それまでコンピュータの発展というのは、計算の速さやアルゴリズムの複雑さを競ってきた。それに対して第5世代では、コンピュータの計算機能以外の可能性を追求した。例えば人工知能の可能性、自然言語や機械翻訳の可能性という、それまでとは大きく異なった大胆な挑戦をした大掛かりなプロジェクトであった。

ビルゲーツ率いるマイクロソフト社が80年代にMS-DOSでパソコンの覇権を握る前。まだどのような言語、OSが世界のマーケットを席巻するか、誰もわからなかった頃。日本の第5世代コンピュータ・プロジェクトでは、主に自然言語を使った人工知能の研究が行われていた。人が自然に話す言葉をプログラムの言語にしようという、今から考えれば怖いものなしの挑戦であった。そして、日英、英日機械翻訳は、それらの研究成果を一般の人たちに見せるためのアプリケーションとして開発が進められた。

そのころには、既に言語学においてノーム・チョムスキーが生成文法という全人類に普遍的な文法を発表していた。この文法をコンピュータに応用すれば、各言語間で意味が通じ合う機械翻訳ができるはずであった。ところが結果的に言うと、この研究はうまくいかなかった。何がいけなかったのか、という理由ははっきりと覚えていないが、人類の言語は一つの普遍文法で右から左へと解釈できるような単純なものではなかったのであろう。

その後も人工知能の研究は続けられたが、人間の脳の機能を真似たニューラル・ネットワークや自然言語研究は、ハードウェア、ソフトウェア共、時期尚早ということになったようだ。その代わりにルールをベースにした比較的簡単な人工知能が作られた。ルール・ベースと言うのは、法律条項や保険の約款のように、すでにあるルールに照らし合わせて判断していくというものだ。例えば、医者が患者に「お腹が痛いか?」「気分が悪いか?」「熱があるか?」という質問をする。患者の答えを聞いて、徐々に病名を絞り込んでいくやり方をコンピュータにさせる。これを特にエキスパートシステムと呼んでいる。ルール・ベースはコンピュータのアルゴリズムで簡単に表されることから、ルール・ベースの人工知能が主流になった。しかし、人間の知能は、ルール・ベースだけでは作れないということが初期の段階からわかっていた。

第5世代コンピュータ・プロジェクトの失敗により、本格的な機械翻訳を研究する機関がなくなった。ただ、パソコンの方はどんどん発達し、ルール・ベースを基盤としたMS-DOSやWindowsが登場した。そして、これらOSのアプリとしての日英、英日翻訳ソフトが徐々に登場するようになった。しかし、これらの翻訳ソフトは、チョムスキーの生成文法どころか、従来のSVO⇔SOV式の学校文法を基に作成されていた。実際にやってみると、単語レベルでの辞書に近く、長い文章を翻訳させると間違いだらけで、結局自分で翻訳したほうが早いというようなものであった。

機械翻訳が使えるレベルになってきたのは、つい最近のことである。起因として、ニューラル・ネットワークを使った人工知能研究が発達したということもあるが。インターネットの発達によって多くの人から翻訳データを収集できるようになったことが一番に挙げられる。ルール・ベースは、すでにあるルールに照らし合わせる。だが、翻訳に関しては、六法全書の様に纏まったルールはまだないし、そもそもルールが複雑すぎて、統一したルールに纏めることができないと思われる。それに対し、インターネット経由で打ち込まれた大量の翻訳データは、最初はいろいろ間違いもあるが、他の多くの同じような翻訳と比べながら学習し、精度を上げていく。この学習方法は、我々が子供の頃、自然に言葉を習った学習方法と似ている。この方法が今日翻訳の精度を飛躍的に上げた。だが、勿論まだまだ十分ではない。次回でもっと具体的にみてみよう。

Share This