第247話：機械による同時通訳 - AIリアルタイム同時通訳はどこまで来たか | シドニー日本人会

ジャパン/コンピュータ・ネット代表　岩戸あつし

最近のAIの翻訳能力は驚くほど向上してきました。かつての機械翻訳は、単語を単純に置き換えただけの不自然な文章が多く、「意味は何となく分かるが、とても実用的ではない」という印象がありました。しかし現在では、AIが文脈や会話の流れを考慮しながら翻訳するようになり、日常会話レベルではかなり自然な翻訳が可能になっています。
また、読み上げ音声の能力も大きく進歩しました。以前のような機械的でぎこちない音声ではなく、抑揚や間の取り方まで含め、人間にかなり近い自然な音声を出せるようになってきています。最近では、電話越しであれば人間の声と区別がつきにくいレベルに達しているものもあります。

こうした進歩によって、いま注目されているのが「リアルタイム同時通訳」です。SF映画に登場していたような、「外国語をその場で自動翻訳しながら会話する」世界が、少しずつ現実になり始めています。
現在の機械による同時通訳の最前線を見てみると、ハードウェアとしては、iPhoneなどのスマートフォン、Android系スマートフォン、さらには専用翻訳機などがあります。私はiPhoneの使用者ですので、今回はiPhoneを中心に紹介したいと思います。

このシステムで非常に重要なのがイヤホンです。なぜなら、相手が話した外国語を翻訳した音声だけを、自分の耳で聞く必要があるからです。スピーカーから翻訳音声を流してしまうと、自分と相手の声、さらに翻訳音声が混ざってしまい、会話が非常に混乱します。そのため、イヤホンはほぼ必需品と言えるでしょう。
現在使用されている代表的なソフトとしては、ChatGPT Voice、Google Translate、Microsoft Translator などがあります。また、イヤホンは、専用翻訳イヤホンとして、Timekettle WT2 Edge のような製品も登場していますが、AirPodsのような一般用イヤホンでも代用可能です。

実際の使用スタイルとしては、片方の耳にイヤホンを装着し、スマートフォンを相手に向けて会話します。片耳だけにイヤホンを入れるのは、自分の肉声も自然に聞きたいからです。両耳を完全に塞いでしまうと、自分の話し声が分かりにくくなり、会話が不自然になってしまいます。
専用翻訳イヤホンでは、相手側にもイヤホンを装着してもらう方式が推奨されています。しかし実際には、初対面の相手などにイヤホン装着を頼みにくい場面も多く、スマートフォンのスピーカーを利用する使い方の方が現実的かもしれません。

会話の流れとしては、まず相手の英語をスマートフォンのマイクで拾い、その翻訳結果を日本語音声としてイヤホンで聞きます。今度は自分が日本語で返答すると、その内容をAIが英語へ翻訳し、スマートフォンのスピーカー（もしくは相手のイヤホン）から相手へ英語音声として流します。つまり、スマートフォンが二人の間に入り、通訳者のような役割を果たしているわけです。

現在の状況を率直に言えば、「翻訳そのもの」はかなり実用レベルに近づいています。読み上げ音声も十分自然です。しかし、まだ大きな課題があります。それは「会話のタイミング」です。
現在のリアルタイム翻訳では、基本的に相手が話し終わるのを待ち、その後AIが翻訳を行い、それを聞いてからこちらが話し始める、という流れになります。昔のトランシーバーの会話に少し似ています。「どうぞ」「了解」と順番に話す感じです。しかし、本当の意味で自然な同時通訳は、まだそこまでは達成されていません。

プロの同時通訳者を見れば分かりますが、彼らは相手が文を最後まで話し終わる前に翻訳を始めています。つまり、話者の言葉の流れから、これから何を言おうとしているかを予測し、頭の中で文を完成させながら翻訳しているのです。
言語によって難易度も異なるようです。一般に、英語から日本語への通訳は比較的やりやすいと言われています。英語では動詞や否定語が比較的早い段階で現れるため、文の方向性を予測しやすいからです。一方、日本語は最後まで聞かないと肯定か否定か分からない場合も多く、日本語から英語への同時通訳は難しいと言われています。

また、人間の同時通訳者でも、ディベートのように双方が間髪を入れず次々に話す場合、一人で両側を担当するのは非常に困難です。そのため、国際会議などでは、話者ごとに別々の同時通訳者を配置することがあります。
では、機械によって二人の間で本当に自然な会話を実現するには、何が必要なのでしょうか。
鍵となるのは、「文の途中で文脈を予測する能力」です。つまり、相手が話し終わる前に、AIが会話の流れを把握し、次に来る内容を予測しながら翻訳を開始する必要があります。そのためには、非常に高度なAI技術が必要になります。

さらに現在のスマートフォン翻訳では、多くの処理をインターネット経由で行っています。そのため、通信速度や通信環境の影響を大きく受けます。Wi-Fiや携帯回線が不安定だと、翻訳の遅れも大きくなってしまいます。
しかし最近のiPhoneは、バージョンが上がるたびにAI機能が強化されています。以前はインターネット上のサーバーに頼っていたAI処理を、次第にスマートフォン本体の中で行えるようになってきています。これは「オンデバイスAI」と呼ばれる方向で、今後さらに重要になるでしょう。

とは言え、現在の技術はまだ発展途上段階です。今後は、iPhone側にさらに高性能なAI専用プロセッサーが搭載され、同時に、それに対応した高度なイヤホンやマイク技術との組み合わせによって、より自然なリアルタイム同時通訳が実現されていくと思われます。
かつてSF映画の中だけだった「自動翻訳イヤホン」が、いよいよ現実になり始めています。おそらく数年後には、外国語が得意でなくても、AIを介して自然に会話できる時代が現実のものになるのかもしれません。

↓本記事が参考になりましたら、ぜひ👍をお願いいたします。↓

第247話：機械による同時通訳 – AIリアルタイム同時通訳はどこまで来たか

日本人会ニュース

過去のニュース

住所：	Level 3, 275 George Street Sydney NSW 2000
電話：	02 9232 7546
FAX：	02 9223 5382
Email：	jss@jssi.org.au