文学翻訳のためのAI

「風が強く吹いている」から、AI翻訳の限界と可能性

レインボーダッシュ
シンラン、シャーロット、フェリー

「風が強く吹いている」について

高校時代、天才ランナーだった蔵原走（クラハラ　カケル）は、食べ物を盗んで逃げながら、夜道を走っていた。そこに偶然通りかかった同じ大学の清瀬灰二（キヨセ　ハイジ）は、その走りに魅了され、自転車で蔵原を追いかけ、「走るの、好きか」と聞く。清瀬に説得され、蔵原は学生寮の竹青荘（チクセイソウ）に住まわせることにする。そこで清瀬は、「箱根駅伝」に出場するため、住人たちとチームを組むことになる。しかし、蔵原と清瀬以外の住人は全くの素人だ。こうして、たくさんの衝突を繰り返しながらも、竹青荘の１０人は、箱根駅伝に出場し、「天下の険」と呼ばれる箱根の山に辿り着くことを目標に、力を合わせて成長していく。この「風が強く吹いている」という2006年に刊行した小説は、2018年にテレビアニメ化にされた。私たちが、プロジェクトで翻訳に選んだ部分は、レースが終わり、竹青荘の皆が自分の道を見つけた小説のエピローグだ。

プロジェクトの目的

まず、この物語は日本の大学生を描いた、とても日本らしい作品だと思った。駅伝という運動も、日本では長い伝統がある青春が溢れている運動だと思うし、それをどうやってその文化背景を知らない人に伝えるのか、とても興味深いと思う。その上、AIはどうやってこのいかにも日本的な物語を理解し、小説の文学性を伝えるのかも、小説を読んだ後の自分の翻訳と比較して分析したい。他にも、日本語の特徴だけではなく、文化背景や文脈が生み出した、翻訳しにくいし、AIでは理解しにくい部分もたくさんある。このプロジェクトを通して、ぜひそれを分析したいと思う。最後に、この小説は英語の翻訳がまだないから、AIの力をかりて、挑戦したいと思う。

研究手段

この作品の聴衆は日本の現代文学と駅伝の競技について興味がある人、そして一度アニメ化されて、さらに有名になったから、アニメを見て原作に興味を持った人だ。「風が強く吹いている」に興味があるが、英語しか読めない読者にとって、この作品を英語に訳すことで、好きな小説として読めるようになるるだろう。さらに、文学作品に対して、AIの翻訳と人間の翻訳を比べると、AIについてもっと学べるし、将来の翻訳研究にも役に立てられると思う。クラスの経験上、一番原文に近つけるのはChatGPTとClaudeというAIツールなので、今回はこの二つのツールを選んだ。

過学習（かがくしゅう・overfitting）

最初の例は、AIによる過学習（かがくしゅう・overfitting）だ。過学習は訓練データに対して学習されているが、未知データ（テストデータ）に対しては適合できていない状態である。AIは色々なソースから色々な知識を学び、自分のデータベースに入れて、利用者の質問に答えることができる。しかし、コンテクストを理解できない場合は、間違った連想をしてしまう。この作品の中で、清瀬灰二（キヨセ　ハイジ）というキャラクターがいて、彼の名前はいつも「ハイジ」と書かれている。そして、「ハイジ」は「Heidi」という女性的な名前の日本語訳でもあるから、ChatGPTもClaudeも「ハイジさん」を「Ms. Heidi」と訳する。AIはカタカナと漢字の名前の関係が理解できないから、過去のデータベースから似たような表現を探して使うのだろう。他の例は、主人公の走はある新入生に、「ハイジさんは嘘つきだ」と主張している時のことだ。原文では、走は誰の言葉も借りなかったのに、ChatGPTの翻訳は彼の言葉の最後に、「George said」を加えた。おそらく、前文で新入生がジョージというキャラクターの言葉を借りたことがあるから、ChatGPTは走もジョージの言葉を借りていると勘違いしたかもしれない。これも、AIは過去翻訳した文から、間違えた連想をしてしまう例と言える。

主語

高コンテクスト言語と低コンテクスト言語では、主語を明示する程度が異なる。日本語は高コンテクスト言語で、主語が省略されることが多く、文脈から主語を推測する必要がある。それに対して、英語は低コンテクスト言語で、主語を明示する傾向が強い。コンテクストの違いは翻訳に大きな影響を与えるようだ。AI翻訳はまだ文脈を完全に理解することが難しいと思われる。例えば、走が「ハイジさんは嘘つきだ」と主張したあと、新入生が「箱根に初出場したときも、清瀬先輩が実質的には監督だったんですよね？いまは実業団のコーチだし」、と反問した。そして、その質問は英語で “Even when Kiyose-senpai made his debut at Hakone, he was essentially the coach, right? Now he’s a coach for a corporate team.”になった。この文の主語は「私たち」で、この言葉を言っているのは話し手自身だった。しかし、AI翻訳はこの主語を「清瀬先輩」となってしまって、「清瀬先輩が箱根に初出場したとき~」と訳してしまっている。それに、訳文では、清瀬先輩が実は嘘つきではない、駅伝チームの皆を助かったが、自分のことで皆を騙したというニュアンスが失われてしまっている。

文脈

文脈をよく覚えて、それを正しく理解し、翻訳に使うことも、AIにとって難しい。小説の初めに説明したことを後で忘れてしまう場合が少なくない。例えば、主人公達が住んでいた寮の名前は「竹青荘（ちくせいそう）」で、よく「アオタケ」に呼ばれるが、AIに「Takeseisou」や「Takeaosou」に訳される。そして、原文中にこの呼び名を説明する会話文をAIに入れて、もう一度翻訳してもらっても「Takeseisou」に訳した。その問題はキャラクターの名前の翻訳にもある。例えば、主人公の名前は「蔵原走（クラハラ　カケル）」だが、AIはどうしても、「走」を「Hashiru」に訳す。他にも、「城次郎（ジョウ　ジロウ）」というキャラクターのあだ名は「ジョージ（城次）」なので、AIは「George」と間違えた。それで、AIは文脈を理解し、それに従って翻訳する例があるけど、いつも正しく訳すことはまだできない。

語順

原文のイメージが現れる順序は、この場面が読者の頭の中でどのように構築されるかに影響する。このように、言葉の順番は、文章の雰囲気や心理的体験に影響を与えるのではないか。例として、「『さあ、どうだろう』向き不向きなんて、走は考えたこともない」を訳す時、ChatGPTは「”I don’t know,” Hashiru said, never having thought about suitability or unsuitability」に意訳する一方、Claudeは「”Who knows,” says Ran.Thinking suited or unsuited had never even crossed his mind」に訳す。ChatGPTの表現はClaudeと比べて、英語話者には自然だけど、「suitability or unsuitability」そういう表現はフォーマルすぎで、そしてClaudeは原文の構造と語順をうまく維持されているから、逆にClaudeの方が、原作の気持ちと雰囲気を保っている。他にも、ChatGPTは時々意訳しすぎるので、文の順番が変わってしまったり、別の段落にある文が組み合わさってしまったりすることもある。原作者の意図とは合っていないと思われる。

文学作品の翻訳では、単に内容を正確に翻訳するだけでなく、作品の雰囲気や言語の美しさをできるだけ維持することが大切だと考える。だから、原文の語順や言葉遣いは作者の意図が込められているので、それをできるだけ尊重しながら自然な翻訳文を作ることが求められると思う。ChatGPTは意訳することがうまいが、原文の雰囲気を表すことができない。その一方、Claudeは原文の構造と言葉をうまく維持している。でも、時々英語が母語の読者にとって、ちょっとおかしいこともある。とはいえ、Claudeは言葉遣いがうまいと思う。一例を挙げると「夕飯のにおいがあふれ、混じりあって春の空気に溶けていく。」を訳す時、Claudeは「The smell of dinner spills out, blending and dissolving into the spring air. 」と訳す一方、ChatGPTは「the scent of dinner overflowed and mixed with the spring air.」と訳す。混ざり合う様子を“blend”、溶け込む様子を “dissolve”と言葉を使い分けることで、原文のイメージを生き生きと伝えていると感じたChatGPTは、「あふれ」を“overflowed”、溶け込む様子を“mixed with”と言葉を使い。そして、ChatGPTより、Claudeの方がもっと文学的な言葉をよく使って、原作の雰囲気を表す。AIの翻訳だが、Claudeがふさわしい言葉を選ぶ力が高いと実感できる例だと思う。

AIの利点と欠点、そして使い方

観察の結果、AIの翻訳は正しいが、最高の翻訳とは言えなかった。硬く不自然な文や、語順の問題が見られた。例えば、「かけがえのないひとたちと、このうえもなく濃密な一年を過ごした。」を訳すると、”I spent an extraordinarily dense year here with irreplaceable people.”になった。

AIが人間と同じレベルで翻訳できるかどうかを研究したいと考えている。翻訳の目標は原文を正確に伝えることだが、その「うまさ」を判断する基準が必要である。私たちが調べたいポイントは直訳と意訳のバランスや英語にない表現の翻訳方法だと思う。これらの分析から、AIの翻訳能力と限界が明らかになると考えた。そこで、私たちはAIツール、そしてAI翻訳と人間の関係を分析したいと思う。

学ぶ人工知能のイラストまず、AI翻訳ツールは人間の発明として、人間の役に立てる長所と、ツールとしての短所がある。これらの分析から見ると、ChatGPTやClaudeなどのAIは硬くて不自然な翻訳をするし、原文を理解しながら新しい概念を学ぶ能力はまだ弱いかもしれない。さらに、全体的に見ると、AI翻訳ツールのデータベースは大体、アメリカとヨーロッパ中心の英語テキストだと思う。異なる視点を取り入れようとしていて、「平均」な意見をのべるが、その「平均」の基準は欧米中心のデータベースの上に築け上げたもので、本当の平均ではない。その結果、AIはバイアスと盲点も持っていて特に異文化の知識や理解が必要な時は、原文を適切に翻訳できないだろう。

同時に、AIはツールとして、まだたくさんいいところがあると思う。AIを使うと、短時間内に、コストパフォーマンスも上げられるだろう。時間とお金を節約できるし、同じリソースを使っても、より多くの作品を翻訳できる。その上、一般大衆にとって、AIは便利なツールだと思う。例えば、昔は日本語がわかる人だけしか、翻訳されていない日本語の本が読めたかもしれないが、今は原文をAI翻訳ツールに入れれば、日本語がわからない人でも、大抵の意味が伝わる。なので、人間がAIをより効果的に使う方法を考えなければいけないと思う。

もっといい翻訳結果を得るために、私たちは、プロンプトを変える実験も行った。人名や地名などの固有名詞の翻訳を提供することで、AIは以前の間違えを避け、正しい翻訳ができるようになった。例えば、「ハイジさん」を “Haiji-san”と入力した場合、“Haiji”は男性の名前であることをAIが予測し、「嘘つきだよ」を “He’s a liar.”と翻訳するようになった。プロンプトエンジニアリングを通じて、例えば主人公の性格や話し方などの情報を入力することで、よりふさわしい翻訳を得られるかもしれない。

結論

このような翻訳実験を行うことで、AIを使う方法がより詳しく理解できるようになっていくだろう。翻訳の作品の文脈がある程度わかると、役にたつ情報をプロンプトに入れて、質の高い翻訳を短い時間で得られるようになる。原文の中で、必要な知識と情報が得られないと、AIに適切な指示をあげて、間違いを修正することもできもなくなる。だから、AIに頼るだけではなく、原文を理解することが大切だ。しかしながら、この方法は翻訳者にとっては助けとなる。多くの時間を翻訳の修正に集中することができるようになるだろう。

感想

このプロジェクトを通して、AIはやはりすごいと思った。AIは私たちよりうまい翻訳を作成できると思う。また、AIは私たちにインスピレーションを与えるいいアイデアを生み出せるだろう。しかし、AIの正確性と解釈可能性(explainability)を心配している。違うチャットボットを使ったら、違う結果が出るということにも気づいた。もう一つの感想は、AIツールは常に優しくて、どんなシンプルな質問にも答えてくれる。バイアスを持っているけど、主観や感情で答えず、ストレスのない環境を提供することがいいのではないか。AI翻訳の利点に色々気付き始めたから、私たちの研究で将来のAIの発展に何か役に立ちたいと思うようになった。このプロジェクトの目的は、決してAI翻訳を批判する訳ではなく、AIの進歩にアドバイスをあげたいし、未来のテクノロジーに希望を与えたいということだ思う。