文学翻訳のためのAI:「風が強く吹いている」から、AI翻訳の限界と可能性
文学翻訳のためのAI 「風が強く吹いている」から、AI翻訳の限界と可能性 レインボーダッシュ シンラン、シャーロット、フェリー 「風が強く吹いている」について 高校時代、天才ランナーだった蔵原走(クラハラ カケル)は、食べ物を盗んで逃げながら、夜道を走っていた。そこに偶然通りかかった同じ大学の清瀬灰二(キヨセ ハイジ)は、その走りに魅了され、自転車で蔵原を追いかけ、「走るの、好きか」と聞く。清瀬に説得され、蔵原は学生寮の竹青荘(チクセイソウ)に住まわせることにする。そこで清瀬は、「箱根駅伝」に出場するため、住人たちとチームを組むことになる。しかし、蔵原と清瀬以外の住人は全くの素人だ。こうして、たくさんの衝突を繰り返しながらも、竹青荘の10人は、箱根駅伝に出場し、「天下の険」と呼ばれる箱根の山に辿り着くことを目標に、力を合わせて成長していく。この「風が強く吹いている」という2006年に刊行した小説は、2018年にテレビアニメ化にされた。私たちが、プロジェクトで翻訳に選んだ部分は、レースが終わり、竹青荘の皆が自分の道を見つけた小説のエピローグだ。 プロジェクトの目的 まず、この物語は日本の大学生を描いた、とても日本らしい作品だと思った。駅伝という運動も、日本では長い伝統がある青春が溢れている運動だと思うし、それをどうやってその文化背景を知らない人に伝えるのか、とても興味深いと思う。その上、AIはどうやってこのいかにも日本的な物語を理解し、小説の文学性を伝えるのかも、小説を読んだ後の自分の翻訳と比較して分析したい。他にも、日本語の特徴だけではなく、文化背景や文脈が生み出した、翻訳しにくいし、AIでは理解しにくい部分もたくさんある。このプロジェクトを通して、ぜひそれを分析したいと思う。最後に、この小説は英語の翻訳がまだないから、AIの力をかりて、挑戦したいと思う。 研究手段 この作品の聴衆は日本の現代文学と駅伝の競技について興味がある人、そして一度アニメ化されて、さらに有名になったから、アニメを見て原作に興味を持った人だ。「風が強く吹いている」に興味があるが、英語しか読めない読者にとって、この作品を英語に訳すことで、好きな小説として読めるようになるるだろう。さらに、文学作品に対して、AIの翻訳と人間の翻訳を比べると、AIについてもっと学べるし、将来の翻訳研究にも役に立てられると思う。クラスの経験上、一番原文に近つけるのはChatGPTとClaudeというAIツールなので、今回はこの二つのツールを選んだ。 過学習(かがくしゅう・overfitting) 最初の例は、AIによる過学習(かがくしゅう・overfitting)だ。過学習は訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない状態である。AIは色々なソースから色々な知識を学び、自分のデータベースに入れて、利用者の質問に答えることができる。しかし、コンテクストを理解できない場合は、間違った連想をしてしまう。この作品の中で、清瀬灰二(キヨセ ハイジ)というキャラクターがいて、彼の名前はいつも「ハイジ」と書かれている。そして、「ハイジ」は「Heidi」という女性的な名前の日本語訳でもあるから、ChatGPTもClaudeも「ハイジさん」を「Ms. Heidi」と訳する。AIはカタカナと漢字の名前の関係が理解できないから、過去のデータベースから似たような表現を探して使うのだろう。他の例は、主人公の走はある新入生に、「ハイジさんは嘘つきだ」と主張している時のことだ。原文では、走は誰の言葉も借りなかったのに、ChatGPTの翻訳は彼の言葉の最後に、「George said」を加えた。おそらく、前文で新入生がジョージというキャラクターの言葉を借りたことがあるから、ChatGPTは走もジョージの言葉を借りていると勘違いしたかもしれない。これも、AIは過去翻訳した文から、間違えた連想をしてしまう例と言える。 主語 高コンテクスト言語と低コンテクスト言語では、主語を明示する程度が異なる。日本語は高コンテクスト言語で、主語が省略されることが多く、文脈から主語を推測する必要がある。それに対して、英語は低コンテクスト言語で、主語を明示する傾向が強い。コンテクストの違いは翻訳に大きな影響を与えるようだ。AI翻訳はまだ文脈を完全に理解することが難しいと思われる。例えば、走が「ハイジさんは嘘つきだ」と主張したあと、新入生が「箱根に初出場したときも、清瀬先輩が実質的には監督だったんですよね?いまは実業団のコーチだし」、と反問した。そして、その質問は英語で “Even when Kiyose-senpai made […]