Day: December 8, 2023

文学翻訳のためのAI:「風が強く吹いている」から、AI翻訳の限界と可能性

文学翻訳のためのAI 「風が強く吹いている」から、AI翻訳の限界と可能性 レインボーダッシュ シンラン、シャーロット、フェリー 「風が強く吹いている」について 高校時代、天才ランナーだった蔵原走(クラハラ カケル)は、食べ物を盗んで逃げながら、夜道を走っていた。そこに偶然通りかかった同じ大学の清瀬灰二(キヨセ ハイジ)は、その走りに魅了され、自転車で蔵原を追いかけ、「走るの、好きか」と聞く。清瀬に説得され、蔵原は学生寮の竹青荘(チクセイソウ)に住まわせることにする。そこで清瀬は、「箱根駅伝」に出場するため、住人たちとチームを組むことになる。しかし、蔵原と清瀬以外の住人は全くの素人だ。こうして、たくさんの衝突を繰り返しながらも、竹青荘の10人は、箱根駅伝に出場し、「天下の険」と呼ばれる箱根の山に辿り着くことを目標に、力を合わせて成長していく。この「風が強く吹いている」という2006年に刊行した小説は、2018年にテレビアニメ化にされた。私たちが、プロジェクトで翻訳に選んだ部分は、レースが終わり、竹青荘の皆が自分の道を見つけた小説のエピローグだ。 プロジェクトの目的 まず、この物語は日本の大学生を描いた、とても日本らしい作品だと思った。駅伝という運動も、日本では長い伝統がある青春が溢れている運動だと思うし、それをどうやってその文化背景を知らない人に伝えるのか、とても興味深いと思う。その上、AIはどうやってこのいかにも日本的な物語を理解し、小説の文学性を伝えるのかも、小説を読んだ後の自分の翻訳と比較して分析したい。他にも、日本語の特徴だけではなく、文化背景や文脈が生み出した、翻訳しにくいし、AIでは理解しにくい部分もたくさんある。このプロジェクトを通して、ぜひそれを分析したいと思う。最後に、この小説は英語の翻訳がまだないから、AIの力をかりて、挑戦したいと思う。 研究手段 この作品の聴衆は日本の現代文学と駅伝の競技について興味がある人、そして一度アニメ化されて、さらに有名になったから、アニメを見て原作に興味を持った人だ。「風が強く吹いている」に興味があるが、英語しか読めない読者にとって、この作品を英語に訳すことで、好きな小説として読めるようになるるだろう。さらに、文学作品に対して、AIの翻訳と人間の翻訳を比べると、AIについてもっと学べるし、将来の翻訳研究にも役に立てられると思う。クラスの経験上、一番原文に近つけるのはChatGPTとClaudeというAIツールなので、今回はこの二つのツールを選んだ。 過学習(かがくしゅう・overfitting) 最初の例は、AIによる過学習(かがくしゅう・overfitting)だ。過学習は訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない状態である。AIは色々なソースから色々な知識を学び、自分のデータベースに入れて、利用者の質問に答えることができる。しかし、コンテクストを理解できない場合は、間違った連想をしてしまう。この作品の中で、清瀬灰二(キヨセ ハイジ)というキャラクターがいて、彼の名前はいつも「ハイジ」と書かれている。そして、「ハイジ」は「Heidi」という女性的な名前の日本語訳でもあるから、ChatGPTもClaudeも「ハイジさん」を「Ms. Heidi」と訳する。AIはカタカナと漢字の名前の関係が理解できないから、過去のデータベースから似たような表現を探して使うのだろう。他の例は、主人公の走はある新入生に、「ハイジさんは嘘つきだ」と主張している時のことだ。原文では、走は誰の言葉も借りなかったのに、ChatGPTの翻訳は彼の言葉の最後に、「George said」を加えた。おそらく、前文で新入生がジョージというキャラクターの言葉を借りたことがあるから、ChatGPTは走もジョージの言葉を借りていると勘違いしたかもしれない。これも、AIは過去翻訳した文から、間違えた連想をしてしまう例と言える。 主語 高コンテクスト言語と低コンテクスト言語では、主語を明示する程度が異なる。日本語は高コンテクスト言語で、主語が省略されることが多く、文脈から主語を推測する必要がある。それに対して、英語は低コンテクスト言語で、主語を明示する傾向が強い。コンテクストの違いは翻訳に大きな影響を与えるようだ。AI翻訳はまだ文脈を完全に理解することが難しいと思われる。例えば、走が「ハイジさんは嘘つきだ」と主張したあと、新入生が「箱根に初出場したときも、清瀬先輩が実質的には監督だったんですよね?いまは実業団のコーチだし」、と反問した。そして、その質問は英語で “Even when Kiyose-senpai made […]

Uncle Syntax? おじさん構文の翻訳しにくさ

おじさん構文とは?   「おじさん構文」とは何だろうか。カタカナを多く使用、句読点、絵文字、そして長い文、といった特徴がある。「おじさん構文」は謎めいている。それは主に中年の男性に関連した文化現象でこの「おじさんたち」は、若者達に対して特別な方法でメッセージを送ることもある。これにはいくつかの理由があるようだが、一般的に若者とつながるために使っていると言われている。それが恋愛的なものこともあれば、部下ともっとうまく繋がりたいということもあるだろう。これはクールに見せる方法であり、冗談を交えて誰かを誘う方法でもある。拒絶された場合でも、必死に見えないようにするためでもある。絵文字とカタカナは「おしゃれ」とか「新しい」とか認識されており、特に彼らが若い頃にはそうだったようだ。この「おじさん構文」はその影響かもしれない。私たちは、おじさん構文の歴史をレポートするのではなく、おじさん構文を使う時、どんな意味を伝えるのだろうかという質問に答えるつもりだ。       この珍しいトピックを選んだ理由 この作文のトピックを選んだ理由として、まず、おじさん構文というのは現代日本文化の面白いポイントの一つだということがある。アメリカの文化に相当な言語スタイルがない上、実は英語で「おじさん」は一つの言葉ではない。家族の人だったら「uncle」をいうが、家族じゃないおじさんだったらよく人の名前を言う。英語でおじさんのような曖昧な言葉がないから、多分おじさんと言う意識もない。それから、「おじさん」まで翻訳しにくいため、AIは私たちの選んだ記事を上手く翻訳できないかもしれない。その上、おじさん構文の特徴は絵文字や、句読点で、ひらがなの代わりにカタカナを使う場合もある。この三つは、AIの苦手なポイントのようだから、翻訳においていいチャレンジじゃないだろうか。 でもこのトピックはAIにチャレンジするためだけではなく、本当に大切な問題について考えることもできると思う。おじさん構文というのは日本語を勉強している外国人が日常生活に見る複雑な日本文化のひとつかもしれない。日本語ネイティブじゃない人はこのようなトピックを見たり聞いたりしたら、インターネットで調べてブログやツイートなどを読むかもしれない。よく分からなかったら、AI翻訳サービスに入れると思う。だから、私たちは翻訳しにくい文化的なトピックについてのブログをAIに入れてみたかった。AIは上手く大衆文化の記事を翻訳できるか、思い違いを作るのか、人々がこのAIツールを使わない方がいいのかを知りたい。   グーグルやDeepLというAIプログラム   さらに、使いやすくて、多くの人が使っているAI翻訳サービスを検討したかった。だからグーグルの翻訳ツール(グーグル)とDeepLを選んだ。グーグルは世界中で一番使われている翻訳AIだ。写真の翻訳ができるし、漢字が書けるツールもある。それで、DeepLは特に日本語を勉強している人たちに人気があるそうだ。両方ともサイトとアプリがあるし、使いやすい。しかし、新しい翻訳AIは多くの人がまだ使っていない。、特に年齢が高い世代は使っていない。例えば、ChatGPTとClaudeはもう少し当たっている翻訳AIですが、グーグルみたいに写真やイメージに入っている言葉を翻訳できない。その上、グーグルとDeepLみたいに翻訳を声に出して読み上げない。 AIは素晴らしいツールだけどこのプロジェクトは、AI翻訳サイトを使いながら気をつけなければならないメッセージを伝えるのが目的だ。日本語を勉強している人に、AIの失敗の例を表して、特に文化的なトピックについての記事とか、句読点と絵文字が多いテキストが苦手なポイントを強調できればいいと思う。   翻訳したオンライン記事の紹介   翻訳してみたい記事はオンライン作品で、ケータイWatchという技術のサイトで探した。このサイトの聴衆はテクノロジー系が好きな若者だと思う。この記事はおじさん構文について調査の結果を表して、おじさん構文を使う人を少しだけバカにしてるので、記事の聴衆はおじさんじではない人だろう。アンケートされた人は10歳から24歳までの男女600人ぐらいだった。このアンケートの結果から、10位までのおじさん構文っぽい特徴を説明する記事だ。この中に色々な文章、書くスタイル、スラングなどがあって、翻訳するのは面白いだろうと思った。左の画像は10位までの特徴の要約である。   民間調査の結果の翻訳 […]