他カテゴリ

自動翻訳の制度、IME の精度

yamaeigh's icon'
  • yamaeigh
  • 2020/07/23 05:14

もう10年以上前のことだったと思うのですが、自動翻訳というものが漸く実用化されてきたときに、試しにやってみて、「ああ、こりゃまだ暫くは無理だ」とがっくりした思い出があります。

Content image

どこの会社のどんな翻訳サイトだったのか全く憶えていませんが、ともかくちょっと試してみようと思って、適当に英文のサイトを訳させてみたんですね。

それがたまたまハリウッド映画を紹介したサイトだったんですが、その中の肝心の一語のひどい訳を見て、ほんとに、心の底からげっそりしてしまいました。

その一語とは Spider-Man。──映画のタイトルになっている合成語を、その翻訳サイトはこう訳した のです:

クモ男性

クモ男性はないでしょう! いや、クモ男だったら何の問題もなかったんです(蜘蛛男と書いたほうが、もっと感じが出たでしょうが)。

え? なんでクモ男ならおかしくなくて、クモ男性だとおかしいのかって?

蜘蛛(くも)という“やまとことば”には男(おとこ)という“やまとことば”を接続するとしっくり来るのです。クモ男性という、やまとことば+漢語という組合せは如何にも相性が悪いのです。

それにクモ男のほうには、狼男、雪男、ねずみ男みたいな同種の前例がたくさんあります。雪女、口裂け女みたいな女バージョンもあります。

それに対して○○男性という組合せはあまり見ません。ま、独身男性みたいな組合せはありますが、それは男性を形容する単語が前についているだけの当たり前の組合せで、狼男やねずみ男みたいに、前半に動物の名前や、外見を表す言葉がついた○○男性はほとんどありません。

それにここでのポイントは、蜘蛛と人間の合体であるということなのであって、男性か女性かということはあまり大事ではないのです。だから、せめて「クモ人間」だったら少し違和感も削がれたことでしょう。

透明人間なんてのもあるわけだし、クモ人間だったら許せたかもしれません。

「人間」にせずに、やまとことばの「人(ひと)」を持ってくるという手もありますが、「人(ひと)」にはニュアンスが豊富にありすぎて、蜘蛛と人間の合体という感じが出ないんですよね。

それに「クモひと」では語呂が悪いし、「クモ人」と書いてあったら誰でも「クモジン」と読んで、クモって地名かな?と思ってしまいますし。

じゃあ、クモ少年は?

うむ、クモ少年だとそんなに抵抗がない。何故かと考えると、少年を表すやまとことばが、現代語にはないんですよね。

「男の子」などという、2つの名詞の間を格助詞でゆるく結んだ組合せはありますが、「クモ男の子」にしてしまうと、誰が読んでも「クモ男のご子息」という意味に取るでしょう。

んで、話は元に戻りますが、上でいろいろ挙げた例の中では、結合の相性からして、クモ男性だけはありえないんですよね。

じゃあ、Spider-Man の一番良い日本語訳は何か?──言うまでもなく「スパイダーマン」です。だって、アメコミやハリウッド映画のタイトルでありヒーローなんですから。

もし、あの時の翻訳ソフトがそのことを知っていたら間違いなく「スパイダーマン」と訳したはずです。でも、その情報が入ってなかった。つまり、有り体に言うと、AI に対する情報の食わせ方が足りなかったんです。そこが一番の問題です。

でも、私が一番ダメだと思ったのはそこではありません。仮にそれがヒーローの名前だと知らなかったとしても、その訳として一番バランスの悪い「クモ男性」を持ってきたところに、ほんとにダメだなあと絶望したのでした。

それも同じように日本語の特性を AI に食わせ足りていなかったというだけのことだ、との見方もできますが、でも、やっぱりコンピュータよ、お前はまだ人間より馬鹿だよな、と思ってしまうのです。

それはこんな風に文章をパソコンで打っているときにもしょっちゅう思うことです。そう、日本語の漢字変換をしてくれる、所謂 IME ってやつですね。これがいつまで経っても馬鹿です。

例えば今「ぱそこんでうっている」とキーを叩いたら、最初は「パソコンで売っている」と変換されてしまいました。

人間ならそういう間違いはしません。パソコンで字は書けても物は売れませんから。「パソコンを」と来れば「売っている」で良いのですが、「パソコンで」(正確には「パソコンのキーボードで」ですが)であれば「打っている」とすぐに出てきてほしいのです。

私の最新の変換履歴が「売った」だったから、この人はいつも「売った」を使うんだろうなんて浅はかなことは考えてほしくないんです。

「よくみたら」であれば「よく見たら」でしょうが、「かんがえてみたら」であれば「考えて見たら」ではなくて「考えてみたら」だと瞬時に判断してほしいのです。

「おこられた」であれば間違いなく「怒られた」であって、受動態になるはずのない自動詞「起こる」を活用させて「起こられた」なんて変な日本語にはしてほしくないのです。

(関係ないけど、こんな記事 ↓ も書いています)

その後、機械学習とか深層学習とか言うやつが進んで、自動翻訳のほうは随分マシになってきました。でも、日本語変換の IME はいつになったらもうちょっと賢くなるのでしょうか?

 

Supporter profile icon
Article tip 1人がサポートしています
獲得ALIS: Article like 15.90 ALIS Article tip 0.60 ALIS
yamaeigh's icon'
  • yamaeigh
  • @yamaeigh
放送局で働いていました。今はただの爺です。

投稿者の人気記事
コメントする
コメントする
こちらもおすすめ!
Eye catch
他カテゴリ

テレビ番組で登録商標が「言えない」のか考察してみる

Like token Tip token
26.20 ALIS
Eye catch
他カテゴリ

警察官が一人で戦ったらどのくらいの強さなの?『柔道編』 【元警察官が本音で回答】

Like token Tip token
114.82 ALIS
Eye catch
トラベル

わら人形を釘で打ち呪う 丑の刻参りは今も存在するのか? 京都最恐の貴船神社奥宮を調べた

Like token Tip token
486.35 ALIS
Eye catch
グルメ

バターをつくってみた

Like token Tip token
127.90 ALIS
Eye catch
クリプト

Bitcoinの価値の源泉は、PoWによる電気代ではなくて"競争原理"だった。

Like token Tip token
159.32 ALIS
Eye catch
他カテゴリ

警察官が一人で戦ったらどのくらいの強さなの?『柔道編』 【元警察官が本音で回答】

Like token Tip token
114.82 ALIS
Eye catch
ビジネス

海外企業と契約するフリーランス広報になった経緯をセルフインタビューで明かす!

Like token Tip token
16.10 ALIS
Eye catch
クリプト

17万円のPCでTwitterやってるのはもったいないのでETHマイニングを始めた話

Like token Tip token
46.60 ALIS
Eye catch
他カテゴリ

京都のきーひん、神戸のこーへん

Like token Tip token
12.10 ALIS
Eye catch
クリプト

Bitcoin史 〜0.00076ドルから6万ドルへの歩み〜

Like token Tip token
947.13 ALIS
Eye catch
他カテゴリ

オランダ人が語る大麻大国のオランダ

Like token Tip token
46.20 ALIS
Eye catch
トラベル

無料案内所という職業

Like token Tip token
84.20 ALIS