テクノロジー

機械翻訳雑考 その1

Hi2Jin's icon'
  • Hi2Jin
  • 2021/06/01 02:38

はじめに

2020年~2021年の今、機械学習のトピックの中心にいるのが「自然言語処理」だ。

その自然言語処理の中でも、特に多くの人の目に留まるのが、「機械翻訳」だろう。

実際、機械翻訳の質的向上は目覚ましい。Googleの無料の翻訳でも何となく意味が分かるようになってきているし、それ以上の精度だと噂の「DeepL」もある。中国語に限定すると、やはり中国で開発されているiFlytekの翻訳が使いやすいかもしれない。

とは言うものの、翻訳者の仕事を代替できるレベルにあるかというと、まったくそうではない。機械翻訳をした原稿をプロの翻訳者が修正をする作業のことをポストエディットと言い、機械翻訳の略語MTと合わせてMTPEと呼んだりする。

それではこのMTPE、完全にゼロから人が翻訳する(こちらはHuman Translationの頭文字をとってHTと呼ぶ)場合と比べて、コスト削減につながるかと言うと、なかなか難しいのが実態だ。おそらく一番精度が高いであろう英語の場合でも、10%~20%削減がよくあるレベル、30%以上だとほとんどやってくれる翻訳者はいない。

ここで「はて」と思う方もいるかもしれない。冒頭でも述べたとおり、機械翻訳の精度は上がっている。それは、翻訳者である私の目から見ても明らかだ。では、それならなぜ、その「高精度」なはずの機械翻訳を修正する作業がそれほど大変なのだろうか。これはもっともな疑問だろう。

この「機械翻訳雑考」では、翻訳者と翻訳者以外の人の機械翻訳に対する考えのズレや、ポストエディットの現状と課題、そしてそれを克服するための個人的な取り組みについて書いていきたい。

機械翻訳の精度とは

機械翻訳の質が、特に大きく上がったとされるのは、「ニューラルネットワーク」という機械学習手法がとられてからだろう。この手法による機械翻訳は「Neural Machine Translation」、略してNMTと呼ばれる。ちなみに、これ以前の機械翻訳はルールベース機械翻訳(RMT)や統計ベース機械翻訳(SMT)と呼ばれている。

さて、NMTの導入から機械翻訳の精度が上がったと言われるが、細かく見るのであれば「精度」という言葉は、実はふさわしくない。機械翻訳の評価は「正確性(Adequacy)」と「流暢性(Fluency)」を分けて考える必要がある。前者は「間違いがないこと」を評価するものであり、後者は「読みやすさ」を評価するものだ。

例えばこんな文を翻訳することを考えてみてほしい。

He is one of my best friends.

これを機械翻訳エンジンA/Bが次のように訳したとする

A:彼は私の最高の友達のうちの一人です

B:あいつは俺の親友だ

さて、このAとBの翻訳は、どちらが精度が高いだろうか。Aの翻訳は一言一句訳している。まるで教科書のようだ。これを「正しいからいい翻訳だ」と評すか、それとも「直訳過ぎて読みづらい、日本語らしさがない」と評するか。意見が分かれるだろう。これは正確性が高く、流暢性が低い例だ。

一方でBはとても自然な日本語になっている。小説や漫画のセリフであってもおかしくない。けれども話者が「俺」であるかなど、一部断定しすぎている嫌いがある。また”one of”など、日本語に現れづらいところはシレっとすっ飛ばすことも多々ある。これが反対に流暢性を意識した例で、NMTは主にこのような訳をする。

NMT=なめらかに まちがう 翻訳

上の例くらいなら特に問題はないが、このように「情報を飛ばしながら」「読みやすい日本語」を出してくる機械翻訳は、一見して誤訳が発見しにくいため、ポストエディットにかなり神経をすり減らすこともある。

ある大学が実施した研究によると、熟練していない翻訳者(または学生)にポストエディットをさせた場合、NMTの誤訳を発見した確率が、以前の機械翻訳(SMT)を用いた場合と比べて低くなった、という。

このように修正作業が疲れるNMTに対する皮肉として、N=なめらかに M=まちがう T=翻訳 ということがある。

また、このような作業を「機械の尻ぬぐいを人間がやっている」だとか、「脳が腐る」「語感が破壊される」のように嫌がる翻訳者も多い。

つまるところ、多くの人が「かなり読めるようになった。大体の意味は分かる」と感じる機械翻訳が、翻訳者にとっては「それなりに読めるくせに、肝心なところを間違っている」と思えてしまう。こうしたギャップが存在するのが、今の翻訳業界と機械翻訳であろう。

それならどうするか

このようなギャップが生じるのは、実のところ無理からぬことだろうと思う。機械翻訳の需要者の多くは、「他の言語が読めない/読めるけど時間がかかる」人であり、そのニーズは翻訳者が業務に使用するよりもずっと多い。そのため、通常の機械翻訳エンジンはこうしたニーズに応えるようにできていく。

翻訳業務向けに作られたものでは「ない」ものを、翻訳業務に使いにくいと言ったところで仕方がない。とはいえ今、ビッグデータを多く有する巨大企業よりも素晴らしい、翻訳業務向けの機械翻訳エンジンを構築するというのも現実味がない。

というわけで、個人的に考えているのが

① 機械翻訳は「省入力装置」だと割り切る

② 機械翻訳の「怪しさ(正確性が低い可能性)」を可視化する

③ 機械翻訳の実施前に行うプレエディットを、機械向けにする

④ 人間によるポストエディットの前に、もう一度言語処理を実施する

などだ。1から順にハードルが上がっていくが、少しずつでも自分、ひいては業界の作業環境を整えていきたいと考えている。

Supporter profile iconSupporter profile iconSupporter profile iconSupporter profile iconSupporter profile icon
Article tip 5人がサポートしています
獲得ALIS: Article like 101.52 ALIS Article tip 27.60 ALIS
Hi2Jin's icon'
  • Hi2Jin
  • @Hi2Jin
中国語・日本語・英語の翻訳者で、機械学習エンジニア(半人前)。翻訳者の目線から、機械翻訳を使いやすくするべく、日夜ほどほどに奮闘中。
コメントする
コメントする
こちらもおすすめ!
Eye catch
クリプト

ジョークコインとして出発したDogecoin(ドージコイン)の誕生から現在まで。注目される非証券性🐶

Like token Tip token
38.31 ALIS
Eye catch
他カテゴリ

機械学習を体験してみよう!(難易度低)

Like token Tip token
124.82 ALIS
Eye catch
クリプト

Uniswap v3を完全に理解した

Like token Tip token
18.92 ALIS
Eye catch
クリプト

17万円のPCでTwitterやってるのはもったいないのでETHマイニングを始めた話

Like token Tip token
46.60 ALIS
Eye catch
クリプト

Bitcoin史 〜0.00076ドルから6万ドルへの歩み〜

Like token Tip token
947.13 ALIS
Eye catch
クリプト

Bitcoinの価値の源泉は、PoWによる電気代ではなくて"競争原理"だった。

Like token Tip token
159.32 ALIS
Eye catch
クリプト

約2年間ブロックチェ-ンゲームをして

Like token Tip token
61.20 ALIS
Eye catch
テクノロジー

オープンソースプロジェクトに参加して自己肯定感を高める

Like token Tip token
85.05 ALIS
Eye catch
ゲーム

ドラクエで学ぶオーバフロー

Like token Tip token
30.10 ALIS
Eye catch
テクノロジー

iOS15 配信開始!!

Like token Tip token
7.20 ALIS
Eye catch
クリプト

NFT解体新書・デジタルデータをNFTで販売するときのすべて【実証実験・共有レポート】

Like token Tip token
121.79 ALIS
Eye catch
テクノロジー

彼女でも分かるように解説:ディープフェイク

Like token Tip token
32.10 ALIS