カメヲラボ

主にプログラミングとお勉強全般について書いてます

翻訳ソフトを使ってみる(1)

少し使ってみた程度では満足できないので、もうちょっと突っ込んで翻訳性能を検証してみたいと思います。The翻訳〜の方も購入して比較するつもりですが、しばらくはコリャ英和〜のみでの調査になります。

コリャ英和!一発翻訳 2009の英和翻訳精度(0)

私が購入したのは

ですが、違いは辞書の単語数だけみたいなので
コリャ英和!一発翻訳 2009 for Win

コリャ英和!一発翻訳 2009 for Win

の方が値段も半分くらいなのでこちらで十分かもしれません。

さて、しばらくは英和の翻訳性能を検証したいと思います。私はLogoVista社の営業ではありませんので、基本的にこのソフトの悪い部分を晒します。もちろんそれだけだと単なるいじめなので、問題の改善方法を探ります。形式としては「翻訳がうまくいかない例文」を中心に取り上げて、精度を上げるための方法を探ってみたいと思います。

あと、書きながら思ったのですが、翻訳がうまくいかないような微妙な文章ってそのまま大学受験の勉強に使えるんで無いのかなーと思うので、高校英語を勉強している学生に良い内容かもしれません。

  • S+V(使役動詞)+O+原形不定詞とS+V(have,get)+O+過去分詞…???いや、文脈判定だ

以下の英文

I had my picture taken. ---(1)

これを日本語に訳すと

私は写真を撮ってもらいました。

となります。文法をよく知らなくてもなんとなく訳せると思います。しかしこの文章を翻訳にかけると、以下のような日本語が出力されます。

私は撮られた私の写真を持っていました。

なんだか英語が苦手な中学生が日本語訳したような文章です。

次に、英文を以下のように書き換えます。

I had my picture be taken. ---(2)

このように、"taken"を"be taken"にすると、日本語訳は

私は私の写真が撮られるようにしました。

となります。

さらに次のような英文

I had my photograph taken. ---(3)

(1)の文章の"picture"を"photograph"に変えただけですが、これを翻訳すると

私は私の写真が撮られるようにしました。

のように(2)の日本語訳と全く同じになります。

翻訳ソフトの中で英文法が定義されているとすれば、(1)と(3)で訳が違うのはおかしいと思うので、例文データベース的なものが入っているのでしょうか。しかし文法がいい加減なのかというと、(1)と(2)を比較すればある程度の文法は理解しているように見えます。

(2)はSVO+原形不定詞という形を明示的に示した文章で、(1)の文章を

I had my picture that was taken. ---(4)

と"that was"が省略されたものと解釈すれば(形式的には)間違いではありませんから、高校1年生くらいの文法知識はあるのではないでしょうか。(もちろん(4)を翻訳すれば、(2)と全く同じ日本語になります)

しかし、第5文型についてある程度勉強したことのある人は知っていると思いますが、S+V+O+過去分詞で、動詞(V)が"hava","get"の場合、

(A)…させる、…してもらう
(B)…される

という意味になります。

これくらい知ってにゃイカンよ(`ω´)…と一瞬思ったのですが、さすがにプロが作ったソフトでこんなことを知らないはずが無いと思いいくつも英文を入力してみました。

I had my house's roof painted. ---(5)
She had her hair cut. ---(6)
He had his camera broken. ---(7)
I had my personal computer stolen. ---(8)
I had my picture painted. ---(9)
I had my picture stolen. ---(10)

まとめて翻訳すると

私は私の家の屋根がペイントされるようにしました。
彼女は彼女の髪を刈ってもらいました。
彼は彼のカメラを壊れているようにしました。
私は私のパーソナル・コンピュータを盗まれました。
私は描かれた私の絵を持っていました。
私は私の写真を盗まれました。

これでなんとなくわかった気がします。基本的に、S+(have|get)+O+過去分詞の構造は理解しているようですが、pictureが特別扱い…というより、微妙な感じの文脈判定されているみたいです。

この辺を見ると、開発者の悩むポイントが少し見える気がしますね。"picture"と"photograph"では、"picture"が(日本語として)色々な言葉に訳せるのに対して"photograph"は写真という日本語訳しかないので文脈判定しやすいから、マシな訳になったのでしょう。(6)(8)(10)なんかはうまく訳せています。"steal"(盗む)もわかりやすい動詞なので、文脈判定しやすいみたいです。

文脈判定で難しそうな問題のもう1つは、単語が省略されている場合でしょうね。要するに(1)と(4)みたいな関係です。これを意識しすぎるとおかしな翻訳をしてしまうので、バランスを取るのが難しそうです。ということは、分詞構文関係は結構苦労したんではないでしょうか。今度は分詞構文中心に調べてみましょうかね。



PS. もしかして翻訳ソフトの開発者はコードなんて1行も書いてなくて、毎日毎日チューニングしてるのでは^^;