田川レコードコンサート・タイトルの背景
田川レコードコンサート

ホームへ

コンサートは どなたも参加できます

自動翻訳を助けるページの使い方画像やPDFからのOCRに

「自動翻訳を助けるページ」は、
翻訳原文が、「文章の途中で、改行されているために誤訳が生じる」場合に、 改行記号をを半角空白に変換し、htmlテキストとして表示します。 その後、ブラウザの「日本語に翻訳」などをご利用ください。 より正確な翻訳に近づくことが出来ます。

このページは「国際モーツァルティウム財団」のWebページ、「モーツァルトの手紙と資料 オンライン版」を読むことを念頭に作られていますが、他にも画像やPDFからのOCRによって「余分な改行コードが原因で誤訳が生じる」場合などに有効です。

1. 使い方

改行コードで誤訳

本文の例・リンク 例に挙げたページでは、ページ右に手書きの手紙本文、ページ左にドイツ語のテキストが示されていますが、ドイツ語テキスト部分は、手書き文字の行末ごとに、改行コード(見えない)があり、文章の終わりと見なされて、素直に自動翻訳できません。

当ページでやっていることは、「改行コード付きのテキスト文書を、html文書の中に流し込む」だけです。

html文書の中では、テキスト文書の改行コードは半角空白に変換され、結果、全文が繋がります。これによって、テキストの改行によって生じる誤訳を防ぐことが出来ます。

テキスト全文は、テキスト部分をクリックし、CTRL+A(全て選択)とし CTRL+C(コピー)とすることで、全文をコピーすることが出来ます。

HTMLで表示 ⇒ 翻訳

コピーした全文を「自動翻訳を助けるページ」のテキストエリアに入れ(テキストエリアをクリックした後、CTRL+V(貼り付け))、 「実行」ボタンを押すと、次のページでは、同文書がHTML文書として表示されます すなわち改行コードを半角空白に変換して「繋がった」全文が表示されます。

これを、ブラウザの機能で「日本語に翻訳」などを選んで、自動翻訳してください。より、正確な翻訳が得られると思います。

モーツァルトのページに限らず、改行が入ったために誤訳が生じると思われる場合はお試し下さい。

欠点もあります

行末の改行をなくすことで、全文が繋がって表示されます。

長文の場合、読みにくくなりますので、以下の「便利機能」を用意しています。

2. 便利機能

文章が長い場合は、どの訳文が原文のどのあたりのものか、わかりにくくなりますので、文章に影響を及ぼしそうにない所に((.)ドットの次など)<BR>などを使って、改行を加えてみて下さい。

手動で改行を加える

コピーで使います

上記画像のように、ページトップに<br> <pre> </pre>をコピーで使える機能を用意しました。「Copy」ボタンを押すと、クリップボードにコピーされます。CTRL+V 等で貼り付けてご利用下さい。
<br>は改行を加える、<pre>から</pre>までは改行を原文のまま表示します。詩歌の他、手紙最後の、署名や住所の文章に便利です。

.(ドット)があれば、自動で改行を入れる(危険性も)

上記の作業を自動化しました。全ての .(ドット)がある箇所を .<br> と置きかえます。 機能は以下の通りです。 原文ママ:原文の改行コードのまま表示 入れない:(デフォルト)原文の改行コードを半角空白に変えるだけで、全文が繋がって表示される 1つ入れる:.(ドット)の箇所を、 ".<br>"で改行して表示 2つ入れる:".<br><br>"と改行を2つ加える

ご注意・欠点もあります

この機能は、文中の ”Mr.” "St." などの場合も、".<br>"の改行が入ります。現時点では、翻訳に異常は見られませんが、ご留意下さい。

原文の言語(必要がある場合)

この機能は、「原文がドイツ語なのに、フランス語として翻訳される」などの場合に、原文の言語を明示的に示します。

ドイツ語の場合、次ページのhtmlのヘッダで、<html lang="de">などと挿入され、自動翻訳の言語選択がスムーズになります。

各国の言語コードは、ISO 639-1コード一覧(Wikipedia)の表のうち、639-1 で調べることが出来ます。

その他のチップ

モーツァルトの手紙の場合

「モーツァルトの手紙と資料」オンライン版 に固有のチップが幾つかあります。

  • 全文コピーしたテキストには、手紙の用紙が切り替わるごとに
    [S. 1] increment_line_height_2decrement_line_height_2
    などと、いう「文章に関係のない記号」が入っていますので、事前に削除することをお勧めします。
  • -----------------------や、***********************などの記号を入れて見通しをよくするのもお勧めです。
  • 特に、文章の後半部分が、何度も繰り返し表示されることがありますので(バグ?)、最後に*****************などの印を入れるのはお勧めです。