英語研究室<<

私家版辞書の簡単作成法 その2

辞書は、翻訳ソフトなどで訳文作成に直接利用するユーザ辞書と、意味や用法を調べるための参照用辞書の二つに大別されます。今回は、PC-Transer翻訳、Word、Excelを使って、翻訳ソフト用のユーザ辞書を素早く作る方法を試してみましょう。翻訳ソフトを利用する上で最も重要なのがユーザ辞書の構築ですが、電子データの原文なら、全ての単語を事前にチェックすることで、その文書に特化したユーザ辞書を作成できます。

頻度リストの作成

 原文を単語に分解するのは簡単ですが、連語をある程度自動的に抽出するにはそれなりのツールが必要です。この点でPC-Transerの「頻度リスト出力」機能は大変役に立ちます。
 ある文字列の中で、N個の文字列または単語の組み合わせが、どの程度出現するかを調べる際に用いられるのがN-gramモデルと言われるものです(Nには文字の数が入りますが、英語の場合は単語の数になります)。例えば、2-gramの場合は以下のように隣同士の2単語を順番に切り出してその頻度を計算します。

<原文> On his bench in Madison Square Soapy moved uneasily.

{On his}{his bench}{bench in}{in Madison}{Madison Square}{Square Soapy}{Soapy moved}{moved uneasily}

 頻度リストを出力する際にはパラメータを設定する必要があります。今回は、単語最小数「2」、単語最大数「5」、頻度最小数「2」にしてみます。つまり、2-gram〜5-gramで2回以上出現したものをリストに出力することになります。また、機能語など、辞書登録にはあまり必要のない単語を除くために「ストップ・ワード・ファイルを使う」にチェックを入れます(図1)

[図1] 頻度リスト出力のパラメータ設定

専門語辞書自動選択

 辞書の訳語をできるだけ適切なものにするために専門辞書を利用します。どの辞書を選んだらよいか迷ったら、「専門語辞書自動選択」機能を使いましょう。原文を読み込んだ状態で、「翻訳辞書」→「専門語辞書自動選択」をクリックします。設定はそのままで「解析」ボタンをクリックします。結果が表示されたらそのまま辞書を設定します(図2)

[図2] 専門語辞書自動選択

頻度リストの編集

 頻度リストはタブ区切りのファイルになっているので、Excelで開くと単語、頻度、文番号が適切に3つの列に分けられます(図3)。今は頻度順に並んでいるので、「データ」→「並べ替え」でアルファベット順に並び替えます。次に、「編集」「シートの移動またはコピー」でこのシートをコピーしておいて、頻度および文番号の列を削除します。

[図3] 頻度リストをExcelで開く

 編集が済んだら、語句を全て選択してWordに貼り付けます。「編集」→「形式を選択して貼り付け」で貼り付ける形式を「テキスト」にしないと、無駄な枠まで貼り付いてしまうので注意してください(図4)

[図4] Wordの「形式を選択して貼り付け」

 このままでPC-Transerにコピーするとせっかく分けた語句がつながってしまうので1行空きにします。「編集」→「置換」をクリックして「検索と置換」ウインドウを表示したら、左下の[オプション]ボタンをクリックして検索オプションのエリアを表示します。ここで右側の[あいまい検索(日)]のチェックをはずすと、下の方にある[特殊文字(E)▼]のボタンが使えるようになります。一度「検索する文字列」をクリックしてから[特殊文字(E)▼]ボタンをクリックします。メニューが表示されるので「段落記号(P)」をクリックします。検索する文字列のテキストボックスに「^p」と入力されたはずです。同じように置換語の文字列のテキストボックスに「^p^p」と入力します。つまり、1つの段落記号(=改行記号)を検索して、2つの段落記号に置換せよということになり、1行挿入されるということになります(図5)

[図5] Wordの「検索と置換」で空行追加

PC-Transerで翻訳

 Wordで編集した語句を全て選択してPC-Transerの対訳エディタに貼り付けます。
専門辞書はすでに設定してあるので、「ツール」→「設定」で「翻訳」の設定を確認します。
 「訳出方法」では「大文字を小文字にして訳す」「命令文を平叙文として訳す」にチェックを入れます。「ですます調で訳す」のチェックは外しておきます。「訳文生成方法」は「機械翻訳」だけチェックを入れます(図6)

[図6] 「翻訳」設定

 準備が出来たら全文を翻訳します。あっというまに訳語が出力されますが、実はここからがちょっと大変です。登録すべき語句と訳語を一つずつ確認していきます。やはり、この作業は人間がしなければなりません。その際に、英単語の後ろに、以下のような記号を入れて品詞情報を付加して行きます。辞書と同じような記号なので簡単です(図7)

名詞=(n):、動詞=(v):、形容詞=(a):、副詞=(ad):、前置詞=(prep):、従属接続詞=(conj):

[図7] 訳語のチェックと品詞コード付加

 訳語がおかしいと言う場合は、Excelファイルで文番号を調べて、原文に当たりましょう。
チェックが終わったら、すべて選択してコピーし、Wordを開いて貼り付けます。

ユーザ辞書の設定

 今度はWordに貼り付けた見出しと訳語を1行にします。検索置換で、「):^p」を「):」にするだけです(図8)

[図8] Wordの「検索と置換」で一行形式に

 編集が済んだらテキスト形式で保存します。拡張子をPC-Transerのユーザ辞書ソース形式の「.opt」にしておきましょう。このソースファイルを「一括登録」機能を使ってPC-Transerの辞書形式に変換してから使用辞書に設定するという流れになります。

 PC-Transerの「翻訳辞書」→「一括登録」でファイルを指定して実行します(図9)

[図9] ユーザ辞書の「一括登録」

 一括登録が済んだら、「ツール」→「設定」で「辞書」設定画面を開き、「ファイル」ボタンをクリックして作成した辞書を開き、開いた辞書を選択して「追加」をクリックすると「使用中の辞書」に表示されます。最後に「OK」ボタンをクリックすれば完了です(図10)

[図10] ユーザ辞書の設定

2006年12月


Copyright@2006 Seiichi Komuro All Rights Resered.