英語研究室<<

コーパス活用法(1)

　最近では、インターネットのおかげで電子化された法令や契約書のファイルを簡単に手に入れることができるようになりました。Googleなどの検索策機能を使えば、必要とする文例を見つけることができます。ただ、探し当てたファイルをダウンロードしても、十分に活用する方法を知らないことが多いようです。
　そこで、このようなファイルを蓄積したものをコーパス（電子化された大規模な言語資料）と考え、翻訳の際にどのように活用すれば良いか、便利なソフトウエアの紹介も交えて解説してみたいと思います。

　「翻訳メモリ」より「コーパス」

　翻訳のためのデータベースと言えば、すぐに「翻訳メモリ」と答える翻訳者が多いと思います。確かに繰り返しの多い比較的単純な構造の文章の場合は有効ですが、契約書などのリーガル文書は複雑な上、翻訳単位（通常はセンテンス）で登録されたデータベースでは検索してもマッチすることはほとんどありません。
　リーガル翻訳に役立つ翻訳データベースを考えると、英文だけを集めたコーパスあるいは、原文と訳文を交互に記入した文書を蓄積したコーパスをうまく検索して参照できるようにした方が効果的です。

　データの収集

　言語学で用いられるコーパスは、世界初の電子コーパスで100万語収録のBrown Corpusをはじめとして、3億数千万の語数を有するThe Bank of Englishなど数多くあります。ただ、ここでは言語学的に厳密な分析をするのではなく、リーガル翻訳に役立てることが目的ですから、コーパスを「系統的に集められた機械可読テキスト形式データの集積」と限定して、法令や契約書のテンプレートなどを収集することにします。
　まず、これまでに翻訳した文書など手持ちのファイルがあれば分類して保存します。適当なドライブに「corpus」などという名前でフォルダを作成し、その中にさらにカテゴリ別のフォルダを作ってファイルを整理して行きます。これだけでは少なすぎますので、あとはWEBサイトからダウンロードして集めてみましょう。

　ダウンロードの方法

　法令や契約書のテンプレートをダウンロード出来るWEBサイトはたくさんあります。Googleなど使って検索してください。有料のサービスもありますが、最初は無料でダウンロードできるもので試すと良いでしょう。
　例えば、「"Uniform Commercial Code"」と検索窓に入力して検索してみます。Googleの場合、句で検索するときはこのようにクオーテーション・マークを付けます。
検索結果の中の一番目に表示された「www.law.cornell.edu/ucc/ucc.table.html」を開くと、Article レベルの目次になっているので、さらに「Article 1.」をクリックするとPARTおよびセクションレベルの目次が表示されました（図1）。
「Section 1-101」のリンクをクリックすると、「PART 1.」の本文が表示されるので、[ファイル]→[名前を付けて保存]で「ファイルの種類」を「Webページ、HTMLのみ」にして保存します。

（図1）

　ダウンロード・ツールの利用

　通常はこのようにファイルを一つ一つ保存して行きますが、数が多いと時間のかかる面倒な作業となります。そこで、ダウンロードするサイトの構造を一通り調べたらダウンロード・ツールを使って一気に自動的にダウンロードしてしまいましょう。
　GetHTMLW (YutakaEndo氏 http://www.vector.co.jp/soft/dl/win95/net/se077067.html）はホームページをまるごと Get して、オフラインで閲覧するフリーソフトです。

　ここでUniform Commercial Codeのページを例にして、使用法を簡単に説明します。

(1) GetHTMLWを起動して、[取得]→[WebPage取得]をクリックします。（図2）

（図2）

(2) 「取得するURLを入力します」画面が表示されたら、先ほどのhttp://www.law.cornell.edu/ucc/ucc.table.htmlを入力して[条件設定後実行]をクリックします。（図3）

（図3）

(3) WebPage取得条件設定では、取得する階層だけ変更します。この場合、入力したURLが「Uniform Commercial Code」の目次ページで、本文のページはそれから2度リンクをたどったところにあったので、2階層下にあると考えて、[3]階層まで取得にして[OK]ボタンをクリックします。（図4）

（図4）

(4) 取得状況ダイアログが表示されて、ファイルが次々とダウンロードされて行きます。（図5）

（図5）

(5) 取得が完了すると、元のディレクトリ構造を保ったままローカル・ディスクに保存されました。（図6）

（図6）

　HTMLファイルをテキストファイルに変換

ダウンロードしたHTMLファイルにはタグが付いているので検索の際にじゃまになることがあります。WEBブラウザで表示しておいてテキスト形式で保存すればタグをはずすことができますが、ファイル数が多くなると手間がかかります。そこで、HTMLのタグ削除ツールを活用します。
　「HtoX32」（T-Matsuo氏　入手先　http://win32lab.com/fsw/htox.html）はフリーのタグ削除ソフトです。ドラッグ＆ドロップするだけでHTMLタグを削除できます。また、EUC、JIS、SJIS、Unicode、UTF-8といった文字コードを自動判別してSJISに変換して出力してくれます。（図7）

（図7）

　ドラッグ＆ドロップするまえに、[オプション]→[設定]で保存フォルダ先を任意のものに変更しておくと良いでしょう。[参照]をクリックしてフォルダを選択します。（図8）

（図8）

　ダウンロードできるファイルには、HTMLの他にMS-WordやPDFファイルなどがあります。
corpus用のファイルは原則としてテキスト形式にするので、Wordの場合は[ファイル]→[名前を付けて保存]で「ファイルの種類」を「テキストのみ」にして保存します。
　PDFの場合はテキストで保存できないので、画面上で文字をコピーしてWordやテキスト・エディタなどに貼り付けた上で保存します。その際、[表示]→[連続]にチェックを入れておかないと文書全体を[すべて選択]することができないので注意が必要です。（2005年11月）