検索早わかり


検索の手順
  1. 「検索対象とするファイル」からテキストを選びます。
  2. 英語から日本語を検索する場合は「大文字・小文字を区別するか、しないか」を指定します。日本語から英語を検索する場合は、この項目の指定は無視されます。
  3. 「検索する表現」に検索したい単語や語句を書き入れます。日本語を入力すれば、日本語から英語を、英語を入力すれば、英語から日本語を検索します。
  4. 検索結果を1ページに10件ずつ出力するか、検索結果すべてを一度に表示するかを「結果の表示」で指定します。
  5. Search ボタンを押すと検索を開始します。
正規表現の利用
検索文字列には正規表現を指定することができます。たとえば、give, gives, gave, given, givingをすべて一度に検索する場合は give | gives | gave | given | giving と指定します。(ただし、give を検索すると gives も対象にしますから、gives は実際には検索文字列に指定する必要はありません)

データ
これはパラレルコーパスのデモンストレーションです。日本語と英語のパラレルコーパス検索のために作成したものですが、日英語に限らず、対応のあるデータであれば、どのような目的にも使うことができます。パラレルコーパスのデモ版として、このページにデータとして用意しているものは次の4つです。
  1. 日本国憲法
  2. 教育基本法
  3. 『モルグ街の殺人事件』(Edgar Alan Poe, The Murders on the Rue Morgue)
  4. 学習者音声コーパス 「契約書(共通条項)」に変更(クマぞー)
「日本国憲法」「教育基本法」の英語版はインターネット上に流通しているものです。英語版として公式に認知されているかどうかは不明です。「モルグ街の殺人事件」の英語原文は Project Gutenberg に公開されているテキスト、日本語の翻訳は「青空文庫」に公開されている佐々木直次郎訳を使用しました。「学習者音声コーパス」は英語テキストから単語や表現を検索し、その該当個所を音声で聞くデモンストレーションです。
仕様の制限
日本語、英語のパラレルコーパスではデータは日英語、どちらか一方で最短で意味が対応する「最短一致」の原則により対応させてあります。スクリプトはレコードに検索対象となる文字列が現れるかどうかを調べています。同じレコードに検索文字列が繰り返し、複数現れる場合、表示は繰り返し行っていません。このため、「検索ヒット数」に表示される数字が必ずしも、その検索文字列の出現回数であるとは限りません。しかし、検索文字列は表示されたテキストにはすべて現れていますので、表示されたテキストから出現頻度を数えることは可能です。

検索ページに戻る


Last Updated 21 June 2005

★この使い方のページはオリジナルをクマぞーが少し変更しています。(取り消し線の部分)