検索早わかり
■ 検索の手順
- 「検索対象とするファイル」からテキストを選びます。
- 英語から日本語を検索する場合は「大文字・小文字を区別するか、しないか」を指定します。日本語から英語を検索する場合は、この項目の指定は無視されます。
- 「検索する表現」に検索したい単語や語句を書き入れます。日本語を入力すれば、日本語から英語を、英語を入力すれば、英語から日本語を検索します。
- 検索結果を1ページに10件ずつ出力するか、検索結果すべてを一度に表示するかを「結果の表示」で指定します。
- Search ボタンを押すと検索を開始します。
■ 正規表現の利用 検索文字列には正規表現を指定することができます。たとえば、give, gives, gave, given, givingをすべて一度に検索する場合は give | gives | gave | given | giving と指定します。(ただし、give を検索すると gives も対象にしますから、gives は実際には検索文字列に指定する必要はありません)
■ データ これはパラレルコーパスのデモンストレーションです。日本語と英語のパラレルコーパス検索のために作成したものですが、日英語に限らず、対応のあるデータであれば、どのような目的にも使うことができます。パラレルコーパスのデモ版として、このページにデータとして用意しているものは次の4つです。 「日本国憲法」「教育基本法」の英語版はインターネット上に流通しているものです。英語版として公式に認知されているかどうかは不明です。「モルグ街の殺人事件」の英語原文は Project Gutenberg に公開されているテキスト、日本語の翻訳は「青空文庫」に公開されている佐々木直次郎訳を使用しました。
- 日本国憲法
- 教育基本法
- 『モルグ街の殺人事件』(Edgar Alan Poe, The Murders on the Rue Morgue)
学習者音声コーパス「契約書(共通条項)」に変更(クマぞー)「学習者音声コーパス」は英語テキストから単語や表現を検索し、その該当個所を音声で聞くデモンストレーションです。■ 仕様の制限 日本語、英語のパラレルコーパスではデータは日英語、どちらか一方で最短で意味が対応する「最短一致」の原則により対応させてあります。スクリプトはレコードに検索対象となる文字列が現れるかどうかを調べています。同じレコードに検索文字列が繰り返し、複数現れる場合、表示は繰り返し行っていません。このため、「検索ヒット数」に表示される数字が必ずしも、その検索文字列の出現回数であるとは限りません。しかし、検索文字列は表示されたテキストにはすべて現れていますので、表示されたテキストから出現頻度を数えることは可能です。
Last Updated 21 June 2005
★この使い方のページはオリジナルをクマぞーが少し変更しています。(取り消し線の部分)