自然言語の解析などのために、文学作品、会話、新聞記事などの大量の文章を蓄積したテキストデータベースはどれか。
なお、生の文章そのものを収集したもの、文法的情報を付加したもの、意味的情報を付加したものなど様々な形態がある。
ア |
アーカイブズ |
|
イ |
コーパス |
ウ |
シソーラス |
|
エ |
ハイパテキスト |
答え イ
【解説】
ア |
アーカイブズ(archives)は、公文書などの公的記録を保管する場所です。 |
イ |
コーパスは、大量の文章を蓄積したテキストデータベースです。 |
ウ |
シソーラス(thesaurus)は、上下関係や同義関係、類義関係などによって分類した辞書です。 |
エ |
ハイパテキスト(hypertext)は、複数の文書を相互に関連付ける仕組みです。 |
【キーワード】
・コーパス
【キーワードの解説】
- コーパス(corpus)
言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したデータベースです。
コンピュータでの言語処理の研究などに使用されますが、蓄積する文章の著作権の問題があるため、構築には時間と費用が発生します。
もっと、「コーパス」について調べてみよう。
戻る
一覧へ
次へ
|