平成23年 秋期 応用情報技術者 午前 問27

自然言語の解析などのために、文学作品、会話、新聞記事などの大量の文章を蓄積したテキストデータベースはどれか。
なお、生の文章そのものを収集したもの、文法的情報を付加したもの、意味的情報を付加したものなど様々な形態がある。

 ア  アーカイブズ  イ  コーパス
 ウ  シソーラス  エ  ハイパテキスト


答え イ


解説

 ア  アーカイブズ(archives)は、公文書などの公的記録を保管する場所です。
 イ  コーパスは、大量の文章を蓄積したテキストデータベースです。
 ウ  シソーラス(thesaurus)は、上下関係や同義関係、類義関係などによって分類した辞書です。
 エ  ハイパテキスト(hypertext)は、複数の文書を相互に関連付ける仕組みです。


キーワード
・コーパス

キーワードの解説
  • コーパス(corpus)
    言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したデータベースです。
    コンピュータでの言語処理の研究などに使用されますが、蓄積する文章の著作権の問題があるため、構築には時間と費用が発生します。

もっと、「コーパス」について調べてみよう。

戻る 一覧へ 次へ