コーパス(Corpus)
公開日 2025/02/28

コーパス(Corpus)とは、AIが言葉を学ぶために使う、大量の文章データの集まりのことです。
たとえば、AIが「日本語の文章を理解できるようになる」ためには、たくさんの日本語の文章を読んで学習する必要があります。そのために使われるのがコーパス(言語データの集合)です。
コーパスの例
新聞記事のコーパス → AIがニュース記事を学習して、ニュースを書く能力を身につける
Wikipediaのコーパス → AIが百科事典の文章を学習し、幅広い知識を得る
会話のコーパス → AIが人間の会話データを学習し、チャットボットとして会話できるようになる
コーパスがAIにとって重要な理由
① AIの知識のもとになる
コーパスに含まれる情報がAIの「知識」になるため、どんなコーパスを使うかでAIの得意分野が決まる。
② AIの言葉の使い方が決まる
AIは「どんな文章を学んだか」によって、話し方や語彙が変わる。
例えば、SNSのコーパスを学ぶとカジュアルな会話が得意になり、法律文書のコーパスを学ぶとフォーマルな文章が得意になる。
③ AIの精度を左右する
AIが質の高いコーパスを学習すると、より正確で自然な文章を作れる。
逆に、誤った情報や偏ったデータを学ぶと、間違った回答や偏った考え方になってしまう(バイアスの問題)。