NINJAL (2025)
『現代日本語書き言葉均衡コーパス』の拡張:2025年までの2億語コーパスへ
コーパスとは言語研究用に書き言葉・話し言葉を大量に収録した言葉のデータベースのことで、20世紀半ばから英米で構築が始まり、1990年代以降急速に普及した。コーパスの登場で、言語研究は統計的手法を用いた科学的な側面を発展させただけでなく、言語教育、言語情報処理、辞書編纂など幅広い応用を獲得した。
世界各国では、コーパスを国が主体となって整備するとともに、データを追加・更新している。日本においても、国内外における日本語研究・日本語教育の充実や科学技術に貢献する観点から、言語コーパスの整備及び、過去に整備したコーパスの拡充は必要である。


