日本語形態素解析システム JUMAN 6.0

 本システムは, 計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました。その際, 学校文法が計算機向きではないという問題を考慮し, 使用者によって文法の定義, 単語間の接続関係の定義などを容易に変更できるように配慮しました。

新バージョン6.0の拡張点の概要は以下の通りです.

  1. 「人」「動物」「植物」「人工物」「抽象物」などの意味カテゴリ22種を名詞の意味情報として付与した.
  2. 「文化・芸術」「スポーツ」「健康・医学」「科学・技術」などのドメイン12種を主に名詞の意味情報として付与した.
  3. 固有名詞辞書の語彙をいくつかの基準で約8000語規模に限定し,種々の意味情報を整理・付与した.
  4. 尊敬・謙譲,自他,授受,反義,派生など,見出し語間の意味関係を整理し,約3万語の見出し語について網羅的に情報を付与した.
  5. 連濁、反復形オノマトペ,小文字による非標準表記について,辞書にその表記を登録するのではなく,プログラムによって動的に認識を行うようにした.
  6. 未知語の自動獲得(品詞,活用形の推定を含む)を行い,その結果から自動的に構築した辞書(約1万3千語)を試験版として同梱した(デフォルトでは使用されない).
  7. 意味情報の表記法を整理した.

例えば,以下のような解析結果が得られます.

% cat sample.txt
子どもはリンゴがすきだ
かぜでおくれた

% juman < sample.txt
子ども こども 子ども 名詞 6 普通名詞 1 * 0 * 0 "代表表記:子供/こども カテゴリ:人"
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
リンゴ りんご リンゴ 名詞 6 普通名詞 1 * 0 * 0 "代表表記:林檎/りんご カテゴリ:植物;人工物-食べ物 ドメイン:料理・食事"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
すきだ すきだ すきだ 形容詞 3 * 0 ナ形容詞 21 基本形 2 "代表表記:好きだ/すきだ 反義:形容詞:嫌いだ/きらいだ"
EOS
かぜ かぜ かぜ 名詞 6 普通名詞 1 * 0 * 0 "代表表記:風/かぜ 漢字読み:訓 カテゴリ:抽象物"
@ かぜ かぜ かぜ 名詞 6 普通名詞 1 * 0 * 0 "代表表記:風邪/かぜ カテゴリ:抽象物 ドメイン:健康・医学"
で で で 助詞 9 格助詞 1 * 0 * 0 NIL
おくれた おくれた おくれる 動詞 2 * 0 母音動詞 1 タ形 10 "代表表記:送れる/おくれる 可能動詞:送る/おくる"
@ おくれた おくれた おくれる 動詞 2 * 0 母音動詞 1 タ形 10 "代表表記:遅れる/おくれる 付属動詞候補(基本) 自他動詞:他:遅らせる/おくらせる;他:遅らす/おくらす 反義:動詞:進む/すすむ 形容詞派生:遅い/おそい"
EOS



自然言語処理のためのリソース にもどる