形態素解析辞書について

はじめに

形態素解析の辞書は色々あるので、知識整理のために主要なものをまとめました。 ただのメモです。

juman辞書

  • 形態素解析システムjumanに含まれている辞書
  • システムと分離されているがjuman以外で使われてないので事実上juman専用

ipadic

  • Chansen用に開発
  • IPA品詞体系をベースに拡張された
  • 形容動詞を使っていない
    • 名詞の再分類として分類している -可能性に基づく品詞体系を採用
    • 局所的な情報で品詞を判断できない場合は併記する
  • 枯れた辞書

UniDic

  • 国立国語研究所で規定された短単位と呼ばれるゆれのない斉一な単位で設計
    • 現代語で意味をもつ最小単位=短単位を認定後、最小単位を分節境界の範囲内で短単位認定規則に従って結合
    • UniDicでは最小単位の認定と結合規則が厳密に定義されているため個人によって捉え方に幅のある単語単位基準の標準化がなされている
      • 一方で最小単位定義と短単位認定規定の語認定規則は人の直感と反することがある
  • 見出し語に、語彙素、語形、辞書形、発音形といった改装構造をもたせる
    • 表記ゆれの差異を吸収できる
  • 語源主義に基づく脱文脈化
    • 表記の違いに関わらず、辞書の見出し語として同一であれば同一の語彙として区別しない
    • 文脈に即した意味まで扱わない
  • 音声認識音声合成に有益な韻律情報が豊富である一方、短単位の影響から単語の読み曖昧性を抱える
    • 筑波山(つくばさん)」「吉田山(よしだやま)」どちらになるかはケース次第

NEologd

  • Unidicの拡張機能
  • あまり更新されていないUnidicにweb上の言語資源から得た固有名詞を約300万語採録した
  • 文を形態素単位ではなく固有名詞や複合名詞を長単位として認定して読みを正確に付与することができる
  • 固有名詞の認定が精度に影響するようなタスクで効果が期待できる
    • 文書分類には適切
    • 情報検索では検索もれをおこすことも