Pythonと日本語係り受け解析器であるCaboChaを用いて係る語と受ける語のペアを抽出する方法をご紹介する。

環境:Ubuntu14.04

Pythonツールのインストール

PythonからCaboChaを扱うために、CaboChaに付属しているPythonのsetup.pyをインストールする。
これはPython2系専用であることに注意する。
cabocha – Yet Another Japanese Dependency Structure Analyzer – Google Project Hostingからcabocha-0.68.tar.bz2をダウンロードして、解凍した後、「cabocha-0.68/python」ディレクトリに移動後、以下のコマンドを実行して、インストールする。


$ sudo python setup.py install

「/usr/local/lib/python2.7/dist-packages/」に配置される。

係り受け構造の抽出

係り受け構造を抽出するPythonソースコードは以下を参照して欲しい。


import CaboCha

def get_word(tree, chunk):
    surface = ''
    for i in range(chunk.token_pos, chunk.token_pos + chunk.token_size):
        token = tree.token(i)
        features = token.feature.split(',')
        if features[0] == '名詞':
            surface += token.surface
        elif features[0] == '形容詞':
            surface += features[6]
            break
        elif features[0] == '動詞':
            surface += features[6]
            break
    return surface

def get_2_words(line):
    cp = CaboCha.Parser('-f1')
    tree = cp.parse(line)
    chunk_dic = {}
    chunk_id = 0
    for i in range(0, tree.size()):
        token = tree.token(i)
        if token.chunk:
            chunk_dic[chunk_id] = token.chunk
            chunk_id += 1

    tuples = []
    for chunk_id, chunk in chunk_dic.items():
        if chunk.link > 0:
            from_surface =  get_word(tree, chunk)
            to_chunk = chunk_dic[chunk.link]
            to_surface = get_word(tree, to_chunk)
            tuples.append((from_surface, to_surface))
    return tuples

if __name__ == '__main__' :
    line = '太郎は花子が読んでいる本を次郎に渡した'
    tuples = get_2_words(line)
    for t in tuples:
        print(t[0] + ' => ' + t[1])

簡単に流れを説明すると、以下のようになる。

  • 文章をtokenに分割
  • chunkであるtokenをディクショナリ化{link, chunk}
  • ディクショナリから{link, chunk}を取り出す。
    • chunkの語の原形の名詞・形容詞・動詞を取得
    • chunk.linkに対応するchunkの語の原形の名詞・形容詞・動詞を取得(対応するlinkがない場合は、-1)
    • ペアとして抽出

Pythonを実行すると、以下のように出力される。


太郎 => 渡す
花子 => 読む
読む => 本
本 => 渡す
次郎 => 渡す

通常の構造は、以下になる。


$ cabocha
太郎は花子が読んでいる本を次郎に渡した
    太郎は---------D
      花子が-D     |
    読んでいる-D   |
            本を---D
            次郎に-D
              渡した
EOS

関連する記事

  • R 関数に時間制限を設ける方法 ある処理にとても時間が掛かるため、一定時間経過後はその処理を途中で打ち切りたいときがある。 例えば、for文で、あるループだけが重いため全体として時間が掛かってしまう場合、その処理を一旦スキップしてfor文の先に処理を進めたい、などである。 ここでは、そのひとつの解決策として、関数に時間制限を設けて、一定時間経過後はその関数を強制終了するコードをご紹介する。 ただし […]
  • これだけは抑えておきたい安全性分析の基本これだけは抑えておきたい安全性分析の基本 安全性分析とは、主に貸借対照表上の数値から支払能力を測定する分析である。企業が倒産する主な原因は資金不足によって起こるため、様々な観点から資金の状況を把握する必要がある。 ここでは、安全性分析の代表的な指標をいくつか紹介する。 流動比率 流動比率とは、1年以内に資金化できる流動資産と1年以内に返済しなければならない流動負債との比率から支払能力をみる指標である。 […]
  • Ubuntu Server 20.04上のOpalのインストール後に行う設定Ubuntu Server 20.04上のOpalのインストール後に行う設定 Opalのインストールが完了しても、ただちに使える状態にはなりません。 使える状態にするためには、データベースの登録およびR言語の設定が必要になります。 Opalは、データベースのバックエンドとして、MongoDBおよびMySQL、MariaDB、PostgreSQLをサポートしています。 ここでは、MariaDBを指定する方法をお伝えします。 環境の確認 今回の作 […]
  • RStudioのGlobal Optionsの各種設定RStudioのGlobal Optionsの各種設定 RStudioのGlobal Optionsにどのような内容が記載されているかをお伝えいたします。 RStudioのGlobal Optionsは、メニューバーからToolsを選択して、表示されたポップアップ内にあります。 目次 General: 一般 Code: コード Editing: 編集 Display: 表示 […]
  • R ggpartyパッケージを用いた決定木の可視化R ggpartyパッケージを用いた決定木の可視化 決定木の可視化において、とても柔軟性が高いggpartyパッケージをご紹介します。 ggpartyパッケージは、ggplot2の機能をpartykitに拡張し、partyクラスのツリーオブジェクトのために明瞭に構造化され、高度にカスタマイズ可能なビジュアライゼーションを作成するために必要なツールを提供します。 ggpartyパッケージを用いると、ノードやエッジに対 […]
Python CaboChaを用いて係り受け構造を抽出する方法

One thought on “Python CaboChaを用いて係り受け構造を抽出する方法

Comments are closed.