Ubuntu14.04で日本語構文・格・照応解析システムKNPをpythonから使えるようにする方法をお伝えする。

Python2系

まずはKNP – KUROHASHI-KAWAHARA LABよりpyknp-0.1.zipをダウンロードしておく。
ダウンロードしたあと、端末を開いてダウンロードしたディレクトリに移動しておく。
あとは、次のコマンドを順に実行すればインストールは完了する。


# zip解凍
$ unzip pyknp-0.1.zip

# カレントディレクトリの移動
$ cd ku_nlp-pyknp-a32529dbce0d/

# pyknpのインストール
$ sudo python setup.py install

pyknpは「/usr/local/lib/python2.7/dist-packages/」配下にインストールされる。

最後にpyknpを試してみる。
適当にファイルを作成して


$ vim test.py

次の内容を保存して閉じる。


# -*- coding: utf-8 -*-
from pyknp import Juman

juman = Juman()
res = juman.analysis('今日は晴れです')

for mrph in res.mrph_list():
    print mrph.midasi

このファイルを実行すると、次のように表示される。


$ python test.py
今日
は
晴れ
です

Python3系

まずはKNP – KUROHASHI-KAWAHARA LABよりpyknp-0.1.zipをダウンロードしておく。
ダウンロードしたあと、端末を開いてダウンロードしたディレクトリに移動しておく。


# zip解凍
$ unzip pyknp-0.1.zip

# カレントディレクトリの移動
$ cd ku_nlp-pyknp-a32529dbce0d/

ソースコードをPython2系からPython3系に変更する。


$ 2to3 -w ./

次に、pyknp/juman/juman.pyとpyknp/juman/morpheme.pyを修正する。
手動で修正する場合は次のようになる。

pyknp/juman/juman.pyとpyknp/juman/morpheme.pyを手動で修正

pyknp/juman/juman.pyを修正する。


#38行目あたり削除
#        subproc_args = {'stdin': subprocess.PIPE, 'stdout': subprocess.PIPE,
#                        'stderr': subprocess.STDOUT, 'cwd': '.', 'close_fds' : True}

#追加
        subproc_args = {'stdin': subprocess.PIPE, 'stdout': subprocess.PIPE,
                        'stderr': subprocess.STDOUT, 'cwd': '.', 'close_fds' : True,
                        'universal_newlines': True}

#54行目あたり削除
#    def query(self, sentence, pattern):
#        assert(isinstance(sentence, unicode))
#        self.process.stdin.write("%s\n" % sentence.encode('utf-8'))
#        result = ""
#        while True:
#            line = self.stdouterr.readline()[:-1]
#            if re.search(pattern, line):
#                break
#            result = "%s%s\n" % (result, line.decode('utf-8'))
#        return result

#追加
    def query(self, sentence, pattern):
        assert(isinstance(sentence, unicode))
        outs, errs = self.process.communicate(input="{}\n".format(sentence))
		result = ""
        for line in outs.split('\n'):
            if re.search(pattern, line):
                break
            result = "%s%s\n" % (result, line)
        return result

pyknp/juman/morpheme.pyを修正する。


#15行目あたり削除
#        parts = map(lambda s: s.decode('utf-8'), shlex.split(spec.encode('utf-8')))

#追加
        parts = [s for s in shlex.split(spec)]

pyknp/juman/juman.pyとpyknp/juman/morpheme.pyをパッチファイルで修正

上記の手動で行った修正をパッチファイルpyknp-0.1-python3.zipにまとめたので、ダウンロードして解凍する。


$ unzip pyknp-0.1-python3.zip

解凍したしたpyknp-0.1-python3.diffをku_nlp-pyknp-a32529dbce0d/ディレクトリに移動しておく。

パッチファイルを適用する。


$ patch -p1 < pyknp-0.1-python3.diff

インストール

インストールは次のコマンド実行すればよい。
このpyknpは「/usr/local/lib/python3.4/dist-packages/」配下にインストールされる。


$ sudo python3 setup.py install

最後にpyknpをPython3で試してみる。
適当にファイルを作成して


$ vim test.py

次の内容を保存して閉じる。


# -*- coding: utf-8 -*-
from pyknp import Juman

juman = Juman()
res = juman.analysis('今日は晴れです')

for mrph in res.mrph_list():
    print(mrph.midasi)

このファイルを実行すると、次のように表示される。


$ python3 test.py
今日
は
晴れ
です

参考

関連する記事

  • 教師あり学習と教師なし学習のふわっとした説明教師あり学習と教師なし学習のふわっとした説明 機械学習の教師あり学習と教師なし学習について、難しい専門用語を全く使わずに概要を分かりやすく説明してみます。 プログラムとは まず、プログラムについてふわっと説明します。 このページをご覧になられているということは、ブラウザと呼ばれるプログラム(例えば、Google ChromeやMicrosoft Edge、Mozilla Firefox、Apple […]
  • Bioconductor HeatplutsパッケージのregHeatmapで文字の大きさを変えるBioconductor HeatplutsパッケージのregHeatmapで文字の大きさを変える BioconductorのHeatplusパッケージのregHeatMap関数を用いると、ヒートマップを描けるが、行と列の文字の大きさを変える方法が分かり難かったので、備忘録として残しておく。 サンプルデータのために、Biobaseパッケージをインストールしておく。 > […]
  • ApacheとWildflyの連携方法ApacheとWildflyの連携方法 ApacheとWildflyを連携する方法を3つの手順でご紹介する。Jboss […]
  • R言語 CRAN Task View:Rでの高性能並列コンピューティングR言語 CRAN Task View:Rでの高性能並列コンピューティング CRAN Task View: High-Performance and Parallel Computing with Rの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。 Maintainer: Dirk Eddelbuettel Contact: Dirk.Eddelbuettel at […]
  • 経営戦略に使えるRFM分析の基礎知識と活用法経営戦略に使えるRFM分析の基礎知識と活用法 RFM分析とは、ある一定期間の購買履歴データを用いて、顧客を分類することにより様々な示唆を得るための分析手法である。分類の仕方は、顧客を直近購買時期・購入頻度・購買額の3つの軸で分類し、各軸ごとにランク分けをする。このことにより、顧客が現在どの位置にいて、それがどのくらいの人数なのかを把握することができる。 あなたは、このような分類をすることにどのようなメリットがあるの […]
Ubuntu 日本語構文・格・照応解析システムKNPをpythonから使えるようにする