Wikipediaのデータファイルをプレーンテキストに変換する
Wikipediaのデータファイルをプレーンテキストに変換する方法を備忘記録として記しておく。 Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。 ウィキペディア日本語版 Wikipedia … 続きを読む
Wikipediaのデータファイルをプレーンテキストに変換する方法を備忘記録として記しておく。 Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。 ウィキペディア日本語版 Wikipedia … 続きを読む
Pythonと日本語係り受け解析器であるCaboChaを用いて係る語と受ける語のペアを抽出する方法をご紹介する。 環境:Ubuntu14.04 Pythonツールのインストール PythonからCaboChaを扱うために … 続きを読む
日本語のテキストデータを解析する際に、係り受けを抽出したいときがあります。係り受けを行うことができるフリーのソフトウェアの一つにCaboChaがある。CaboChaは, Support Vector Machinesに基 … 続きを読む
ここでは、決定木の目的変数が連続値である場合の回帰木について、R言語の「rpart」パッケージを用いて簡単に見ていきます。 まずは必要となるパッケージのインストールとロードを行います。「rpart」パッケージは決定木を行 … 続きを読む
決定木とは、分類ルールを木構造で表したものです。分類したいデータを目的変数(従属変数)、分類するために用いるデータを説明変数(独立変数)といいます。目的変数がカテゴリデータなどの場合は「分類木」、連続値などの量的データの … 続きを読む
Ubuntuにデスクトップ版のRStudioをインストールするための手順をお伝えします。 まず、Ubuntuが32bitか64bitかを確認するため、端末を起動させ(ショートカットキー:Ctrl+Alt+t)、以下のコマ … 続きを読む
UbuntuにRをインストールするための手順をお伝えします。 Ubuntuのバージョン確認 Ubuntuのバージョンを確認するために、端末を起動し(ショートカットキー:Ctrl+Alt+t)、以下のコマンドを実行します。 … 続きを読む
Pythonで与えられた度数分布に従う乱数を生成する方法をご紹介する。 さっそくだが、全コードを以下に記す。 import random import matplotlib.pyplot as plt def rando … 続きを読む
UCI machine learning repositoryで公開されているデータセットを一覧にまとめ、機械翻訳を交えて日本語化し掲載します。データセットのサンプルを探す参考にしていただければ幸いです。 確認日: 20 … 続きを読む
boost::program_optionsを用いると、コマンドライン引数(オプション)を比較的容易に解析することができる。 #include <iostream> #include <string> #in … 続きを読む