ページビュー数やコンバージョン率を上げるためには、良質なコンテンツが大切であるとよく言われる。そして、良質なコンテンツを作成するためには、ユーザー像を具体的に思い描き、そのユーザーに向けてコンテンツを作成しなくてはならな
カイ二乗検定 – 独立性検定
独立性検定とは、クロス集計表を作成したとき、2つの属性が独立であるかどうかを統計的に判定する方法である。 独立性検定を行う手順は次の通りである。 仮説を立てる。 帰無仮説H0:属性Ai(i=1,…,m)とBj
カイ二乗検定 – 適合度検定
適合度検定とは、観測度数分布が期待度数分布と同じかどうかを統計的に確かめる方法である。 適合度検定を行う手順は次の通りである。 仮説を立てる。 帰無仮説 H0:観測度数分布と期待度数分布が同じ。 対立仮説 H1:観測度数
Wikipediaのデータファイルをプレーンテキストに変換する
Wikipediaのデータファイルをプレーンテキストに変換する方法を備忘記録として記しておく。 Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。 ウィキペディア日本語版 Wikipedia
Python CaboChaを用いて係り受け構造を抽出する方法
Pythonと日本語係り受け解析器であるCaboChaを用いて係る語と受ける語のペアを抽出する方法をご紹介する。 環境:Ubuntu14.04 Pythonツールのインストール PythonからCaboChaを扱うために
Ubuntuに日本語係り受け解析器CaboChaをインストールする手順
日本語のテキストデータを解析する際に、係り受けを抽出したいときがある。係り受けを行うことができるフリーのソフトウェアの一つにCaboChaがある。CaboChaは, Support Vector Machinesに基づく
決定木 – 回帰木
ここでは、決定木の目的変数が連続値である場合の回帰木について、R言語の「rpart」パッケージを用いて簡単に見ていく。 まずは必要となるパッケージのインストールとロードを行う。「rpart」パッケージは決定木を行うための
決定木 – 分類木
決定木とは、分類ルールを木構造で表したものである。分類したいデータを目的変数(従属変数)、分類するために用いるデータを説明変数(独立変数)という。目的変数がカテゴリデータなどの場合は「分類木」、連続値などの量的データの場
UbuntuにRStudioをインストールするための手順
Ubuntuにデスクトップ版のRStudioをインストールするための手順をお伝えする。 まず、Ubuntuが32bitか64bitかを確認するため、端末を起動させ(ショートカットキー:Ctrl+Alt+t)、以下のコマン
UbuntuにRをインストールするための手順
UbuntuにRをインストールするための手順をお伝えする。 Ubuntuのバージョン確認 Ubuntuのバージョンを確認するために、端末を起動し(ショートカットキー:Ctrl+Alt+t)、以下のコマンドを実行する。 D