R言語のforcatsパッケージに含まれているfct_lump_min()関数について解説します。この関数は、「出現回数が指定した回数(しきい値)未満のマイナーなカテゴリを、一括で『その他』にまとめたい」ときに使える関数です。「3回未満の回答は全部その他にする」といった明確な数値基準(最低回数)を自分で決めたいときに使える関数です。
forcatsパッケージは、因子型(factor型)データを操作するための強力で便利な関数を多く取り扱っています。また、Rのデータサイエンス向け主要パッケージ群であるtidyverseパッケージにも含まれています。
概要
fct_lump_min()は、指定回数未満しか出現しない水準を「その他」にするための関数です。
使い方
fct_lump_min(f, min, w = NULL, other_level = "Other")
引数
f
因子(または文字ベクトル)を指定します。
min
少なくともmin回数出現するレベルを保持します。
w = NULL
f内の(水準ではない)各値の頻度の重みを示すオプションの数値ベクトルを指定します。
other_level = “Other”
「その他」の値に使用される水準の値を指定します。
常に水準の最後に配置されます。
使用例
準備
あらかじめ、tidyverseパッケージまたはforcatsパッケージを読み込んでおきます。
# library(tidyverse)でもよい
library(forcats)
指定回数未満しか出現しない水準を「その他」にする
指定回数未満しか出現しない水準を「その他」にするには次のようにします。
f <- factor(c(rep("A", 5), rep("B", 5), rep("C", 2)))
fct_lump_min(f, 3)
[1] A A A A A B B B B B Other Other
Levels: A B Other