Rのデータフレームにおいて、ファクター列を2値に変換する方法をお伝えいたします。
方法はとても単純で、データフレームの列ごとにファクター型かどうかをチェックし、ファクター型であればファクターごとに2値の列を新たに作成し追加します。
ソースコードは以下のようになります。


convertFactorToBinary <- function(df, sep = ".") {
  l <- list()
  for (i in 1:ncol(df)) {
    if ("factor" %in% class(df[[i]]) &&
        !("ordered" %in% class(df[[i]]))) {
      m <- sapply(levels(df[[i]]), function(x)
        as.integer(x == df[[i]]))
      for (j in 1:ncol(m)) {
        l[[paste(colnames(df)[i], colnames(m)[j], sep = sep)]] <- m[, j]
      }
    } else{
      l[[colnames(df)[i]]] <- df[[i]]
    }
  }
  return(data.frame(l))
}

データセットwarpbreaksを用いて実際に試してみます。
まずは、データセットの内容を確認します。


> data("warpbreaks")
> print(str(warpbreaks))
'data.frame':	54 obs. of  3 variables:
 $ breaks : num  26 30 54 25 70 52 51 26 67 18 ...
 $ wool   : Factor w/ 2 levels "A","B": 1 1 1 1 1 1 1 1 1 1 ...
 $ tension: Factor w/ 3 levels "L","M","H": 1 1 1 1 1 1 1 1 1 2 ...

> print(head(warpbreaks))
  breaks wool tension
1     26    A       L
2     30    A       L
3     54    A       L
4     25    A       L
5     70    A       L
6     52    A       L

次に、ファクター型の列を変換してみます。


> res <- convertFactorToBinary(warpbreaks, sep = "_") > print(str(res))
'data.frame':	54 obs. of  6 variables:
 $ breaks   : num  26 30 54 25 70 52 51 26 67 18 ...
 $ wool_A   : int  1 1 1 1 1 1 1 1 1 1 ...
 $ wool_B   : int  0 0 0 0 0 0 0 0 0 0 ...
 $ tension_L: int  1 1 1 1 1 1 1 1 1 0 ...
 $ tension_M: int  0 0 0 0 0 0 0 0 0 1 ...
 $ tension_H: int  0 0 0 0 0 0 0 0 0 0 ...

> print(head(res))
  breaks wool_A wool_B tension_L tension_M tension_H
1     26      1      0         1         0         0
2     30      1      0         1         0         0
3     54      1      0         1         0         0
4     25      1      0         1         0         0
5     70      1      0         1         0         0
6     52      1      0         1         0         0

ファクター列が2値になっていることが確認できました。

関連する記事

  • QGIS プラグイン一覧QGIS プラグイン一覧 オープンソースソフトウェアの地図情報システムの一つであるQGIS(Quantum GIS)のプラグインの一覧をご紹介します。英語での説明文をgoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。プラグインを探す参考にしていただければ幸いです。 パッケージ確認日:2021/04/01 パッケージ数:1424 3D City […]
  • WindowsでHeidiSQLを使用してMariaDBをバックアップ・リストアするの方法WindowsでHeidiSQLを使用してMariaDBをバックアップ・リストアするの方法 WindowsでHeidiSQLを使用してMariaDBをバックアップおよびリストア(復元)する方法をお伝えいたします。 MariaDBのバックアップ方法はいくつかありますが、今回ご紹介する方法は、ダンプファイルの作成という方法になります。MariaDBのダンプファイルの作成は、通常、CUI(黒い文字だけの画面)でmysqldumpというコマンドラインツールを用いて行い […]
  • 基本統計量基本統計量 [latexpage] 基本統計量とは、データの基本的な特徴を表す値のことで、代表値と散布度に区分できる。代表値とは、データを代表するような値のことで、例えば、平均値、最大値、最小値などがある。散布度とは、データの散らばり度合いを表すような値のことで、例えば、分散、標準偏差などがある。 平均値 […]
  • Ubuntu 日本語構文・格・照応解析システムKNPをpythonから使えるようにするUbuntu 日本語構文・格・照応解析システムKNPをpythonから使えるようにする Ubuntu14.04で日本語構文・格・照応解析システムKNPをpythonから使えるようにする方法をお伝えする。 Python2系 まずはKNP - KUROHASHI-KAWAHARA […]
  • R言語 CRAN Task View:グラフィックディスプレイ&動的なグラフィックス&グラフィックデバイス&可視化R言語 CRAN Task View:グラフィックディスプレイ&動的なグラフィックス&グラフィックデバイス&可視化 CRAN Task View: Graphic Displays & Dynamic Graphics & Graphic Devices & Visualizationの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。 Maintainer: Nicholas […]
R データフレームのファクター列を2値に変換する方法