CRAN Task View: Missing Dataの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。

Maintainer: Julie Josse, Nicholas Tierney and Nathalie Vialaneix (r-miss-tastic team)
Contact: r-miss-tastic at clementine.wf
Version: 2020-08-28
URL: https://CRAN.R-project.org/view=MissingData

欠損データは、データセットに非常に頻繁に見られます。Base Rは、観測データのみを含む計算を使用してそれらを処理するためのいくつかのオプションを提供します(関数mean、var、…でna.rm = TRUE、または関数cov、cor、…でuse = complete.obs|na.or.complete|pairwise.complete.obs)。基本パッケージstatsには、オブジェクトの作成に使用されたNAアクションの情報を抽出する汎用関数na.actionも含まれています。

これらの基本的なオプションは、CRANに関する多くのパッケージによって補完されています。

現在のタスクビューに加えて、欠損データに関するこの参照Webサイト(reference website on missing data)も役に立つかもしれません。

このリストにある重要なパッケージを見逃したと思われる場合は、メンテナに連絡してください。

欠損データの調査

  • sjmiscsjlabelledは、欠損データの操作を実装しています。
    • memiscは、調査データと変数ラベルの管理のためのインフラストラクチャとともに、定義可能な欠損値も提供します。
  • miおよびdlookrwrangleDescToolsnaniarは、欠損データパターンを識別および検索できます。
  • VIM(現在CRANにアーカイブされているVIMGUIのグラフィカルユーザーインターフェイスがあります)とnaniartidyverse原則に従う)は、欠損データの分布とパターンを記述するグラフィックを実装しています。
  • MissMech(ノンパラメトリック検定)からの関数LittleMCARで(MCAR仮定に対する)MAR仮定のテストを実行します。
    • RBtestは、欠損データメカニズムをテストするための回帰ベースのアプローチを提案します。
  • miceは、関数amputeを使用してシミュレーションによる評価を実行できます。

尤度ベースのアプローチ

  • 期待値最大化(EM)アルゴリズムに基づくメソッドが実装されています。
    • norm(多変量ガウスデータに関数em.normを使用)
    • cat(多変量カテゴリカルデータの関数em.cat)
    • mix(多変量混合カテゴリカルデータと連続データの場合は関数em.mix)
    • これらのパッケージは、同じモデル(norm、cat、mixの関数da.XXX)に対してベイジアンアプローチ(ImputationとPosteriorステップ)を実装しており、補完された完全なデータセットや複数の代入(norm、catの関数imp.XXX)を得るのに使われます。
    • imputeRは、多変量期待値最大化(EM)ベースの代入フレームワークであり、Lasso、ツリーベースのモデル、PCAなど、いくつかの異なるアルゴリズムを提供します。
    • モデルパラメータが推定されたら、さらに、TestDataImputationは、EM推定(およびその他のより単純な代入方法)に基づいた代入を実装しています。これは、項目応答を使用した二分検定および多項検定に最適です。
  • lavaanおよびOpenMxrsemは、構造方程式モデリングで欠測データを処理するために、完全方程式の最尤度(「直接最尤度」または「生の最尤度」とも呼ばれる)を使用できます。
  • VarSelLCMは、変数選択によるモデルベースのクラスタリングで欠損値を処理するためのベイジアンアプローチを提供しています。このパッケージは、事後平均を使用した代入も提供します。
  • mdmbおよびicdGLMJointAIは、混合効果モデルおよび一般化線形モデルの欠損値がサポートされています。最後のものはベイジアンアプローチに基づいています。brlrmrは、EMアプローチを使用してロジスティック回帰の応答変数のMNAR値も処理します。
    • brlrmrは、EMアプローチを使用してロジスティック回帰の応答変数のMNAR値も処理します。
    • uiは、結果がランダムではなく欠落している場合、線形回帰とプロビット回帰の不確実性間隔を実装します。
  • TAMおよびmirtltmは、項目反応モデルの欠損データを実装しています。
  • GSEは、ロバスト共分散推定を実装しています。
  • rrcovNAは、ロバストな位置と散乱の推定、および欠損データを含むロバストな多変量解析が実装されています。

単一代入

  • 欠損データ補完の最も簡単な方法は、平均による補完(または中央値、最頻値など)です。このアプローチは、変数のすべての欠損データに同じ値を代入するためのさまざまな提案を含むForImpおよびHmiscdlookrの多くのパッケージで利用できます。
  • k最近傍法は、DMwRおよびimputeVIMGenForImpyaImputeを含む多くのパッケージで利用可能な欠測データ補完のための一般的な方法です(CCAベースの補完を含む、kNN補完のためのさまざまな方法を使用)。
    • wNNSelは、大規模データセットの代入に対してkNNベースの方法を実装しています。
    • isotreeは、サンプル間の類似性に基づく同様のアプローチを使用して、分離フォレストで欠落データを補完します。
  • hot.deckおよびFHDIVIM(関数hotdeck)は、hot-deck代入を実装しています。
    • StatMatchは、hot-deck補完を使用して、外部データセットから調査を補完します。
    • impimpは、「ドナー」の概念を使用して、「不正確な補完」と呼ばれる可能な値のセットを補完します。
  • VIM(関数regressionImpの線形回帰ベースの代入)は、他の回帰ベースの代入を実装しています。
    • さらに、さまざまな回帰法と組み合わせることができる任意の予測法による代入のための一般的なパッケージであるsimputationおよびtidyverseとうまく機能します。
    • WaverRは、いくつかの回帰の加重平均を使用してデータを代入します。
    • iaiは、knn、tree、またはSVMに基づいて最適な補完を調整します。
  • missForestは、ランダムフォレストに基づいています。
  • CoImpsbgcop(セミパラメトリックベイズコピュラ代入)のコピュラに基づいています。最後のものは複数の代入をサポートします。
  • missMDAは、数値データおよびカテゴリデータ、混合データに対して、PCA /特異値分解/行列補完を実装しています。
    • primePCAは、高次元PCAの不均一な欠損を対処します。
    • softImputeは、反復行列の補完のためのいくつかのメソッド、数値変数のためのfillingおよびrsparsedenoiseR、あるいは混合データセットを置換するために低ランクの仮定を使用するmimi が含まれています。
    • ECLRMCは、サンプル間の相関を説明する、アンサンブル相関に基づく低ランクマトリックスの完了を実行します。
    • pcaMethodsは、欠損データを含むPCAのベイジアン実装を提供します。
    • mixOmics(PCAおよびPLS用)およびade4nipalsplsRglm(一般化モデルPLS用)は、NIPALS(SVD計算に基づく)を実装しています。
    • 一般化として、tensorBFは3ウェイテンソルデータに代入を実装します。
    • ddsPLSは、監視フレームワークのPLSに基づくマルチブロック代入方法を実装しています。
    • ROptSpaceは、変数群(バイナリー、定量的、ポアソン)のベイズ行列補完を使用して、代入のための低ランク仮定および集団行列因数分解の下での行列補完方法を提案します。
    • missMDAは、関数imputeMFAを使用してグループに対する代入を利用できます。
  • ClustImputeは、k-meansを使用したクラスター化されたデータの補完を実装しています。
  • CVThreshは、h尤度の最大化のウェーブレット縮小によるノンパラメトリック回帰の代入を実装しています。
  • miVIMは、代入の質を評価するための診断プロットを提供します。

多重代入

上記のパッケージの中には、複数の代入を処理できるものもあります。

  • Ameliaは、多変量ガウス分布を仮定しているとする定量的データに対して、EMを使用してパラメータを推定するブートストラップ多重代入を実装します。
    • AmeliaViewは、Amelia web pageから入手可能なAmeliaのGUIです。
    • NPBayesImputeCatは、ベイジアンアプローチによるカテゴリ変数のジョイントモデリングによる多重代入も実装します。
  • miおよびmicesmcfcsは、Chained Equationsによる多重代入を実装しています。
    • smcfcsは、以前の2つのパッケージでカバーされていたモデルを拡張します。
    • miceFastは、オブジェクト指向スタイルのプログラミングとc ++を使ったマウスの代入方法の代替実装を提供します。
    • miceMNARは、miceで使用するためのHeckman選択モデルに基づいてMNAR反応を決定します。
    • bootImputeは、ブートストラップベースの代入とこれらの代入の分析を実行して、miceまたはsmcfcsで使用します。
    • miceRangerは、ランダムフォレストを使用して連鎖方程式によって複数の代入を実行します。
  • missMDAは、SVD法に基づいて複数の代入を実装しています。
  • hot.deckは、hot-deckベースの多重代入を実装します。
    • StatMatchは、複数のhot-deck代入を使用して外部データセットからの調査を補完します。
  • マルチレベルインピューテーション:
  • QtoolsmiWQSは、分位点回帰に基づいて多重代入を実装します。
  • lodiは、検出限界多重度(CLMI)を介して、検出限界(LOD)未満の観測値の補完を実装します。
  • BaBooNは、予測平均マッチング(PMM)に基づく離散データ代入のためのベイジアンブートストラップアプローチを実装しています。
  • accelmissing:加速度計データの欠損値のゼロ膨張Poisson対数正規モデルによる多重代入
  • mitoolsは、任意の代入方法と組み合わせて複数の代入を処理するための一般的なアプローチを提供します。

重み付け方法

  • ipwは、IPW(Inverse Probability Weighting)で観測されていないデータを考慮した観測データの重みの計算を実装しています。
    • IPWは、IPWboxplotでの変位値の推定とボックスプロットにも使用されます。
  • CRTgeeDRは、欠損結果二重ロバスト逆確率加重GEE推定量を実装しています。

特定の種類のデータ

  • 時系列データ/時系列および打ち切りデータ:
    • imputeTSおよびimputePSFは、時系列の代入を実装しています。
    • forecast またはspacetimetimeSeriesxtsprophetstlpluszooは、時系列専用ですが、欠損データを処理するための(基本的な)メソッドも含まれています(TimeSeriesも参照)。
    • padrtsibble は、時系列の欠損値を埋めるのを助けるために、暗黙の欠損値を入力するためのメソッドを提供します。
    • 動的タイムワーピングに基づく時系列の代入は、一変量時系列についてはDTWBIで、多変量時系列についてはDTWUMIまたはFSMUMIで実装されています。
    • naniarは、関数impute_belowを使った探索的グラフィカル解析の範囲を下回るデータも補完しました。
    • TARは、欠損データがある場合に、ガウスノイズを使用した自己回帰しきい値モデル、およびベイズ法を使用した正値時系列の推定を実装しています。
    • swgeeは、SIMEXに基づく共変量で観測値と測定誤差が欠落している経度データに対して確率加重一般化推定方程式法を実装しています。
    • icenRegは、区間データに対する打ち切り応答の代入を実行します。
    • imputeTestbenchは、一変量時系列で欠測データ代入をベンチマークするツールを提案します。
    • 関連トピックでは、imputeFinは、ARモデルまたはランダムウォークを使用して、金融時系列の欠損値の補完を処理します。
  • 空間データ:
    • phylinは、空間距離重み付き補間またはクリギングによる空間データの代入を実装しています。
    • gapfillは、衛星データに特化しています。
    • rtoparealは、不規則な空間サポートのあるデータの地理統計学的補間を実装し、重複しているが一致しないポリゴンフィーチャの値を推定します。
    • StempCensは、欠損値のある時空間データの推定と予測をEステップに分析形式がない場合にEMを近似するSAEMアプローチで実装しています。
  • 時空間データ:
    • 時空間データの補完は、knnやSVDなどのさまざまなメソッドを使用してパッケージcutoffRに実装され、クリギングを使用して循環データのCircSpaceTimeに実装されます。
    • reddPrecは、異なる場所での日降水量時系列の欠損値を決定します。
  • グラフ/ネットワーク:
    • dilsは、欠損辺を補うためのグラフ/ネットワークの代入を実装しています。
    • PSTは、欠損値を含む可能性がある個々のシーケンスのセットからVLMC(可変長マルコフ連鎖)モデルを学習し、最適化するための関数を含む、確率サフィックスツリーを分析するためのフレームワークを提供します。
    • missSBMは、確率的ブロックモデルのミッシングエッジを補完し、cassandRaは、異なる確率的ネットワークモデルでミッシングリンクの可能性を予測します。
  • loriは、データが欠落している分割表の分析にも使用できる分割表の代入を実装しています。
  • robCompositions(kNNまたはEMアプローチに基づく)およびzCompositions(ゼロ、左打ち切りおよび欠損データのさまざまな代入方法)は、構成データの代入(CODA)を実装しています。
  • DiffusionRimpは、ブラウンブリッジで欠けているサンプルパスを代入することによって拡散過程のための代入を実行します。
  • metasensは、2値結果のメタ分析の補完を提供しています。
  • experimentは、実験計画法における欠損値を扱います。例えば、共変量と結果データがない無作為化実験、結果がない対合計画法です。
  • cdparcoordは、平行座標設定で欠損値を処理します。

特定のアプリケーション分野

  • ゲノミクス:
    • DrImputeおよびRmagicは、単一細胞RNA配列決定データ中のドロップアウト事象(すなわち、mRNA分子のアンダーサンプリング)についての解釈を提供しています。
    • RNAseqNetは、ホットデッキ代入を使用して、補助データセットを用いたRNA-seqネットワーク推論を改善します。
  • 疫学:
    • powerlmmは、混合線形モデルにおけるドロップアウトと欠損データの存在下で時間x治療効果のべき乗計算を実行します。
    • psevalは、欠損反事実的代理応答の存在下で単一の臨床試験で主要な代理を評価します。
    • idemは、死亡によるものではない観測されていない機能的結果を処理するための感度分析戦略を使用して、欠測データ補完を提供します。
    • sievePHは、IPWアプローチを使用して、多変量マークに欠損値を含む、連続的な、多変量のマーク固有のハザード比を実装します。
  • 因果推論:
    • gsynthは、欠損値を行列補完で処理する対話型固定効果モデルによる因果推論を利用できます。
    • MatchThemは、複数のマッチング方法を使用して、複数の補完データセットを一致させ、各補完データセットの因果効果を推定するツールをユーザーに提供します。
  • スコアリング:
    • scorecardModelUtilsは、スコアリングデータセットに欠損データを代入するための基本的な方法(平均値、中央値、最頻値など)を提案しています。
  • 嗜好モデル:
    • prefmodは、でMCARおよびMNARパターンを考慮に入れることを可能にするComposite Linkアプローチで嗜好モデルの欠損データを処理します。
  • 健康経済:
    • missingHEは、結果データが欠けている健康経済評価のためのモデルを実装します。
  • 管理記録:
    • fastLinkは、欠損データと補助的な情報を含めることを可能にするFellegi-Sunter確率的記録リンケージを提供します。
    • EditImputeContは、ベイジアンアプローチを使用した線形制約の下での連続マイクロデータの補完メソッドを提供します。
  • 回帰と分類:
    • eigenmodelは、対称関係データの回帰モデルで欠損値を処理します。
    • randomForestStratifiedRFは、ランダムフォレストのような方法で予測子の欠損値を処理します。
    • mipredは、一般化線形モデルの予測を処理し、予測子の複数の代入を含むCox予測モデルを処理し、misaemはロジスティック回帰で欠落データを処理します。
    • psfmiは、多重補完データセット内のさまざまな線形モデルのモデル選択のためのフレームワークを提供します。
    • naivebayesは、欠損データが存在する場合に、単純ベイズ分類器の効率的な実装を提供します。
    • plsRbetaは、予測子にデータが欠落しているベータ回帰モデルのPLSを実装します。
  • クラスタリングbiclustermdは、バイクラスタリングで欠落しているデータを処理します。
    • RMixtCompは、欠損データがある場合にさまざまな混合モデルに適合します。
  • robustrankは、2標本の欠損データの検定を実装しています。
  • robustraoは、分類されていない参考文献を含むデータを使用して、Rao-Stirling多様性指数(科学出版物の学際性を測定するための確立された計量書誌学的指標)を計算します。

関連する記事

  • 平均的に分類する方法の考察(3)平均的に分類する方法の考察(3) 前回は、定量データをスコア順に並び替えたのち、この順番でグループに割り振っていく方法を見た。今回は、定量データをスコア順に並び替えるところは同じだが、割り振り方を変更することにより、より平均的に分類できないかを見ていく。 前回と同じく、100人の学生を3つのクラスA、B、Cに分ける方法を考えてみる。 まず、学生をスコア順にA、B、Cに一人ずつ割り振る。 次に […]
  • Ubuntu16.04でElectronの配布アプリケーションを作成する方法Ubuntu16.04でElectronの配布アプリケーションを作成する方法 Ubuntu16.04を用いて開発したElectronアプリケーションを配布に適したファイル群で出力する方法をお伝えします。 ここでは、サンプルアプリケーションとして、electron-quick-startを利用させていただき、配布のための環境構築からWindows用アプリケーションとして実行しているところまでをご紹介します。 環境 今回の作業環境を確認し […]
  • R言語 CRAN Task View:Rによるモデル展開R言語 CRAN Task View:Rによるモデル展開 CRAN Task View: Model Deployment with Rの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。 Maintainer: Yuan Tang Contact: terrytangyuan at […]
  • MySQL データベース内のカラム数を確認する方法MySQL データベース内のカラム数を確認する方法 MySQLまたはMariaDBのデータベース内のカラム数を確認する方法をお伝えします。 サンプルデータベースを次のように準備します。 # データベース作成 CREATE DATABASE sample_database; # データベース指定 use sample_database; # テーブル作成 CREATE TABLE […]
  • R実装と解説 母平均の検定(母分散未知) [latexpage] 母分散が未知の場合の母平均の検定とは、母集団が正規分布に従い、母分散が未知のときに母平均が標本平均と「異なる」または「大きい」、「小さい」かどうかを、検定統計量がt分布に従うことを利用して検定します。 統計的検定の流れ 検定の大まかな流れを確認しておきます。 帰無仮説H0と対立仮設H1をたてます […]
R言語 CRAN Task View:欠損データ