CRAN Task View: Missing Dataの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。

Maintainer: Julie Josse, Nicholas Tierney and Nathalie Vialaneix (r-miss-tastic team)
Contact: r-miss-tastic at clementine.wf
Version: 2020-03-14
URL: https://CRAN.R-project.org/view=MissingData

欠損データは、データセットに非常に頻繁に見られます。Base Rは、観測データのみを含む計算を使用してそれらを処理するためのいくつかのオプションを提供します(関数mean、var、…でna.rm = TRUE、または関数cov、cor、…でuse = complete.obs|na.or.complete|pairwise.complete.obs)。基本パッケージstatsには、オブジェクトの作成に使用されたNAアクションの情報を抽出する汎用関数na.actionも含まれています。

これらの基本的なオプションは、CRANに関する多くのパッケージによって補完されています。

現在のタスクビューに加えて、欠損データに関するこの参照Webサイト(reference website on missing data)も役に立つかもしれません。

このリストにある重要なパッケージを見逃したと思われる場合は、メンテナに連絡してください。

欠損データの調査

  • sjmiscsjlabelledは、欠損データの操作を実装しています。
    • memiscは、調査データと変数ラベルの管理のためのインフラストラクチャとともに、定義可能な欠損値も提供します。
  • miおよびdlookrwrangleDescToolsnaniarは、欠損データパターンを識別および検索できます。
  • VIM(現在CRANにアーカイブされているVIMGUIのグラフィカルユーザーインターフェイスがあります)とnaniartidyverse原則に従う)は、欠損データの分布とパターンを記述するグラフィックを実装しています。
  • BaylorEdPsych(Little’s test)およびMissMech(ノンパラメトリック検定)からの関数LittleMCARで(MCAR仮定に対する)MAR仮定のテストを実行します。
  • miceは、関数amputeを使用してシミュレーションによる評価を実行できます。

尤度ベースのアプローチ

  • 期待値最大化(EM)アルゴリズムに基づくメソッドが実装されています。
    • norm(多変量ガウスデータに関数em.normを使用)
    • cat(多変量カテゴリカルデータの関数em.cat)
    • mix(多変量混合カテゴリカルデータと連続データの場合は関数em.mix)
    • これらのパッケージは、同じモデル(norm、cat、mixの関数da.XXX)に対してベイジアンアプローチ(ImputationとPosteriorステップ)を実装しており、補完された完全なデータセットや複数の代入(norm、catの関数imp.XXX)を得るのに使われます。
    • モデルパラメータが推定されたら、さらに、TestDataImputationは、EM推定(およびその他のより単純な代入方法)に基づいた代入を実装しています。これは、項目応答を使用した二分検定および多項検定に最適です。
  • lavaanおよびOpenMxrsemは、構造方程式モデリングで欠測データを処理するために、完全方程式の最尤度(「直接最尤度」または「生の最尤度」とも呼ばれる)を使用できます。
  • VarSelLCMは、変数選択によるモデルベースのクラスタリングで欠損値を処理するためのベイジアンアプローチを提供しています。このパッケージは、事後平均を使用した代入も提供します。
  • mdmbおよびicdGLMJointAIは、混合効果モデルおよび一般化線形モデルの欠損値がサポートされています。最後のものはベイジアンアプローチに基づいています。brlrmrは、EMアプローチを使用してロジスティック回帰の応答変数のMNAR値も処理します。
    • brlrmrは、EMアプローチを使用してロジスティック回帰の応答変数のMNAR値も処理します。
  • TAMおよびmirtltmは、項目反応モデルの欠損データを実装しています。
  • GSEは、ロバスト共分散推定を実装しています。

単一代入

  • 欠損データ補完の最も簡単な方法は、平均による補完(または中央値、最頻値など)です。このアプローチは、変数のすべての欠損データに同じ値を代入するためのさまざまな提案を含むForImpおよびHmiscdlookrの多くのパッケージで利用できます。
  • k最近傍法は、DMwRおよびimputeVIMGenForImpyaImputeを含む多くのパッケージで利用可能な欠測データ補完のための一般的な方法です(CCAベースの補完を含む、kNN補完のためのさまざまな方法を使用)。
    • wNNSelは、大規模データセットの代入に対してkNNベースの方法を実装しています。
  • hot.deckおよびFHDIVIM(関数hotdeck)は、hot-deck代入を実装しています。
  • VIM(関数regressionImpの線形回帰ベースの代入)は、他の回帰ベースの代入を実装しています。
    • さらに、さまざまな回帰法と組み合わせることができる任意の予測法による代入のための一般的なパッケージであるsimputationおよびtidyverseとうまく機能します。
    • WaverRは、いくつかの回帰の加重平均を使用してデータを代入します。
  • missForestは、ランダムフォレストに基づいています。
  • CoImpsbgcop(セミパラメトリックベイズコピュラ代入)のコピュラに基づいています。最後のものは複数の代入をサポートします。
  • missMDAは、数値データおよびカテゴリデータ、混合データに対して、PCA /特異値分解/行列補完を実装しています。
    • primePCAは、高次元PCAの不均一な欠損を対処します。
    • softImputeは、反復行列の補完のためのいくつかのメソッド、数値変数のためのfillingおよびdenoiseR、あるいは混合データセットを置換するために低ランクの仮定を使用するmimi が含まれています。
    • pcaMethodsは、欠損データを含むPCAのベイジアン実装を提供します。
    • mixOmics(PCAおよびPLS用)およびade4nipalsplsRglm(一般化モデルPLS用)は、NIPALS(SVD計算に基づく)を実装しています。
    • ddsPLSは、監視フレームワークのPLSに基づくマルチブロック代入方法を実装しています。
    • ROptSpaceは、変数群(バイナリー、定量的、ポアソン)のベイズ行列補完を使用して、代入のための低ランク仮定および集団行列因数分解の下での行列補完方法を提案します。
    • missMDAは、関数imputeMFAを使用してグループに対する代入を利用できます。
  • CVThreshは、h尤度の最大化のウェーブレット縮小によるノンパラメトリック回帰の代入を実装しています。
  • miVIMは、代入の質を評価するための診断プロットを提供します。

多重代入

上記のパッケージの中には、複数の代入を処理できるものもあります。

  • Ameliaは、多変量ガウス分布を仮定しているとする定量的データに対して、EMを使用してパラメータを推定するブートストラップ多重代入を実装します。
    • AmeliaViewは、Amelia web pageから入手可能なAmeliaのGUIです。
    • NPBayesImputeCatは、ベイジアンアプローチによるカテゴリ変数のジョイントモデリングによる多重代入も実装します。
  • miおよびmicesmcfcsは、Chained Equationsによる多重代入を実装しています。
    • smcfcsは、以前の2つのパッケージでカバーされていたモデルを拡張します。
    • miceFastは、オブジェクト指向スタイルのプログラミングとc ++を使ったマウスの代入方法の代替実装を提供します。
    • miceMNARは、マウスで使用するためのHeckman選択モデルに基づいてMNAR反応を決定します。
  • missMDAは、SVD法に基づいて複数の代入を実装しています。
  • hot.deckは、hot-deckベースの多重代入を実装します。
    • StatMatchは、複数のhot-deck代入を使用して外部データセットからの調査を補完します。
  • マルチレベルインピューテーション:
  • Qtoolsは、分位点回帰に基づいて多重代入を実装します。
  • BaBooNは、予測平均マッチング(PMM)に基づく離散データ代入のためのベイジアンブートストラップアプローチを実装しています。
  • accelmissing:加速度計データの欠損値のゼロ膨張Poisson対数正規モデルによる多重代入
  • mitoolsは、任意の代入方法と組み合わせて複数の代入を処理するための一般的なアプローチを提供します。

重み付け方法

  • ipwは、IPW(Inverse Probability Weighting)で観測されていないデータを考慮した観測データの重みの計算を実装しています。
  • CRTgeeDRは、欠損結果二重ロバスト逆確率加重GEE推定量を実装しています。

特定の種類のデータ

  • 時系列データ/時系列および打ち切りデータ:
    • imputeTSおよびimputePSFは、時系列の代入を実装しています。
    • forecast またはspacetimetimeSeriesxtsprophetstlpluszooは、時系列専用ですが、欠損データを処理するための(基本的な)メソッドも含まれています(TimeSeriesも参照)。
    • padrtsibble は、時系列の欠損値を埋めるのを助けるために、暗黙の欠損値を入力するためのメソッドを提供します。
    • 動的タイムワーピングに基づく時系列の代入は、一変量時系列についてはDTWBIで、多変量時系列についてはDTWUMIで実装されています。
    • naniarは、関数impute_belowを使った探索的グラフィカル解析の範囲を下回るデータも補完しました。
    • TARは、欠損データがある場合に、ガウスノイズを使用した自己回帰しきい値モデル、およびベイズ法を使用した正値時系列の推定を実装しています。
    • swgeeは、SIMEXに基づく共変量で観測値と測定誤差が欠落している経度データに対して確率加重一般化推定方程式法を実装しています。
    • icenRegは、区間データに対する打ち切り応答の代入を実行します。
    • imputeTestbenchは、一変量時系列で欠測データ代入をベンチマークするツールを提案します。
  • 空間データ:
    • phylinは、空間距離重み付き補間またはクリギングによる空間データの代入を実装しています。
    • gapfillは、衛星データに特化しています。
    • rtopは、不規則な空間サポートによるデータの地球統計学的内挿を実装しています。
  • 時空間データ:
    • cutoffRは、knnおよびSVDとは異なる方法による時空間データの代入を実装しています。
    • reddPrecは、異なる場所での日降水量時系列の欠損値を決定します。
  • グラフ/ネットワーク:
    • dilsは、欠損辺を補うためのグラフ/ネットワークの代入を実装しています。
    • PSTは、欠損値を含む可能性がある個々のシーケンスのセットからVLMC(可変長マルコフ連鎖)モデルを学習し、最適化するための関数を含む、確率サフィックスツリーを分析するためのフレームワークを提供します。
  • loriは、データが欠落している分割表の分析にも使用できる分割表の代入を実装しています。
  • robCompositions(kNNまたはEMアプローチに基づく)およびzCompositions(ゼロ、左打ち切りおよび欠損データのさまざまな代入方法)は、構成データの代入(CODA)を実装しています。
  • DiffusionRimpは、ブラウンブリッジで欠けているサンプルパスを代入することによって拡散過程のための代入を実行します。
  • experimentは、実験計画法における欠損値を扱います。例えば、共変量と結果データがない無作為化実験、結果がない対合計画法です。
  • cdparcoordは、平行座標設定で欠損値を処理します。

特定のアプリケーション分野

  • 遺伝学:
    • SNPassocは、SNP研究(遺伝学)の場合に欠けているデータを視覚化する機能を提供します。
    • Haplinは、欠損遺伝子型データがEMアルゴリズムで処理されるSNPハプロタイプを用いたケース・親トライアドおよび/またはケース・コントロールデータの分析を実施します。
    • FamEventsnpStatsは、それぞれEMアルゴリズムと最近傍アプローチを使用して、欠損遺伝子型の代入を実装します。
    • alleHapは、血統データベースの決定論的手法による遺伝子型とハプロタイプの代入を実装しています。
    • QTLRelは、QTL解析のためのツールを含む欠損遺伝子型の代入を実装しています。
    • HardyWeinbergは、二対立遺伝子遺伝マーカーデータおよび多対立遺伝子マーカーデータについてのHardy-Weinberg平衡のためのツールを提供し、遺伝子型は多項ロジットモデルで帰属されます。
    • SNP遺伝子型データセットに欠損データが含まれている場合は、StAMPPがゲノムの関係を計算し、SIMEXアルゴリズムの変種を使用して、欠損父系に影響を受けた血統構造の近親交配抑制または遺伝率をPSIMEX が計算します。
  • ゲノミクス:
    • DrImputeおよびRmagicは、単一細胞RNA配列決定データ中のドロップアウト事象(すなわち、mRNA分子のアンダーサンプリング)についての解釈を提供しています。
    • RNAseqNetは、ホットデッキ代入を使用して、補助データセットを用いたRNA-seqネットワーク推論を改善します。
  • 疫学:
    • powerlmmは、混合線形モデルにおけるドロップアウトと欠損データの存在下で時間x治療効果のべき乗計算を実行します。
    • psevalは、欠損反事実的代理応答の存在下で単一の臨床試験で主要な代理を評価します。
    • idemは、死亡によるものではない観測されていない機能的結果を処理するための感度分析戦略を使用して、欠測データ補完を提供します。
  • 因果推論:
    • gsynthは、欠損値を行列補完で処理する対話型固定効果モデルによる因果推論を利用できます。
    • MatchThemは、複数のマッチング方法を使用して、複数の補完データセットを一致させ、各補完データセットの因果効果を推定するツールをユーザーに提供します。
  • スコアリング:
    • scorecardModelUtilsは、スコアリングデータセットに欠損データを代入するための基本的な方法(平均値、中央値、最頻値など)を提案しています。
  • 嗜好モデル:
    • prefmodは、でMCARおよびMNARパターンを考慮に入れることを可能にするComposite Linkアプローチで嗜好モデルの欠損データを処理します。
  • 管理記録:
    • fastLinkは、欠損データと補助的な情報を含めることを可能にするFellegi-Sunter確率的記録リンケージを提供します。
  • 回帰と分類:
    • eigenmodelは、対称関係データの回帰モデルで欠損値を処理します。
    • randomForestStratifiedRFは、ランダムフォレストのような方法で予測子の欠損値を処理します。
  • robustraoは、分類されていない参考文献を含むデータを使用して、Rao-Stirling多様性指数(科学出版物の学際性を測定するための確立された計量書誌学的指標)を計算します。

関連する記事

R言語 CRAN Task View:欠損データ