CRAN Task View: Missing Dataの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。

Maintainer: Julie Josse, Nicholas Tierney and Nathalie Vialaneix (r-miss-tastic team)
Contact: r-miss-tastic at clementine.wf
Version: 2019-05-11
URL: https://CRAN.R-project.org/view=MissingData

欠損データは、データセットに非常に頻繁に見られます。Base Rは、観測データのみを含む計算を使用してそれらを処理するためのいくつかのオプションを提供します(関数mean、var、…でna.rm = TRUE、または関数cov、cor、…でuse = complete.obs|na.or.complete|pairwise.complete.obs)。基本パッケージstatsには、オブジェクトの作成に使用されたNAアクションの情報を抽出する汎用関数na.actionも含まれています。

これらの基本的なオプションは、CRANに関する多くのパッケージによって補完されています。

現在のタスクビューに加えて、欠損データに関するこの参照Webサイト(reference website on missing data )も役に立つかもしれません。

このリストにある重要なパッケージを見逃したと思われる場合は、メンテナに連絡してください。

欠損データの調査

  • 欠損データの操作は、パッケージsjmiscsjlabelledに実装されています。
    • memiscは、調査データと変数ラベルの管理のためのインフラストラクチャとともに、定義可能な欠損値も提供します。
  • 欠損データパターンは、miおよびdlookrwrangleDescToolsnaniarの各パッケージを使用して識別および検索できます。
  • 欠損データの分布とパターンを記述するグラフィックは、VIM(グラフィカルユーザーインターフェース、VIMGUI を持つ)とnaniartidyverse 原則に従う)で実装されています。
  • (MCAR仮定に対する)MAR仮定のテストは、BaylorEdPsych(Little’s test)およびMissMech(ノンパラメトリック検定)からの関数LittleMCARで実行されます。
  • シミュレーションによる評価は、miceの機能amputeを使用して実行できます。

尤度ベースのアプローチ

  • 期待値最大化(EM)アルゴリズムに基づくメソッドが実装されています。
    • norm(多変量ガウスデータに関数em.normを使用)
    • cat(多変量カテゴリカルデータの関数em.cat)
    • mix(多変量混合カテゴリカルデータと連続データの場合は関数em.mix)
    • これらのパッケージは、同じモデル(norm、cat、mixの関数da.XXX)に対してベイジアンアプローチ(ImputationとPosteriorステップ)を実装しており、補完された完全なデータセットや複数の代入(norm、catの関数imp.XXX)を得るのに使われます。モデルパラメータが推定されたら、さらに、TestDataImputationは、EM推定(およびその他のより単純な代入方法)に基づいた代入を実装しています。これは、項目応答を使用した二分検定および多項検定に最適です。
  • 完全方程式の最尤度(「直接最尤度」または「生の最尤度」とも呼ばれる)は、構造方程式モデリングで欠測データを処理するために、lavaanおよびOpenMxrsemで使用できます。
  • 変数選択によるモデルベースのクラスタリングで欠損値を処理するためのベイジアンアプローチは、VarSelLCMで利用できます。このパッケージは、事後平均を使用した代入も提供します。
  • PSMおよびmdmbicdGLMJointAIの各パッケージは、混合効果モデルおよび一般化線形モデルの欠損値がサポートされています。最後のものはベイジアンアプローチに基づいています。brlrmrは、EMアプローチを使用してロジスティック回帰の応答変数のMNAR値も処理します。
    • brlrmrは、EMアプローチを使用してロジスティック回帰の応答変数のMNAR値も処理します。
  • 項目反応モデルの欠損データは、TAMおよびmirtltmidealstanに実装されています。
  • 無視可能なデータ構造と無視できないデータ構造における変数選択は、TVsMissに実装されています。
  • ロバスト共分散推定は、パッケージGSEに実装されています。

単一代入

  • 欠損データ補完の最も簡単な方法は、平均による補完(または中央値、最頻値など)です。このアプローチは、変数のすべての欠損データに同じ値を代入するためのさまざまな提案を含むForImpおよびHmiscdlookrの中の多くのパッケージで利用できます。この方法と他の単純な代入方法は、片付けアプローチの後に機能するtidyimputeでも利用できます。
  • k最近傍法は、DMwRおよびimputeVIMGenForImpyaImpute を含む多くのパッケージで利用可能な欠測データ補完のための一般的な方法です(CCAベースの補完を含む、kNN補完のためのさまざまな方法を使用)。
    • wNNSelは、大規模データセットの代入に対してkNNベースの方法を実装しています。
  • hot-deck代入は、hot.deckおよびHotDeckImputationFHDIVIM(関数hotdeck)で実装されています。
  • 他の回帰ベースの代入は、VIM(関数regressionImpの線形回帰ベースの代入)に実装されています。
    • さらに、さまざまな回帰法と組み合わせることができる任意の予測法による代入のための一般的なパッケージであるsimputationおよびtidyverseとうまく機能します。
    • WaverRは、いくつかの回帰の加重平均を使用してデータを代入します。
  • missForestのランダムフォレストに基づいています。
  • CoImpsbgcop(セミパラメトリックベイズコピュラ代入)のコピュラに基づいています。最後のものは複数の代入をサポートします。
  • PCA /特異値分解/行列補完は、数値データ、カテゴリデータ、および混合データに対して、パッケージmissMDAに実装されています。
    • softImputeは、反復行列の補完のためのいくつかのメソッド、数値変数のためのfillingおよびdenoiseR、あるいは混合データセットを置換するために低ランクの仮定を使用するmimi が含まれています。
    • パッケージpcaMethodsは、欠損データを含むPCAのベイジアン実装を提供します。
    • NIPALS(SVD計算に基づく)は、パッケージmixOmics(PCAおよびPLS用)およびade4nipalsplsRglm(一般化モデルPLS用)に実装されています。
    • ddsPLSは、監視フレームワークのPLSに基づくマルチブロック代入方法を実装しています。
    • ROptSpaceCMFは、変数群(バイナリー、定量的、ポアソン)のベイズ行列補完を使用して、代入のための低ランク仮定および集団行列因数分解の下での行列補完方法を提案します。
    • グループに対する代入は、missMDAの関数imputeMFAでも利用できます。
  • ウェーブレット縮小によるノンパラメトリック回帰の代入は、h尤度の最大化のみを使用してCVThreshに実装されています。
  • miVIMは、代入の質を評価するための診断プロットを提供します。

多重代入

上記のパッケージの中には、複数の代入を処理できるものもあります。

  • Ameliaは、多変量ガウス分布を仮定しているとする定量的データに対して、EMを使用してパラメータを推定するブートストラップ多重代入を実装します。
    • さらに、AmeliaViewは、Amelia web pageから入手可能なAmeliaのGUIです。
    • NPBayesImputeCatは、ベイジアンアプローチを使用したカテゴリカル変数の結合モデリングによる多重代入も実装しています。
  • miおよびmicesmcfcsは、Chained Equationsによる多重代入を実装しています。
    • smcfcsは、以前の2つのパッケージでカバーされていたモデルを拡張します。
    • miceFastは、オブジェクト指向スタイルのプログラミングとc ++を使ったマウスの代入方法の代替実装を提供します。
    • miceMNARは、マウスで使用するためのHeckman選択モデルに基づいてMNAR反応を決定します。
  • missMDAは、SVD法に基づいて複数の代入を実装しています。
  • MixedDataImpute(混合データセット用)は、ベイジアンのノンパラメトリック法に基づく多重代入を提案します。
  • hot.deckは、hot-deckベースの多重代入を実装します。
    • StatMatchは、複数のhot-deck代入を使用して外部データセットからの調査を補完します。
  • マルチレベルインピューテーション:マルチレベルマルチプルインピューテーションは、hmiおよびjomomicemiceaddsmicemdmitmlpanで実装されています。
  • Qtoolsは、分位点回帰に基づいて多重代入を実装します。
  • ツリーベースの多重代入は、CALIBERrfimputeで利用できます。これはランダムフォレストに基づく多重代入(miceでも利用可能)とsbartで利用できます。これは、欠損共変量を補完するための逐次BART(Bayesian Additive Regression Trees)を提案します。
  • BaBooNは、予測平均マッチング(PMM)に基づく離散データ代入のためのベイジアンブートストラップアプローチを実装しています。
  • accelmissing :加速度計データの欠損値のゼロ膨張Poisson対数正規モデルによる多重代入
  • mitoolsは、任意の代入方法と組み合わせて複数の代入を処理するための一般的なアプローチを提供します。

重み付け方法

  • IPW(Inverse Probability Weighting)で観測されていないデータを考慮した観測データの重みの計算は、ipwに実装されています。
  • 欠損結果二重ロバスト逆確率加重GEE推定量は、CRTgeeDRに実装されています。

特定の種類のデータ

  • 時系列データ/時系列および打ち切りデータ:
    • 時系列の代入は、imputeTSおよびimputePSFで実装されています。
    • forecast またはspacetimetimeSeriesxtsprophetstlpluszoo などの他のパッケージは、時系列専用ですが、欠損データを処理するための(基本的な)メソッドも含まれています(TimeSeries も参照)。
    • 時系列の欠損値を埋めるのを助けるために、padrtsibble パッケージは暗黙の欠損値を入力するためのメソッドを提供します。
    • 動的タイムワーピングに基づく時系列の代入は、一変量時系列についてはDTWBIで、多変量時系列についてはDTWUMIで実装されています。
    • naniarは、関数impute_belowを使った探索的グラフィカル解析の範囲を下回るデータも補完しました。
    • TARは、欠損データがある場合に、ガウスノイズを使用した自己回帰しきい値モデル、およびベイズ法を使用した正値時系列の推定を実装しています。
    • swgeeは、SIMEXに基づく共変量で観測値と測定誤差が欠落している経度データに対して確率加重一般化推定方程式法を実装しています。
    • icenRegは、区間データに対する打ち切り応答の代入を実行します。
    • imputeTestbenchは、一変量時系列で欠測データ代入をベンチマークするツールを提案します。
  • 空間データ:
    • 空間データの代入は、空間距離重み付き補間またはクリギングを使用してphylinで実装されます。
    • gapfillは、衛星データに特化しています。
    • 不規則な空間サポートによるデータの地球統計学的内挿は、rtopに実装されています。
  • 時空間データ:
    • 時空間データの代入は、knnおよびSVDとは異なる方法を使用してパッケージcutoffRに実装されます。
    • reddPrecは、異なる場所での日降水量時系列の欠損値を決定します。
    • sptemExpは、欠損データの大気汚染物質濃度を決定します。
  • グラフ/ネットワーク:
    • グラフ/ネットワークの代入は、欠損辺を補うためにパッケージdilsに実装されています。
    • PSTは、欠損値を含む可能性がある個々のシーケンスのセットからVLMC(可変長マルコフ連鎖)モデルを学習し、最適化するための関数を含む、確率サフィックスツリーを分析するためのフレームワークを提供します。
  • 分割表の代入は、データが欠落している分割表の分析にも使用できる、loriで実装されています。
  • 構成データの代入(CODA)は、robCompositions(kNNまたはEMアプローチに基づく)およびzCompositions(ゼロ、左打ち切りおよび欠損データのさまざまな代入方法)で実装されています。
  • 拡散過程のための代入は、ブラウンブリッジで欠けているサンプルパスを代入することによってDiffusionRimpで実行されます。
  • experimentは、実験計画法における欠損値を扱います。例えば、共変量と結果データがない無作為化実験、結果がない対合計画法です。
  • cdparcoordは、平行座標設定で欠損値を処理します。

特定のアプリケーション分野

  • 遺伝学:
    • SNPassocは、SNP研究(遺伝学)の場合に欠けているデータを視覚化する機能を提供します。
    • SNPハプロタイプを用いたケース – 親トライアドおよび/またはケース – コントロールデータの分析は、欠損遺伝子型データがEMアルゴリズムで処理されるHaplinで実施されています。
    • FamEventsnpStatsは、それぞれEMアルゴリズムと最近傍アプローチを使用して、欠損遺伝子型の代入を実装します。
    • 遺伝子型とハプロタイプの代入は、血統データベースの決定論的手法を使ってalleHapに実装されています。
    • また、欠損遺伝子型の代入は、QTL解析のためのツールを含むQTLRelにも実装されています。
    • 二対立遺伝子遺伝マーカーデータおよび多対立遺伝子マーカーデータについてのHardy-Weinberg平衡のためのツールはHardyWeinbergで実施され、そこでは遺伝子型は多項ロジットモデルで帰属されます。
    • SNP遺伝子型データセットに欠損データが含まれている場合は、StAMPP がゲノムの関係を計算し、SIMEXアルゴリズムの変種を使用して、欠損父系に影響を受けた血統構造の近親交配抑制または遺伝率をPSIMEX が計算します。
  • ゲノミクス:
    • 単一細胞RNA配列決定データ中のドロップアウト事象(すなわち、mRNA分子のアンダーサンプリング)についての解釈は、DrImputeおよびRmagicにおいて実施されています。
    • RNAseqNetは、ホットデッキ代入を使用して、補助データセットを用いたRNA-seqネットワーク推論を改善します。
  • 系統発生:
    • Rphyloparsは、系統発生(形質/種)データセットの推定進化モードで、祖先状態の再構築と欠損データの補完を実行できます。
    • TreeParTreeSimは、それぞれ系統発生の出生率と死亡率を推定し、不完全系統発生(欠落種)を持つ系統樹をシミュレートします。
  • 疫学:
    • powerlmmは、混合線形モデルにおけるドロップアウトと欠損データの存在下で時間x治療効果のべき乗計算を実行します。
    • psevalは、欠損反事実的代理応答の存在下で単一の臨床試験で主要な代理を評価します。
    • idemは、死亡によるものではない観測されていない機能的結果を処理するための感度分析戦略を使用して、欠測データ補完を提供します。
  • 因果推論:
    • cobaltは、複数の帰属データセットから変数のバランスを計算します。
    • 同様に、対話型固定効果モデルによる因果推論は、欠損値を行列補完で処理してgsynthで利用できます。
    • 欠損データや代入を診断するのに役立つ感度分析は、TippingPointに実装されています。
    • さらに、MAR仮定の感度分析は、欠損データの単調および非単調パターンの下でsamonに実装されます。
  • スコアリング:
    • スコアリングデータセットに欠損データを代入するための基本的な方法(平均値、中央値、最頻値など)がscorecardModelUtilsで提案されています。
  • 嗜好モデル:
    • 嗜好モデルの欠損データは、prefmodでMCARおよびMNARパターンを考慮に入れることを可能にするComposite Linkアプローチで処理されます。
  • 管理記録:
    • fastLinkは、欠損データと補助的な情報を含めることを可能にするFellegi-Sunter確率的記録リンケージを提供します。
  • 回帰と分類:
    • eigenmodelは、対称関係データの回帰モデルで欠損値を処理します。
    • randomForestStratifiedRFは、ランダムフォレストのような方法で予測子の欠損値を処理します。
  • robustraoは、分類されていない参考文献を含むデータを使用して、Rao-Stirling多様性指数(科学出版物の学際性を測定するための確立された計量書誌学的指標)を計算します。

関連する記事

  • R言語 CRAN Task View:メタアナリシスR言語 CRAN Task View:メタアナリシス CRAN Task View: Meta-Analysisの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。 Maintainer: Michael Dewey Contact: info at […]
  • R言語 CRAN Task View:RグラフィカルモデルR言語 CRAN Task View:Rグラフィカルモデル CRAN Task View: gRaphical Models in Rの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。 Maintainer: Soren Hojsgaard Contact: sorenh at […]
  • R言語 CRAN Task View:水文データとモデリングR言語 CRAN Task View:水文データとモデリング CRAN Task View: Hydrological Data and Modelingの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。 Maintainer: Sam Zipper, Sam Albers, Ilaria Prosdocimi Contact: samuelczipper at […]
  • R言語 CRAN Task View:Web技術とサービスR言語 CRAN Task View:Web技術とサービス CRAN Task View: Web Technologies and Servicesの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。 Maintainer: Scott Chamberlain, Thomas Leeper, Patrick Mair, Karthik Ram, Christopher […]
  • R言語 CRAN Task View:関数データ解析R言語 CRAN Task View:関数データ解析 CRAN Task View: Functional Data Analysisの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。 Maintainer: Fabian Scheipl Contact: fabian.scheipl at […]
R言語 CRAN Task View:欠損データ