CRAN Task View: Robust Statistical Methodsの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。

Maintainer: Martin Maechler
Contact: Martin.Maechler at R-project.org
Version: 2021-11-23
URL: https://CRAN.R-project.org/view=Robust

統計モデリングのための堅牢な(または「耐性」)の方法は、1980年代の初めから、Sで利用されてきました。その後、パッケージstatsのRにおいて。例としては、2003年にrunmed()によって補完されていた堅牢なノンパラメトリック回帰のため、lowess()(とloess())またはパッケージグラフィックで統計の背後にあるboxplot()、median()、mean(*,trim=)、mad()、IQR()、fivenum()です。更に多くの重要な機能は、推奨(したがって、すべてのRのバージョンに存在する)MASS(ビル・ベナブルズとブライアンリプリーによる、書籍Modern Applied Statistics with Sを参照してください)で利用可能になりました。最も重要なことは、彼らは堅牢な多変量散乱及び共分散のためのロバスト回帰とcov.rob()のためにrlm()を提供しています。

このタスクビューは、新しいかより速く、より効率的なアルゴリズムと、特に新しいモデル(のロバスト)のために提供されたRについてのアドオンパッケージです。

task view maintainerへの追加や拡張のための提案を送信してください。

ロバスト統計の分野で活躍する科学者たちの国際的なグループが、2005年10月から、分散していた開発を調整し、重要なものを相互に補完し合うRパッケージのセットで利用できるようにする努力をしています。

これらは、robustbaseの造語である「Essentials」という基本的なパッケージの上に構築され、(潜在的に多くの)他のパッケージがその上に構築され、特定のモデルやアプリケーションのために基本的な機能を拡張するものでなければなりません。

2020年以降、Robust Statistics: Theory and Methodsの第2版が出版されました。RobStatTMは、robustbaserrcovからのインポートを中心に、その推定量と例をカバーしています。

さらに、非常に包括的なパッケージであるrobustがあります。これは、S-PLUSのrobustライブラリのバージョンで、InsightfulとKjell KonisのおかげでGPLライセンスが与えられたRパッケージです。

もともと「robustbase」と「robust」の間には多くの重複がありましたが、現在のrobustrobustbaserrcovに依存しています。「robust」はカジュアルなユーザーに便利なルーチンを提供し、「robustbase」と「rrcov」は基本的な機能を含み、より高度な統計学者にロバストモデリングのための幅広いオプションを提供しています。

パッケージの構成は大まかに以下のようになっており、通常はまずrobustbaserrcovrobustの各パッケージの機能について説明します。

  • 回帰:
    • 線形回帰:
      • lmrob()(robustbase)とlmRob()(robust)。
      • 前者は速いSアルゴリズムと不均一と自己相関訂正された(HAC)標準誤差の最新を使用しています。
      • 後者はMaronnaと(2000)ヨハイのMSアルゴリズムを利用します。予測因子の中で要因が存在するときに自動的に。
      • (S-推定量(したがって、MM-推定量)はリサンプリングに基づいてどこに通常はひどく失敗)。ltsReg()とlmrob.S()関数は、robustbaseで利用できるのではなく、比較のために。
      • MASSのrlm()は、ロバスト線形モデルのための最初に広く利用できる実装されていて、非常に最初のMM-推定実装の1つです。
      • robustregは、(純粋なRで)線形回帰のための非常にシンプルなM-推定値を提供します。
      • Koenkerの分位回帰quantregは、L1スプライン経由でノンパラメトリック回帰のためにもそうする特別なケースとして、(別名LAD、最小絶対偏差)回帰が含まれていることに注意してください。
      • mblmの関数mblm()は、中央値ベース(タイルセンまたはシーゲルの繰り返された)単純な線形モデルに適合します。
    • 回帰の一般化線形モデル(GLMs):
      • 一般化線形モデル(GLM)は、glmrob()(robustbase)とglmRob()(robust)の両方で提供されます。
      • 堅牢な順序回帰は、rorutadis(UTADIS)によって提供されています。
      • drgeeは、「二重に堅牢な」一般化推定方程式(GEEs)が適合します。
      • complmrob は、共変量としての構成データによる堅牢な線形回帰を行います。
      • multinomRobは、カウントデータのために過分散多項回帰モデルに適合します。
    • 混合効果(線形および非線形)回帰:
      • 混合効果モデルの分位点回帰(したがってL1またはLAD)は、lqmmで利用できます。
      • rlmeからのランクベースの混合効果フィッティングに対して、ロバスト線形混合効果モデリングのためのMMのようなアプローチは、robustlmmから利用できます。
      • skewlmmは、歪んだ正規分布の尺度混合によるロバストな線形混合効果モデルLMMを提供します。
    • 非線形/平滑(ノンパラメトリック関数)回帰:
      • 堅牢な非線形モデルのフィッティングは、robustbaseのnlrob()で利用することができます。
      • robustgamは、堅牢GAMs、すなわち、堅牢な一般化加法モデルをフィットします。
  • 多変量解析:
    • ここでは、robustbase上(「依存先」)を構築するrrcovは、素敵なS4のクラスベースの方法、堅牢な多変量分散共分散推定のための複数の方法を提供し、堅牢なPCA方法が追加されます。
    • rrcovNAによって拡張され、不完全または欠損(NA)データに対して堅牢な多変量法を提供します。
    • これは、高次元のデータのための堅牢な多変量のメソッドを提供しているrrcovHDにより拡張されます。
    • 特化した堅牢なPCAパッケージは、pcaPP(Projection Pursuit経由)、rpca(「sparse」を含む)、rospcaです。 歴史的に、標準的なRのprincomp()を使用することによって堅牢なPCAを実行できることに注意してください。 例えば、X <- stackloss; pc.rob <- princomp(X, covmat= MASS::cov.rob(X))
    • robustbaseは、robustのfastmcd()、同様にcovOGK()用より少しより柔軟なバージョン、covMcd()が含まれています。
    • OTHOのrobust covRob()は、自動的に、大きな次元数pに対して特にpairwiseQC()メソッドを選択します。
    • robustXは、実験的、またはその他の、まだ確立されていない手順については、BACON()とcovNCC()が含まれている。後者は、WangとRaftery(2002)の近隣の分散推定(NNVE)を提供し、covRobustでもご入手いただけます。
    • RobRSVDは、堅牢な正則化特異値分解を提供しています。
    • mvoutlierrobustbase)は、高次元での外れ値を識別するためのいくつかの方法が用意されています。
    • GSEは、失われたデータの存在下で多変量場所と散乱を推定します。
    • RSKCは、Robust Sparse K-means Custeringを提供します。
    • 堅牢な混合物判別分析(RMDA)用robustDAは、ノイズの多いクラスラベルとの混合モデルの分類器を構築します。
    • robcorは、特にFastQn()にスケール推定値に基づいて強固なペアワイズ相関を計算します。
    • covRobustは、WangとRaftery(2002)の最近傍分散推定(NNVE)メソッドを提供します。堅牢なPCAは標準Rのprincomp()を用いて行うことができることに注意してください。
    • 例えば、X <- stackloss; pc.rob <- princomp(X, covmat= MASS::cov.rob(X))CRANタスクビューMultivariateおよびClusterを参照してください。
  • クラスタリング(多変量):
    • クラスタ耐性分散(/標準誤差)推定(別名「サンドイッチ」)は考慮していません。 むしろ例えば モデルベースおよび階層的クラスタリング手法、特に堅牢性に重点を置いています。
    • 「中央値付近の周りのパーティショニング」を実装しているclusterのpam()は部分的に堅牢ですが(非常に堅牢なk-meansの代わりにメジアン)、十分ではありません。 例えば、k個のクラスタは、残りのデータの大部分に対して1個のクラスタをk-1個の異常値から構成することができます。
    • 「本当に」堅牢なクラスタリングは、次のパッケージよって提供されます。
      • genie
      • Gmedian
      • otrimle(トリムされたMLEモデルベース)
      • tclust(ロバストなトリミングクラスタリング)
  • 大規模なデータセット:
    • BACON()(robustX)は、伝統的な堅牢共分散に基づく外れ値検出器よりも拡大(n,p)には適用すべきです。
    • OutlierDMは、複製された高スループット・データの異常値を検出します。(CRANタスクビューMachineLearningも参照してください。)
  • 記述統計/探索的データ解析:boxplot.stats()など、上記
  • 時系列:
    • Rのrunmed()はメディアンフィルタを実行している最も強力な提供しています。
    • robfilterは、一般的に繰り返される(加重)の中央値回帰に基づいて単変量時系列に対してロバスト回帰とフィルタリングの方法が含まれています。
    • RobPerは、特に不規則な間隔時系列に対して、堅牢なピリオドグラム推定のためのいくつかの方法が用意されています。
    • ピーター・ラックデュッシェルは、R-Forge上のrobust-tsを参照して、堅牢な時系列パッケージの努力をリードし始めています。
    • さらに、robKalman、「堅牢なカルマンフィルタACMおよびRLSフィルタのルーチン」は、R-フォージにrobkalmanを参照して、開発されています。
  • 計量経済学モデル:
    • 計量経済はHAC(不均一と自己相関が補正された)標準誤差を好む傾向があります。
    • モデルの広いクラスの場合、これらはsandwich、同様にclubSandwichclusterSEsによって提供されます。
    • そのVCOV(lmrob())にも注意してロバストに推定線形モデルのためのHAC標準誤差のバージョンを使用しています。
    • また、CRANタスクビューのEconometricsを参照してください。
  • バイオインフォマティクスのための堅牢な方法:
    • いくつかのパッケージは、特殊な堅牢な方法を提供するBioconductor projectにあります。
    • RobLoxBioCは、オミックスデータを前処理するための無限頑強な推定を提供しています。
  • 生存分析のための堅牢な方法:
    • coxrobustは、Coxモデルにおけるロバスト推定を提供しています。
  • 調査のための堅牢な方法:
    • R-forge上で唯一、rhteは、堅牢Horvitz-Thompson推定器を提供します。
  • 地球統計学:
    • georobは、クリギングなど多くの空間データ、の強固な地球統計分析を目的としています。
  • いくつかの方法論のコレクション:
    • WRS2は、ランドウィルコックスのコレクションからANOVA及びANCOVAための堅牢なテストが含まれています。
    • walrusは、WRS2の計算を基に構築され、異なるユーザーインターフェイスを提供します。
    • robethは、回帰、多変量推定、その他の多くの機能と豊富なRobETH FortranライブラリとのインタフェースのR関数が含まれています。
  • 堅牢で耐方法論に他のアプローチ:
    • distrとそのいくつかの子パッケージもロバスト推定の概念を探求することができます。例えば、R-Forge上のdistrを参照してください。
    • 特に、これらに基づいて、プロジェクトrobastを最適堅牢推定やテストの計算だけでなく、必要なインフラ(主に、S4クラスとメソッド)および診断のためのRパッケージの実装を目指す。M Kohl(2005)。これは、RパッケージRandVarRobAStBaseRobLoxRobLoxBioCRobRexが含まれています。さらに、ROptEstおよびROptRegTS
    • RobustAFTは、ガウスとlogWeibullエラーの堅牢な加速故障時間回帰を計算します。
    • 堅牢な分散メタ回帰のrobumeta
      • metaplusは、t-または正規分布の混合を介して頑健性を追加します。
    • ssmrobは、サンプル選択モデルでロバスト推定し、推定しています。

関連する記事

  • Ubuntu Cytoscapeのインストール手順Ubuntu Cytoscapeのインストール手順 Ubuntu16.04にCytoscapeをインストールする手順をお伝えいたします。 環境 今回の作業環境を確認しておきます。 Ubuntuのバージョン $ cat […]
  • Python 度数分布表から乱数を生成するPython 度数分布表から乱数を生成する Pythonで与えられた度数分布に従う乱数を生成する方法をご紹介する。 さっそくだが、全コードを以下に記す。 import random import matplotlib.pyplot as plt def random_freq_index(freq_list): """ 度数分布表から乱数を生成してインデックス番号を返します […]
  • R データフレームから特定の型の列を抽出する方法R データフレームから特定の型の列を抽出する方法 Rのデータフレームから特定の型の列を抽出する方法をお伝えします。 サンプルデータとして、irisを用います。 データフレームの構造をstr関数で確認します。 > str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 […]
  • R言語 CRAN Task View:確率分布R言語 CRAN Task View:確率分布 CRAN Task View: Probability Distributionsの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。 Maintainer: Christophe Dutang, Patrice Kiener Contact: Christophe.Dutang at […]
  • 相関係数相関係数 相関係数とは2変量のデータ間の関係性の強弱を計る統計学的指標である。相関係数rがとる値の範囲は-1≦r≦1である。相関係数rの値により以下のように呼ばれる。 -1≦r<0ならば負の相関 r=0ならば無相関 0<r≦1ならば正の相関 一般的に、強弱も合わせて以下のように呼ばれる。 […]
R言語 CRAN Task View:堅牢な統計的方法

R言語 CRAN Task View:堅牢な統計的方法」への1件のフィードバック

コメントは受け付けていません。