CRAN Task View: Robust Statistical Methodsの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。

Maintainer: Martin Maechler
Contact: Martin.Maechler at R-project.org
Version: 2020-12-07
URL: https://CRAN.R-project.org/view=Robust

統計モデリングのための堅牢な(または「耐性」)の方法は、1980年代の初めから、Sで利用されてきました。その後、パッケージstatsのRにおいて。例としては、2003年にrunmed()によって補完されていた堅牢なノンパラメトリック回帰のため、lowess()(とloess())またはパッケージグラフィックで統計の背後にあるboxplot()、median()、mean(*,trim=)、mad()、IQR()、fivenum()です。更に多くの重要な機能は、推奨(したがって、すべてのRのバージョンに存在する)MASS(ビル・ベナブルズとブライアンリプリーによる、書籍Modern Applied Statistics with Sを参照してください)で利用可能になりました。最も重要なことは、彼らは堅牢な多変量散乱及び共分散のためのロバスト回帰とcov.rob()のためにrlm()を提供しています。

このタスクビューは、新しいかより速く、より効率的なアルゴリズムと、特に新しいモデル(のロバスト)のために提供されたRについてのアドオンパッケージです。

task view maintainerへの追加や拡張のための提案を送信してください。

ロバスト統計の分野で働いている科学者の国際的なグループは、散乱開発のいくつかを調整し、お互いを補完Rパッケージのセットを介して重要なものを利用可能にするための努力(2005年10月以降)にしました。これらは、特定のモデルやアプリケーションに不可欠な機能を拡張する、上に構築する(潜在的に多くの)他のパッケージとの造語robustbase、「重要事項」で基本パッケージの上に構築する必要があります。さらに、今InsightfulとKjell KonisのおかげでGPLicensedのRパッケージとして、S-PLUSの堅牢なライブラリのバージョン、非常に包括的なrobustがあります。もともと、「robustbase」と「robust」との間に多くの重複があった。今robustは、robustbaseに依存しています。前者はカジュアルなユーザーのための便利なルーチンを提供します。後者は基本的な機能が含まれています。堅牢なモデリングのためのオプションの大規模な範囲でより高度な統計学者を提供します。

私たちは、大きく以下のトピックにパッケージを構築し、通常、最初のrobustbaserobustで機能性はもちろんします。

  • 回帰:
    • 線形回帰:
      • lmrob()(robustbase)とlmRob()(robust)。
      • 前者は速いSアルゴリズムと不均一と自己相関訂正された(HAC)標準誤差の最新を使用しています。
      • 後者はMaronnaと(2000)ヨハイのMSアルゴリズムを利用します。予測因子の中で要因が存在するときに自動的に。
      • (S-推定量(したがって、MM-推定量)はリサンプリングに基づいてどこに通常はひどく失敗)。ltsReg()とlmrob.S()関数は、robustbaseで利用できるのではなく、比較のために。
      • MASSのrlm()は、ロバスト線形モデルのための最初に広く利用できる実装されていて、非常に最初のMM-推定実装の1つです。
      • robustregは、(純粋なRで)線形回帰のための非常にシンプルなM-推定値を提供します。
      • Koenkerの分位回帰quantregは、L1スプライン経由でノンパラメトリック回帰のためにもそうする特別なケースとして、(別名LAD、最小絶対偏差)回帰が含まれていることに注意してください。
      • mblmの関数mblm()は、中央値ベース(タイルセンまたはシーゲルの繰り返された)単純な線形モデルに適合します。
    • 回帰の一般化線形モデル(GLMs):
      • 一般化線形モデル(GLM)は、glmrob()(robustbase)とglmRob()(robust)の両方で提供されます。
      • 堅牢な順序回帰は、rorutadis(UTADIS)によって提供されています。
      • drgeeは、「二重に堅牢な」一般化推定方程式(GEEs)が適合します。
      • complmrob は、共変量としての構成データによる堅牢な線形回帰を行います。
      • multinomRobは、カウントデータのために過分散多項回帰モデルに適合します。
    • 混合効果(線形および非線形)回帰:
      • 混合効果モデルの分位点回帰(したがってL1またはLAD)は、lqmmで利用できます。
      • rlmeからのランクベースの混合効果フィッティングに対して、ロバスト線形混合効果モデリングのためのMMのようなアプローチは、robustlmmから利用できます。
    • 非線形/平滑(ノンパラメトリック関数)回帰:
      • 堅牢な非線形モデルのフィッティングは、robustbaseのnlrob()で利用することができます。
      • robustgamは、堅牢GAMs、すなわち、堅牢な一般化加法モデルをフィットします。
  • 多変量解析:
    • ここでは、robustbase上(「依存先」)を構築するrrcovは、素敵なS4のクラスベースの方法、堅牢な多変量分散共分散推定のための複数の方法を提供し、堅牢なPCA方法が追加されます。
    • rrcovNAによって拡張され、不完全または欠損(NA)データに対して堅牢な多変量法を提供します。
    • これは、高次元のデータのための堅牢な多変量のメソッドを提供しているrrcovHDにより拡張されます。
    • 特化した堅牢なPCAパッケージは、pcaPP(Projection Pursuit経由)、rpca(「sparse」を含む)、rospcaです。 歴史的に、標準的なRのprincomp()を使用することによって堅牢なPCAを実行できることに注意してください。 例えば、X <- stackloss; pc.rob <- princomp(X, covmat= MASS::cov.rob(X))
    • robustbaseは、robustのfastmcd()、同様にcovOGK()用より少しより柔軟なバージョン、covMcd()が含まれています。
    • OTHOのrobust covRob()は、自動的に、大きな次元数pに対して特にpairwiseQC()メソッドを選択します。
    • robustXは、実験的、またはその他の、まだ確立されていない手順については、BACON()とcovNCC()が含まれている。後者は、WangとRaftery(2002)の近隣の分散推定(NNVE)を提供し、covRobustでもご入手いただけます。
    • RobRSVDは、堅牢な正則化特異値分解を提供しています。
    • mvoutlierrobustbase)は、高次元での外れ値を識別するためのいくつかの方法が用意されています。
    • GSEは、失われたデータの存在下で多変量場所と散乱を推定します。
    • RSKCは、Robust Sparse K-means Custeringを提供します。
    • 堅牢な混合物判別分析(RMDA)用robustDAは、ノイズの多いクラスラベルとの混合モデルの分類器を構築します。
    • robcorは、特にFastQn()にスケール推定値に基づいて強固なペアワイズ相関を計算します。
    • covRobustは、WangとRaftery(2002)の最近傍分散推定(NNVE)メソッドを提供します。堅牢なPCAは標準Rのprincomp()を用いて行うことができることに注意してください。
    • 例えば、X <- stackloss; pc.rob <- princomp(X, covmat= MASS::cov.rob(X))CRANタスクビューMultivariateおよびClusterを参照してください。
  • クラスタリング(多変量):
    • クラスタ耐性分散(/標準誤差)推定(別名「サンドイッチ」)は考慮していません。 むしろ例えば モデルベースおよび階層的クラスタリング手法、特に堅牢性に重点を置いています。
    • 「中央値付近の周りのパーティショニング」を実装しているclusterのpam()は部分的に堅牢ですが(非常に堅牢なk-meansの代わりにメジアン)、十分ではありません。 例えば、k個のクラスタは、残りのデータの大部分に対して1個のクラスタをk-1個の異常値から構成することができます。
    • 「本当に」堅牢なクラスタリングは、次のパッケージよって提供されます。
      • genie
      • Gmedian
      • otrimle(トリムされたMLEモデルベース)
      • snipEM(snipping EM)
      • tclust(ロバストなトリミングクラスタリング)
  • 大規模なデータセット:
    • BACON()(robustX)は、伝統的な堅牢共分散に基づく外れ値検出器よりも拡大(n,p)には適用すべきです。
    • OutlierDMは、複製された高スループット・データの異常値を検出します。(CRANタスクビューMachineLearningも参照してください。)
  • 記述統計/探索的データ解析:boxplot.stats()など、上記
  • 時系列:
    • Rのrunmed()はメディアンフィルタを実行している最も強力な提供しています。
    • robfilterは、一般的に繰り返される(加重)の中央値回帰に基づいて単変量時系列に対してロバスト回帰とフィルタリングの方法が含まれています。
    • RobPerは、特に不規則な間隔時系列に対して、堅牢なピリオドグラム推定のためのいくつかの方法が用意されています。
    • ピーター・ラックデュッシェルは、R-Forge上のrobust-tsを参照して、堅牢な時系列パッケージの努力をリードし始めています。
    • さらに、robKalman、「堅牢なカルマンフィルタ?ACM-およびRLS-フィルタのルーチン」は、R-フォージにrobkalmanを参照して、開発されています。

これらの(最後の2つの項目)がCRANからまだ利用できないことに注意してください。

  • 計量経済学モデル:
    • 計量経済はHAC(不均一と自己相関が補正された)標準誤差を好む傾向があります。
    • モデルの広いクラスの場合、これらはsandwichによって提供されます。
    • そのVCOV(lmrob())にも注意してロバストに推定線形モデルのためのHAC標準誤差のバージョンを使用しています。
    • また、CRANタスクビューのEconometricsを参照してください。
  • バイオインフォマティクスのための堅牢な方法:
    • いくつかのパッケージは、特殊な堅牢な方法を提供するBioconductor projectにあります。
    • RobLoxBioCは、オミックスデータを前処理するための無限頑強な推定を提供しています。
  • 生存分析のための堅牢な方法:
    • coxrobustは、Coxモデルにおけるロバスト推定を提供しています。
    • OutlierDCは、打ち切りデータのための分位回帰を用いて異常値を検出します。
  • 調査のための堅牢な方法:
    • R-forge上で唯一、rhteは、堅牢Horvitz-Thompson推定器を提供します。
  • 地球統計学:
    • georobは、クリギングなど多くの空間データ、の強固な地球統計分析を目的としています。
  • いくつかの方法論のコレクション:
    • WRS2は、ランドウィルコックスのコレクションからANOVA及びANCOVAための堅牢なテストが含まれています。
    • walrusは、WRS2の計算を基に構築され、異なるユーザーインターフェイスを提供します。
    • robethは、回帰、多変量推定、その他の多くの機能と豊富なRobETH FortranライブラリとのインタフェースのR関数が含まれています。
  • 堅牢で耐方法論に他のアプローチ:
    • distrとそのいくつかの子パッケージもロバスト推定の概念を探求することができます。例えば、R-Forge上のdistrを参照してください。
    • 特に、これらに基づいて、プロジェクトrobastを最適堅牢推定やテストの計算だけでなく、必要なインフラ(主に、S4クラスとメソッド)および診断のためのRパッケージの実装を目指す。M Kohl(2005)。これは、RパッケージRandVarRobAStBaseRobLoxRobLoxBioCRobRexが含まれています。さらに、ROptEstおよびROptRegTS
    • RobustAFTは、ガウスとlogWeibullエラーの堅牢な加速故障時間回帰を計算します。
    • 堅牢な分散メタ回帰のrobumeta
      • metaplusは、t-または正規分布の混合を介して頑健性を追加します。
    • ssmrobは、サンプル選択モデルでロバスト推定し、推定しています。

関連する記事

  • Googleアナリティクスとコレスポンデンス分析を用いた年齢別のユーザー像の捉え方Googleアナリティクスとコレスポンデンス分析を用いた年齢別のユーザー像の捉え方 ページビュー数やコンバージョン率を上げるためには、良質なコンテンツが大切であるとよく言われる。そして、良質なコンテンツを作成するためには、ユーザー像を具体的に思い描き、そのユーザーに向けてコンテンツを作成しなくてはならない。 ここでは、ページビュー数から年齢とページの関係性を視覚的に確認し、年齢別にユーザーがどのコンテンツに興味を抱くか、その傾向を探っていく。この傾向が […]
  • 基本統計量基本統計量 [latexpage] 基本統計量とは、データの基本的な特徴を表す値のことで、代表値と散布度に区分できる。代表値とは、データを代表するような値のことで、例えば、平均値、最大値、最小値などがある。散布度とは、データの散らばり度合いを表すような値のことで、例えば、分散、標準偏差などがある。 平均値 […]
  • 適切な回答を得るためのアンケートの作り方適切な回答を得るためのアンケートの作り方 アンケートは正しく質問をしないと、適切な回答が得られずにアンケートが持つ情報の価値が半減すると言っても過言ではない。 アンケートを回答しているときの気持ちを思い出して欲しい。おそらく、さっさと終わらせようと思いながら回答用紙に記入しているのではないだろうか。 あなたが質問者の側になったときは、この気持ちを常に念頭に置いて質問を考えよう。 ここでは、質問を作成 […]
  • Ubuntu14.04でPython3に対応したmatplotlibを使用するための手順Ubuntu14.04でPython3に対応したmatplotlibを使用するための手順 Ubuntu14.04でPython3に対応したmatplotlibを使用するための手順をご紹介する。 1. […]
  • 決定木 – 回帰木決定木 – 回帰木 ここでは、決定木の目的変数が連続値である場合の回帰木について、R言語の「rpart」パッケージを用いて簡単に見ていく。 まずは必要となるパッケージのインストールとロードを行う。「rpart」パッケージは決定木を行うためのものだが、「rpart.plot」と「partykit」パッケージは結果を視覚的に表示するために使うので、あらかじめインストールとロードをしておく。 […]
R言語 CRAN Task View:堅牢な統計的方法

R言語 CRAN Task View:堅牢な統計的方法」への1件のフィードバック

コメントは受け付けていません。