R言語 CRAN Task View:異常検出

CRAN Task View: Anomaly Detectionについて、機械翻訳を交えて日本語化し掲載しております。

概要

Maintainer: Priyanga Dilini Talagala, Rob J. Hyndman, Gaetano Romano
Contact: priyangad at uom.lk
Version: 2025-10-21
URL: https://CRAN.R-project.org/view=AnomalyDetection
Source: https://github.com/cran-task-views/AnomalyDetection/
Contributions: このタスクビューに対する提案や改良は、GitHubのissueやpull request、またはメンテナのアドレスに電子メールで送ってください。詳しくは Contributing guideをご覧ください。
Installation: このタスクビューのパッケージは、ctvパッケージを使用して自動的にインストールすることができます。例えば、ctv::install.views(“AnomalyDetection”, coreOnly = TRUE) はコアパッケージを全てインストールし、ctv::update.views(“AnomalyDetection”)はまだインストールしていない最新状態のパッケージを全てインストールする。詳しくは、CRAN Task View Initiativeを参照してください。

このCRANタスクビューは、異常検出のためのRパッケージの包括的なリストを提供します。異常検出の問題には多くの側面があり、使用される手法は、異常の定義方法、入力データの種類、期待される出力などの要因によって左右されます。これらの多様性により、問題の定式化は多様化し、異なる分析アプローチが必要になります。このタスクビューは、さまざまなデータタイプと検出手法への適用性に基づいてツールを整理することで、ユーザーが利用可能なツールを容易に選択できるようにします。

異常は、適用分野に応じて、外れ値、新規性、異常値、極値、障害、異常など、さまざまな名称で呼ばれることがよくあります。このタスクビューでは、これらの用語は同じ意味で使用されます。この概要では、単変量、多変量、空間、時間、および関数データに適用可能な手法を網羅しており、ユーザーがさまざまな分析ニーズに適したツールを特定できるようにします。異常検出を主眼に置いていないものの、異常検出のための十分な機能を提供するパッケージも含まれています。

異常検出がマイナーな機能に過ぎない、または非常に限られた機能しか提供しないパッケージは除外されています。時代遅れ、冗長、または十分なサポートがないツールも考慮されていません。

ナビゲーションを容易にするため、タスクビューは明確に定義されたセクションに分かれており、単変量外れ値検出、多変量検出(さらに密度ベース、距離ベース、クラスタリングベース、角度ベース、決定木ベースの手法に分類可能)、時系列データ、空間および時空間データ、機能データ、その他の専門的なアプローチが含まれています。このタスクビューのツールは、ClusterEpidemiologyExtremeValueTimeSeriesのタスクビューにリストされているツールと一部重複しています。

単変量外れ値検出

単変量外れ値検出法は、単一の特徴空間内の値に焦点を当てます。

  • univOutlは、Hidiroglou-Berthelot法など、単変量外れ値を検出するための様々な手法が含まれています。また、歪んだ分布に対処するための手法もこのパッケージに含まれています。

  • dixonTestは、小規模かつ正規分布するサンプルにおける外れ値検出のためのDixon比検定を提供します。

  • hotspotsは、任意の値の統計分布からの逸脱度と他の値との類似度の両方に基づいて、不均衡に高い値を識別することで、単変量外れ値検出をサポートします。

  • outliersは、外れ値を識別するために一般的に使用される一連の検定を提供します。ほとんどの関数では、入力は数値ベクトルです。引数がデータフレームの場合、sapply()によって各列の外れ値が計算されます。行列が指定された場合、apply()によって同じ動作が適用されます。

  • extremevaluesは、単変量データの外れ値検出およびプロット関数を提供します。本研究では、データ内の値が推定分布から抽出される可能性が低い場合、その値は外れ値とみなされます。

  • funModelingは、上位/下位X%、Tukeyの箱ひげ図定義、Hampel法を用いた外れ値検出ツールを提供します。

  • alphaOutlierは、よく知られた確率分布に対するAlpha-Outlier領域(Davies and Gather (1993)によって提案された領域)を提供します。

多変量外れ値検出

多変量、高次元、または多次元のシナリオでは、n(>2)次元空間に焦点が当てられ、すべての属性が同じタイプであるか、カテゴリや数値などの異なるタイプが混在している可能性があり、アルゴリズムの実装と範囲に直接影響を及ぼします。高次元データにおける異常検出の問題は3つあり、(a)グローバル異常、(b)ローカル異常、(c)マイクロクラスターまたは異常のクラスターの検出を伴います。グローバル異常は、その属性に関して密集領域とは大きく異なります。対照的に、ローカル異常は、そのローカル近傍と区別され、比較される場合にのみ異常となります。マイクロクラスター、または異常のクラスターは、マスキングの問題を引き起こす可能性があります。多変量外れ値検出手法の次の分類は、密度ベースの外れ値検出、距離ベースの外れ値検出、クラスタリングベースの外れ値検出、角度ベースの外れ値検出、および決定木ベースのアプローチを含む、基礎となる方法論的原則に基づいています。

多変量外れ値検出:密度ベースの外れ値検出

  • 局所外れ値係数(LOF)は、与えられたデータポイントの近傍に対する局所的な偏差を測定することにより、異常なデータポイントを検出するアルゴリズムです。 このアルゴリズムは、いくつかのバリエーションを伴い、多くのパッケージでサポートされています。

    • DescToolsは、LOFとTukeyの箱ひげ図定義を用いた外れ値検出のための関数を提供します。

    • dbscanの関数LOF()およびGLOSHは、kd-treeを使用してkNN検索を高速化する密度ベースの異常検出手法を提供します。

    • 複数のCPUを使用して大規模データセットのLOF計算を大幅に高速化するLOFの並列実装は、Rlofで利用できます。

    • bigutilsrは、大規模データにおける外れ値検出のためのユーティリティ関数を提供します。これには、ヒストグラムからの逸脱に基づくLOFおよび外れ値検出手法が含まれています。

  • SMLoutliersは、数値で構成される多変量データにおける外れ値検出のための局所相関積分法(Lof:密度ベースの局所外れ値の識別)の実装を提供します。

  • ldbodは、局所密度ベースの外れ値スコアを計算するための柔軟な関数を提供します。入力データまたはユーザー指定の参照データセットをサブサンプリングして外れ値スコアを計算できるため、教師なしおよび半教師ありの外れ値検出が可能です。

  • kernlabは、新規性検出のための1クラスサポートベクターマシンを含む、カーネルベースの機械学習手法を提供します。

  • amelieは、多変量クロスセクションデータに対するバイナリ分類として異常検出を実装します。

  • densratioの推定密度比関数は、異常検出、変化点検出、共変量シフト適応など、多くのアプリケーションで使用できます。

  • lookoutは、leave-one-outカーネル密度推定値と極値理論を用いて外れ値を検出します。カーネル密度推定値の帯域幅は、位相データ解析の手法であるパー​​システントホモロジーを用いて計算されます。また、persisting_outliers()関数を使用することで、帯域幅と有意水準を変化させながら外れ値の発生と消滅を探索する機能も備えています。

  • wbaconの重み付き BACON(ブロック化適応型計算効率の高い外れ値ノミネータ)アルゴリズムは、多変量外れ値検出とロバスト線形回帰のためのBACONアルゴリズムの重み付き版を実装しています。これらの手法では、典型的なデータが楕円曲線分布に従うと仮定しています。

多変量外れ値検出:距離ベースの外れ値検出

  • HDoutliersは、カテゴリ変数と連続変数が混在するデータや外れ値マスキング問題に対応可能な、単変量および多変量外れ値検出アルゴリズムの実装を提供します。

  • strayは、「HDoutliers」アルゴリズムの限界に対処する、高次元データの異常検出アルゴリズムを実装します。異常閾値の計算には、極値理論に基づくアプローチが用いられます。

  • Routliersは、単変量(中央絶対偏差法)および多変量外れ値(マハラノビス最小共分散行列式法)を検出するための堅牢な手法を提供します。

  • modiは、欠損値(不完全な調査データ)が存在する場合の多変量外れ値検出のためのマハラノビス距離または深度ベースのアルゴリズムを実装します。

  • CerioliOutlierDetectionは、堅牢なマハラノビス距離を用いた多変量外れ値検出のためのCerioli (2010)の反復RMCD法を実装します。

  • rrcovHDは、ロバストなマハラノビス距離と主成分分析に基づくロバストな多変量手法を用いて外れ値識別を行います。

  • mvoutlierは、多変量外れ値検出機能に基づく様々なロバストな手法を提供します。これには、適応的な外れ値カットオフ値を持つマハラノビス型手法、局所近傍法、構成データのための手法が含まれます。

  • DJLの関数dm.mahalanobis()は、外れ値検出のためのマハラノビス距離尺度を実装します。基本的な距離尺度に加えて、潜在的な外れ値を示す箱ひげ図が提供され、データクレンジングタスクの初期段階における洞察を提供します。

  • mvoutは、最小共分散行列式(MCD)推定量に基づくロバストなマハラノビス距離を用いて多変量外れ値を検出します。

  • outlierMBCは、ガウス混合モデルのための逐次外れ値識別を実装します。外れ値は、観測されたマハラノビス距離と理論分布を比較することで検出されます。また、スチューデント化残差を用いたガウス線形クラスター重み付けモデルの拡張も提供します。この手法は、モデルベースで距離駆動型の異常値識別を重視しています。

  • RMSDRMSDpの2つのパッケージは、楕円分布する多変量データセットにおいて、マハラノビス距離を用いて外れ値を検出するための修正スタヘル・ドノホ(MSD)推定量を実装しています。

    • RMSDはシングルコア実装を提供し、RMSDpは高次元データ向けに最適化された並列化バージョンを提供します。

多変量外れ値検出:クラスタリングベースの外れ値検出

  • kmodRは、高次元データにおけるクラスタリングと外れ値検出を同時に行う統一的なアプローチを提供します。このアプローチは、k平均法問題の一般化として形式化されています。

  • odetectorは、ファジーC平均法やその派生法などのソフトパーティショニングクラスタリングアルゴリズムを用いて、多変量外れ値を検出します。典型度が低い観測値は外れ値としてフラグ付けされます。

  • oclustは、ClarkとMcNicholas (2019)で説明されている手法を用いて、ガウス混合モデルに基づくクラスタリングにおいて外れ値を検出および除去する機能を提供します。

多変量外れ値検出:角度ベースの外れ値検出

  • abodOutlierは、高次元データに対して角度ベースの外れ値検出を実行します。完全法、ランダム法、KNN法の3つの手法が利用可能です。

多変量外れ値検出:決定木ベースのアプローチ

  • outliertreeは、決定木コンディショニングによる説明可能な外れ値検出手法を実現します。

  • bagged.outliertreesは、outliertreeに含まれる既存のOutlierTreeプロシージャのアンサンブル実装に基づく、説明可能な教師なし外れ値検出手法を提供します。この実装では、ブートストラップ集約(バギング)を利用して、マスキング効果とそれに伴う高い分散(Isolation Forest と同様)を低減することで堅牢性を向上させています。そのため、「Bagged OutlierTrees」という名前が付けられています。

  • isotreeは、Extended Isolation Forest、Fair-Cut Forest、SCiForest(別名 Split-Criterion iForest)、および通常のIsolation Forestの高速かつマルチスレッドな実装を提供し、分離ベースの外れ値検出、クラスター化された外れ値検出、距離または類似度の近似、ランダムまたはガイド付き決定木分割に基づく欠損値の補完を行います。また、カテゴリデータもサポートしています。

  • outForestは、多変量外れ値検出のためのランダムフォレストベースの実装を提供します。この手法では、各数値変数をランダムフォレストによって他のすべての変数に回帰します。観測値と対応するランダムフォレストのout-of-bag予測値との間の尺度絶対差が疑わしいほど大きい場合、その値は外れ値とみなされます。

  • solitudeは、距離や密度の尺度を用いずに、純粋に分離の概念に基づいて横断的表形式データ内の異常を検出する分離フォレストの実装を提供します。

  • bulkQCは、分離フォレストを用いて多変量外れ値を検出するためのind_multi()関数が含まれています。

多変量外れ値検出:その他のアプローチ

  • abnormalityは、対象者の異常性を基準集団と比較して測定します。このバイアスに対処するための手法が導入されており、高次元空間における全体的な異常性を正確に測定できます。この手法は、観測数が特徴量/変数の数よりも少ないデータセットに適用でき、実質的に任意の数のドメインまたは次元に抽象化できます。

  • ICSOutlierは、不変座標を用いて多変量外れ値検出を行い、適切なコンポーネントを選択するための様々な手法を提供します。現在の実装は、外れ値がごくわずかであるデータセットを対象としていますが、将来の拡張が準備されています。

  • sGMRFmixは、スパースガウスマルコフランダムフィールド混合を用いて、多変量ノイズを含むセンサーデータの異常検出手法を提供します。変数ごとの異常スコアを計算できます。

  • 異常検出用の人工ニューラルネットワークは、ANN2に実装されています。

  • proboutは、ノンパラメトリック外れ値統計量を用いて、多数の観測値を持つ多変量数値データの教師なし外れ値確率を推定します。

  • mrfDepthは、深度尺度を計算するツールと、外れ値検出、データ探索、多変量、回帰、関数データの分類などの関連タスクの実装を提供します。

  • evtclassは、極値理論に基づくオープンセット認識と新規性検出のための2つの分類器を提供します。

  • セルワイズ外れ値とは、データマトリックス内のエントリのうち、列間の関係を考慮し、同じ列の他のセルと行の他のセルに基づいて予想される値よりも大幅に高いか低い値を持つエントリです。cellWiseは、セルワイズ外れ値を検出するためのツールと、外れ値を含む可能性のあるデータを分析するための堅牢な手法を提供します。

  • 射影合同サブセット(PCS)は、基準を最小化するサブセットを探索することで、多変量​​外れ値を見つける手法です。PCS は FastPCSでサポートされています。

  • outlierensemblesは、外れ値/異常検出のためのアンサンブル関数を提供します。外れ値検出のための既存のアンサンブル手法に加えて、項目反応理論に基づくアンサンブル手法も提供します。

  • ShapleyOutlierは、シャプレー値とマハラノビス距離を用いて多変量外れ値を説明し、セル単位の異常を検出ま​​たは補完します。MayrhoferとFilzmoser (2023)で説明されている手法を実装しています。

  • HRTnomalyは、データ入力レベルでの履歴異常、関係異常、およびテール異常検出を提供します。分布フリースコアリング、ファジー論理、ベイジアンブートストラップ、および経験的尤度検定を用いて、他のデータポイントと容易に区別できない微妙な外れ値を特定します。構造化データセットにおける詳細なセル単位の異常検出に適しています。

時系列データ

時系列データの異常検出における課題は、(a)特定の系列内における文脈的異常(点異常)の検出、(b)特定の系列内における異常な部分列の検出、(c)系列集合内における異常な系列の検出、という3つに分けられます。

構造的ブレークとレジームシフトを識別するための関連アルゴリズムについては、時系列タスクビューの「変化点検出」セクションで説明します。変化点検出法は、時系列の統計特性における急激な変化を特定することを目的としており、これは概念的には異常な部分列の検出に類似しています。例えば、系列の連続したセグメントに一時的な逸脱をもたらす流行病のような状況では、これは特定の系列内における異常な部分列の検出と見なすことができます。

時系列データの異常検出方法は、時系列全体を遡及的に分析するオフライン(バッチ)手順と、データが順次到着するときに異常を検出するオンライン(シーケンシャル/リアルタイム)手順の2つのカテゴリに大別できます。

オフライン(バッチ)手順

これらの方法では、完全な時系列が分析に使用できることを前提としており、通常は異常を検出するために遡及的に適用されます。

  • trendsegmentRは、ボトムアップのアンバランスウェーブレット変換を用いて、単変量時系列における点状異常と線形トレンド変化を検出します。ウェーブレット分解を利用して信号とノイズを分離し、急激な変化と緩やかなトレンドシフトの両方を識別できます。

  • anomalyは、Collective And Point Anomaly (CAPA)、Multi-Variate Collective And Point Anomaly (MVCAPA)、Proportion Adaptive Segment Selection (PASS)、およびBayesian Abnormal Region Detector (BARD)手法を実装しています。これらの手法は、尤度ベースのセグメンテーションとベイズモデリングを組み合わせることで、単変量および多変量系列における局所的および全体的な異常の両方を検出します。

  • anomalizeは、time_decompose()、anomalize()、およびtime_recompose()を用いた簡潔なワークフローを提供します。このパッケージは、系列をトレンド、季節性、および残りの要素に分解し、ロバストな統計的閾値を用いて残りの要素における異常値を識別するため、Tidyverseパイプラインと互換性があります。

  • TSAは、古典的な時系列モデルを用いて加法性外れ値(AO)と革新的外れ値(IO)を検出するためのdetectAO()関数と detectIO()関数を提供します。AO検出は突発的なスパイクを識別し、IO検出はARIMAモデル構造を通じて伝播する異常を考慮します。

  • AnomalyScoreは、k 近傍法を用いて多変量時系列の異常スコアを計算し、複数の距離尺度を比較に利用できます。

  • washeRは、ノンパラメトリック検定を用いて時系列外れ値検出を実行します。入力は、データフレーム(グループ化された時系列: 現象 + 日付 + グループ + 値)またはベクトル(単一の時系列)です。

  • tsoutliersは、イノベーション外れ値、加法外れ値、レベルシフト、一時的変化、季節的レベルシフトなどの時系列外れ値を検出するためのChen-Liuアプローチを実装しています。

  • seasonalは、米国国勢調査局の季節調整ソフトウェアであるX-13-ARIMA-SEATSへの使いやすいインターフェースを提供します。外れ値検出を含む、X-13のほぼすべてのオプションと出力に完全にアクセスできます。

  • npphenは、ノンパラメトリック手法を用いて植生の季節的サイクルと異常を検出します。リモートセンシングまたはフィールド測定から得られた植生指標の時系列を処理し、ベクターデータと大規模ラスターデータの両方をサポートします。

  • ACAは、シリアル(時系列)データ内の急激な変化点または異常を検出するための対話型ツールを提供します。点系列内の重要な変化または異常を識別し、基礎となるプロセスダイナミクスにおける突然の変化の発生場所を特定するのに役立ちます。

  • outliers.ts.ogaは、飽和線形回帰モデル用の直交貪欲アルゴリズム(OGA)を用いて、単一または大規模な同種または異種の時系列データベース内の外れ値を検出および除去し、並列化によるスケーラブルな検出を提供します。

  • RobKFは、Ruckdeschelら (2014)、Agamennoniら (2018)、およびFischら(2020)の手法に基づいて、時系列内の加法的、革新的、または複合的な外れ値に対する堅牢なカルマンフィルタを実装します。

  • spectralAnomalyは、スペクトル残差アルゴリズムを用いて時系列内の異常を検出します。閾値ベースの外れ値検出または予測モデルへの統合のための異常スコアを提供します (Renら、2019)。

  • oddnetは、特徴ベースのアプローチを用いて時系列ネットワーク内の異常を検出します。各ネットワークの特徴が抽出され、時系列手法でモデル化され、時間的な依存性を考慮して時系列残差から異常が識別されます。

オンライン(順次/リアルタイム)手順

これらの手法は、新しいデータが到着すると異常を検出し、リアルタイムまたはほぼリアルタイムの監視をサポートします。多くの手法では、モデルのフィッティングまたはトレーニングのための最初のオフラインフェーズと、それに続くテストまたはフィルタリングフェーズが含まれ、多くの場合、スライディングウィンドウ、適応型閾値、または再帰モデルが使用されます。

  • oddstreamは、大規模なストリーミング時系列データコレクション内の異常な系列を早期に検出するためのアルゴリズムを実装しています。このモデルは、時系列特徴量を入力として密度ベースの比較を行い、特徴量の分布における重要な変化を検出します。

  • pasadrは、2段階アプローチを用いてセンサー測定を監視します。最初のトレーニングフェーズではベースラインのプロセス動作を推定し、その後、構造変化を順次検出します。テスト統計を継続的に更新することで、急激な逸脱とステルス攻撃などの微妙な操作の両方を検出できます。

  • kfinoは、カルマンフィルタベースの再帰推定器を用いて、ストリーミングまたはシーケンシャル時系列データ内のインパルスノイズ外れ値を検出します。このパッケージは、パラメータ推定に最大尤度(ML)アルゴリズムと期待値最大化(EM)アルゴリズムの両方をサポートしています。過去の全系列データにアクセスすることなく、各時間ステップで順次フィルタリング、予測、異常スコアリングを行うため、センサーや自動計測システムのリアルタイム監視に最適です。

空間データ

  • 非空間属性値が空間近傍のものと著しく異なる空間オブジェクトは、空間外れ値または異常な空間パターンと呼ばれます。

  • Enhanced False Discovery Rate (EFDR)は、画像内の異常を検出するためのツールです。EFDRは、完全または不完全な空間集約データから信号を検出するためのウェーブレットベースの拡張FDRを実装しています。また、このパッケージは、空間的に不規則なデータを必要なサイズのグリッドに補間するための基本的なツールも提供しています。

  • depth.plotの関数spatial.outlier()は、p変量データクラウド内の多変量空間外れ値、またはp変量観測値がp変量データクラウドに対して外れ値であるかどうかを特定するのに役立ちます。

時空間データ

  • CoordinateCleanerは、生物学および古生物学の出現データにおける一般的な空間的および時間的エラー(外れ値)を検出し、フラグを付ける自動化ツールを提供します。国名、生物多様性機関の位置、海洋点などの問題のある座標を特定し、種レベルの外れ値や丸め誤差をフラグ付けすることで、生態学および保全分析におけるデータ品質を向上させます。

  • scanstatisticsは、スキャン統計を用いて異常な時空間クラスターを検出します。データストリームの予測的監視を目的として設計されており、進行中のクラスターをスキャンし、モンテカルロシミュレーションによる仮説検定をサポートします。

関数データ

  • rainbowのfoutliers()関数は、機能的外れ値検出手法を提供します。機能データのバグプロットとボックスプロットは、それぞれ深さ(中心からの距離)が最も低い外れ値、または密度が最も低い外れ値を特定するために使用できます。

  • adamethodsは、小規模および大規模データベース、そして従来の多変量データと機能データ(単変量および多変量)の両方でアーキティポイドを取得するための複数のアルゴリズムを提供します。これらのアルゴリズムの一部は、異常値の検出も可能です。

  • ddalphaのshape.fd.outliers()関数は、機能データの順序拡張積分深度に基づいて、最初の3つの順序の機能的外れ値を検出します。

  • fda.uscは、尤度比検定、深度尺度、ブートストラップ標本の分位数など、さまざまなアプローチを用いて、機能データにおける外れ値検出(非典型曲線検出)のためのツールを提供します。

  • fdasrvfは、平方根速度フレームワークを用いて関数データ内の外れ値検出をサポートします。このフレームワークは、位相と振幅の分離による関数データの弾性解析を可能にします。

  • fdaoutlierは、関数データ解析における外れ値検出のための関数群を提供します。実装されている手法には、方向性外れ値、MSプロット、全変動深度、逐次変換などがあります。

  • DeBoinRは、関数箱ひげ図を用いて確率密度関数のアンサンブル内の外れ値を検出します。deboinr()関数は、関数を距離順に並べ、ユーザー定義の四分位範囲に基づいて外れ値にフラグを付けます。

  • mrctは、最小正規化共分散トレース(MRCT)推定量を用いて関数データ内の外れ値を検出します。

外れ値の可視化

  • OutliersO3は、多変量外れ値のパターンの表示と理解を支援するツールを提供します。データセット変数のあらゆる組み合わせにおける外れ値識別結果を用いて、特定のケースが外れ値である理由を洞察します。

  • Morphoは、幾何学的形態計測とメッシュ処理のためのツール群を提供します。コア機能に加え、外れ値を検出したり、ラベルが誤っているランドマークを切り替えたりするためのグラフィカルインターフェースも提供します。

  • StatDAは、環境データ内の外れ値を特定するための可視化ツールを提供します。

外れ値検出のための前処理方法

  • dobinは、近傍ベクトルを用いた外れ値検出のための次元削減手法を提供し、外れ値検出のための基底ベクトルセットを構築します。これにより、より少ない基底ベクトルを用いて外れ値を最前面に表示します。

具体的な応用分野

疫学への応用

  • ABPSは、血液ドーピングを検出するために複数の血液パラメータを単一のスコアに統合する異常血液プロファイルスコア(ABPS、世界アンチ・ドーピング機構のアスリート・バイオロジカル・パスポート・プログラムの一部)の実装を提供します。このパッケージには、OFFスコアなど、アンチ・ドーピング・プログラムで使用される他のスコアを計算する関数も含まれています。

  • surveillanceは、カウント、割合、カテゴリデータの時系列における異常検出、および疫病現象の連続時間点過程のモデリングのための統計的手法を実装しています。また、このパッケージには、複数の実世界のデータセットと、アウトブレイクデータをシミュレートし、モニタリング結果を時間的、空間的、または時空間的に視覚化する機能も含まれています。

  • outbreaker2は、疫学的および遺伝学的情報を用いた疾患アウトブレイクのベイズ再構築をサポートします。これは、高密度にサンプリングされた様々な疫病に適用可能であり、未観察症例や輸入症例の検出、病原体の複数回の導入を可能にすることで、従来のアプローチを改善します。

  • outbreaksは、RData またはテキストファイルのいずれかの形式で、経験的またはシミュレートされた疾病アウトブレイクデータを提供します。

環境科学 / 水文学 / 気象学への応用

  • precintcon (archived)は、降水強度、濃度、および異常を分析する関数が含まれています。

  • 「水質」を意味するwqlは、環境モニタリングプログラムからのデータ処理と探索を支援するための異常検出などの機能を提供します。

  • グラブス・ベック検定は、米国における洪水流量頻度計算における低外れ値検出のための連邦ガイドラインで推奨されています。MGBTは、正分布データと、米国地質調査所の年間ピーク流量データを非解釈的に処理するためのユーティリティに対して、多重グラブス・ベック低外れ値検定を実行します。

  • envoutliersは、カーネル回帰とそれに続く平滑化残差分析に基づいて、環境データの外れ値を検出するための3つのセミパラメトリック手法を提供します。

  • extremeIndexは、較正を条件として、極端事象の予測によってもたらされる情報量を測定する指標を計算します。この指標はもともと天気予報や気候予報のために設計されましたが、他の予測の文脈でも使用できます。

  • npphenは、ベクターデータとラスターデータの両方に適したノンパラメトリックカーネルベースの手法を用いて、植生の季節的サイクルと異常を検出し、予想される季節パターンからの逸脱を識別します。

生物医学および臨床研究への応用

  • survBootOutliersは、生存分析における外れ値検出のためのコンコーダンスベースのブートストラップ法を提供します。

  • referenceIntervalsは、外れ値検出を含むツール群を提供し、医療専門家が診断目的で限界付近の信頼区間を含む適切な基準範囲(区間)を計算できるようにします。

  • bulkQCは、多施設ランダム化試験における品質管理と外れ値識別のためのツールを提供します。複数の施設にまたがる複数の研究参加者のデータを分析し、共変量調整の有無にかかわらず、個人レベル(単変量および多変量)と施設レベルの両方で外れ値を検出します。

  • NMAoutlierは、ネットワークメタアナリシスにおける外れ値研究(極端な結果を示す研究)を検出するための順方向探索アルゴリズムを実装しています。

  • boutliersは、影響統計量のブートストラップ分布に基づいて、メタアナリシスのための外れ値検出と影響診断のための手法を提供します。

遺伝学とバイオインフォマティクスの応用

  • pcadaptは、主成分分析に基づく統計ツールを使用して、生物学的適応に関与する遺伝子マーカーを検出する手法を提供します。

  • GGoutlieRは、K近傍法を用いて、異常な地理遺伝学的パターンを持つ個体を検出し、可視化します。距離による隔離の仮定から逸脱する外れ値を特定し、統計的要約と地理的な可視化を提供します。

  • MALDIrppaは、MALDI質量分析データの品質管理、堅牢な前処理、および解析のための手法を提供します。

  • qpcRは、リアルタイムポリメラーゼ連鎖反応(qPCR)における速度論的外れ値検出(KOD)のための手法を実装します。

  • OmicsQCは、複数サンプルのゲノムシーケンス研究から得られた品質管理指標を分析し、品質の低いサンプルを特定します。サンプルごとの指標をZスコアに変換し、パラメトリック手法を用いてその分布をモデル化し、コサイン類似度外れ値検出を適用して潜在的な外れ値を特定します。

  • OutSeekRは、5つの統計量に基づいてRNA-seqおよび関連ゲノムデータにおける外れ値検出のためのアプローチを提供します。観測データにおけるこれらの統計量の分布を、シミュレートされたヌルデータにおける分布と比較することで、外れ値検定を実行します。

  • phylterは、遺伝子ツリーまたは行列を解析して種遺伝子の外れ値を特定することにより、系統ゲノムデータセット内の外れ値を検出・除去します。このパッケージは、複数の距離行列に対する多次元尺度法の一般化であるDistatisアプローチに基づいています。

地震学と地球科学の応用

  • ハンペルフィルタは、中央絶対偏差(MAD)を用いた堅牢な外れ値検出機能です。seismicRollは、ローリングハンペルフィルタを用いた外れ値検出を含む、地震学のための高速ローリング関数を提供します。

政治学と選挙分析

  • spikesは、再サンプリングされたカーネル密度法を使用して、投票シェア分布の不規則性から選挙詐欺を検出するためのツールを提供します。

金融と計量経済学の応用

  • crseEventStudyは、ロバストな標準化検定を用いて、長期イベントスタディにおける異常な株式リターンを検出します。異分散性、自己相関、ボラティリティのクラスタリング、そしてクロスセクション相関を考慮し、金融リターンにおける異常を確実に特定します。

データセット

  • anomalyは、ケプラー望遠鏡の光度曲線時系列データが含まれています。

  • outbreaksは、RDataまたはテキストファイル形式で、経験的またはシミュレーションによる疾病発生データを提供します。

  • weirdは、Hyndman (2024) 著『That’s Weird: Anomaly Detection Using R』で使用されているすべてのデータセットを提供します。

  • SCOUTerは、主成分分析を用いて制御された外れ値をシミュレートする手法を提供します。新しい観測値は、二乗予測誤差 (SPE) と Hotelling の T2 統計量の目標値に基づいて生成されるため、異常検出手法のテストと評価のための外れ値を正確に作成できます。

教育および関連リソース

  • OutliersLearnは、最も重要な外れ値検出アルゴリズムの実装を提供します。チュートリアルモードオプションが含まれており、各アルゴリズムの説明と、指定された入力パラメータを使用して与えられたデータから外れ値を識別する方法をステップバイステップで実行する方法が表示されます。このパッケージは、統計的アプローチ、距離ベースアプローチ、密度/クラスタリングアプローチの3つの主要なアプローチをカバーしています。

  • weirdは、 Hyndman(2024)のThat’s Weird: Anomaly Detection Using Rに付属しています。この書籍に掲載されている例を再現するために必要なすべてのデータセット、関数、およびサポートパッケージが含まれています。

  • UAHDataScienceOは、主要な外れ値検出アルゴリズムの実装をチュートリアルモードで提供します。チュートリアルでは、各アルゴリズムをステップバイステップで説明し、入力データから外れ値を識別する方法を示します。参考文献には、Boukerche et al. (2020)、Smiti (2020)、Su & Tsai (2011) などがあります。

その他

  • CircOutlierは、円-円回帰モデルにおける外れ値の検出、修正、およびモデルパラメータの推定を可能にします。

  • 残差合同サブセット(RCS)は、回帰分析において外れ値を検出する手法です。RCSはFastRCSでサポートされています。

  • SeleMixは、潜在変数アプローチを用いて外れ値と影響力のある観測値を検出するための関数を提供します。このパッケージは、応答変数yと関連する共変量に基づいて混合モデル(ガウス汚染モデル)を適合させ、誤差がパラメータ推定値に与える影響を定量化します。

  • compositionsは、組成データセットにおける様々な種類の外れ値を検出するための関数を提供します。

  • kuiper.2sampは、2標本カイパー検定を実行し、連続1次元確率分布の異常性を評価します。

  • enplsのenpls.od()関数は、アンサンブル部分最小二乗法を用いて外れ値検出を行います。

  • faoutlierは、探索的因子分析モデルおよび確認的因子分析モデルと構造方程式モデルに影響を与える可能性のある影響力のあるケースを検出して要約するためのツールを提供します。