CRAN Task View:Cluster Analysis & Finite Mixture Modelsの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。

Maintainer: Friedrich Leisch and Bettina Gruen
Contact: Bettina.Gruen at jku.at
Version: 2017-05-03
URL: https://CRAN.R-project.org/view=Cluster

このCRANタスクビューには、データ内のグループを見つけ出し、観測されていない断面異質性をモデル化するために使用できるパッケージのリストが含まれています。 多くのパッケージは、以下に挙げるトピックのうちの複数の機能を提供します。セクションの見出しは、主に最終的な分類ではなく、クイックな出発点です。 パッケージstatsとcluster(ベースRに付属しているため、すべてのRインストールの一部です)を除き、各パッケージは1回だけリストされます。

このCRANのタスクビューにリストされているパッケージのほとんどは、GPLの下で配布されています。 どのパッケージが配布されているかを調べるには、各パッケージのDESCRIPTIONファイルを見てください。

階層的クラスタリング:

  • clusterからパッケージstatsとagnes()から関数hclust()が凝集型階層クラスタリングのための主要な機能である、関数diana()は分裂階層的クラスタリングのために使用することができます。hclust()の迅速な代替案は、パッケージfastclusterflashClustによって提供されています。
  • statsと関連する方法から機能dendrogram()は、クラスタ・デンドログラムのための改良された視覚化のために使用することができる。
  • dendextendパッケージは、簡単に可視化するための機能(着色ラベルや枝等)、操作(回転、剪定など)およびデンドログラム(有意性のための順列テストとブートストラップのツリー相関測定および最適分岐ローテーションのためのヒューリスティックtangelgramsの比較を示します。
  • パッケージdynamicTreeCutは、階層的クラスタリングデンドログラム中のクラスタを検出するためのメソッドが含まれています。
  • パッケージのgenie は、大規模なデータセットの使用を可能にするために、計算効率を維持しながら、連携方法をrobustifyするジニ格差尺度と組み合わせ、単一の連結方法の変形であるリンケージ基準をもつ高速な階層的クラスタリングアルゴリズムを実装しています。
  • hybridHclustは、相互クラスタによりハイブリッド階層的クラスタリングを実装しています。
  • パッケージidendr0 は、階層的クラスタリングの樹形図とクラスタ化されたデータを対話的に探索できます。 データはビルトインヒートマップでビジュアル化(および対話)することができますが、GGobiの動的インタラクティブグラフィックス(rggobiによって提供されます)またはベースRプロットでも表示できます。
  • パッケージisopamは、アイソメトリックフィーチャマッピングからの調整スコアの分類に基づいてアルゴリズムを使用しています。分類は、階層的な、分裂法として、あるいは非階層パーティションのいずれかとして実行されます。
  • パッケージprotoclustは、系統樹の各内側ノードとプロトタイプの要素を関連付け階層的クラスタリングのフォームを実装しています。パッケージのplot()関数を使用して、1つのプロトタイプで標識されているので、解釈が容易である樹状図を生成することができる。
  • pvclustは、階層的クラスター分析の不確実性を評価するためのパッケージである。約公平なp値だけでなく、ブートストラップp値を提供します。
  • p個の変数が使用可能な場合、パッケージsparclは、p>>n、n個の観測のセットのクラスタリングを提供します。これは、適応的に観測をクラスタリングする際に使用する変数のセットを選択します。スパースK平均クラスタリングとまばらな階層的クラスタリングが実装されています。

パーティショニング・クラスタリング:

  • パッケージstatsから関数kmeans()は、ユークリッド距離に関してパーティションを計算するためのいくつかのアルゴリズムが用意されています。
  • パッケージclusterからの関数pam()は、medoids周りショニングを実装しており、任意の距離で作業することができます。関数clara()は、より大きなデータセットにおけるpam()へのラッパーです。シルエットプロットスパニング楕円は可視化のために使用することができる。
  • パッケージapclusterは、FreyとDueckのアフィニティ伝播のクラスタリングを実装しています。パッケージ内のアルゴリズムは、FreyとDueckが発行するMATLABコードに似ています。
  • パッケージclusterSimは、与えられたデータセットに最適なクラスタリング手順を検索することができます。
  • clustMixType パッケージは、混在型データのためのk-meansのHuangのkプロトタイプ拡張を実装します。
  • パッケージevclust は、credalパーティション、すなわち、クラスタへのオブジェクトのメンバシップを表すデンプスター・シェーファーの質量関数のセット を生成し、様々なクラスタリングアルゴリズムを実装しています。
  • パッケージflexclustは、任意の距離を測定し、ハード競合学習、ニューラルガスとQTクラスタリングのためのK-重心のクラスタ化アルゴリズムを提供します。近傍のグラフやパーティションのイメージプロットは、可視化のための利用可能です。この機能の一部はまた、パッケージcclustによって提供される。
  • パッケージkernlabは、kkmeansとのspeccによるスペクトラルクラスタリングによるk平均アルゴリズムの重み付きカーネルのバージョンが用意されています。
  • パッケージkmlは、縦(共同)データ用に特別にk-meansクラスタリングを提供する。
  • パッケージskmeans は、球形k平均クラスタリング、コサイン類似性を有する、すなわちk平均クラスタリングを可能にします。 それは、高次元のデータセットをクラスタリングするためCLUTOのvclusterプログラムへの遺伝的および簡単な固定小数点アルゴリズムとインタフェースを含むいくつかの方法を備えています。
  • パッケージtrimclusterは、トリミングk-meansクラスタリングを提供しています。tclustパッケージもまたトリミングk-meansクラスタリングが可能です。このパッケージを使用するに加えて、他の共分散構造はまた、クラスタに対して指定することができる。

モデルベースのクラスタリング:

  • MLの推定:
    • 観測ラベルの一部に確実にある確率で与えられている半または部分的に監視付きの問題については、パッケージのbgmmはEMアルゴリズムとガウス分布の混合について信念をベースとソフトラベル混合モデリングを提供します。
    • EMClusterは、半教師付き学習の状況と同様に教師なしで、非構造化分散の有限混合ガウス分布のモデルベースのクラスタリングためのEMアルゴリズムといくつかの効率的な初期化メソッドを提供します。
    • パッケージfunHDDCfunFEMは、モデルベースの機能的データ解析を実装します。funFEMパッケージは、時系列または、より一般的に、機能のデータをクラスタ化することができるfunFEMアルゴリズムを実装する。それは、ユニークで差別機能的部分空間内のデータのクラスタリングを可能にする差別的機能混合モデルに基づいています。このモデルは、倹約的であることの利点を示し、したがって、長い時系列を処理することができる。funHDDCパッケージは、グループ固有の機能の部分空間内の機能データのクラスタリングを可能にするfunHDDCアルゴリズムを実装しています。funHDDCアルゴリズムは、グループ固有の機能の部分空間にデータをクラスタ化モデルと機能混合モデルに基づいています。アプローチは、グループ固有の機能曲線を見て、その後、意味のある解釈をすることができます。
    • パッケージFisherEMは、高次元データの効率的な教師なし分類を可能にし、部分空間クラスタリング手法である。これは、ガウス混合モデルとデータが共通で低次元の部分空間に住んでいるという考えに基づいています。EMのようなアルゴリズムは、差別的部分空間と混合モデルのパラメータの両方を推定する。
    • パッケージHDclassifは、それが、データが元の空間よりも低い次元に住んでいるとする高次元データにガウス混合モデルに合うように、関数hddcを提供しています。
    • パッケージteigenは、ビューのクラスタリングや分類の点から(固有分解された共分散構造を持つ)多変量t分布の混合モデルにフィットすることができます。パッケージlongclustは、縦のデータにこれらのモデルと同様に、ガウス混合モデルに適合することができます。
    • パッケージmclustは、EMアルゴリズムを使用してガウス分布の混合物に適合します。これは、ボリュームと、最大尤度に基づいて共分散行列と凝集型階層クラスタリングの形状を微調整することができます。これは、クラスタリング、密度推定、および判別分析のために、階層的クラスタリング、EMとベイズ情報量基準(BIC)を使用して、総合的な戦略を提供しています。パッケージRmixmodは、クラスタリング、密度推定またはビューの判別分析のポイントのいずれかで与えられたデータセットへの多変量ガウスまたは多項部品のフィッティング混合モデルのためのツールを提供します。mclustは10固有値分解に基づいて14の可能な分散共分散構造を提供します。全14変異体はパッケージmixtureおよびRmixmodによって提供されています。
    • パッケージMetabolAnalyzeは、EMアルゴリズムと確率的主成分分析の混合物に適合します。
    • グループ化された条件データパッケージのためmixdistを使用することができる。
    • EMアルゴリズムによりスキュー正規分布の単および多変量目盛混合物のフィッティング有限混合は、パッケージmixsmsnによって提供される。
    • パッケージmovMFは、EMアルゴリズムでミーゼス・フィッシャー分布の有限の混合に適合します。
    • パッケージGLDEXは、一般化ラムダ分布の混合に適合し、グループ化された条件付きのデータパッケージのためmixdistを使用することができます。
    • mritcは、通常の混合モデルを使用して分類するためのツール、様々な方法でフィッティング(高解像度)隠れマルコフ正規混合モデルを提供します。
    • 倹約ガウス混合モデルは、因子モデルのコンポーネントの制約要因分析の混合物に合わせてできる。これらのモデルを適合させる機能は、パッケージpgmmに設けられている。
    • prabclusは、距離からMDSを計算し、およびMDSポイントに最尤ガウスの混合物のクラスタリングを適用することにより、プレゼンス不在行列オブジェクトをクラスタ化する。
    • パッケージpsychomixは、(条件付きML経由)二分ラッシュモデルとブラッドリー・テリーモデルの混合物を推定する。パッケージmixRaschは二分ラッシュモデル、評価尺度モデル、および共同最尤推定による部分信用モデルを含む、混合ラッシュモデルを推定する。
    • パッケージpmclustは、高次元(超)大規模なデータのための教師なしモデルベースのクラスタリングを使用することができます。パッケージには、ガウス分布の混合物のためのEMアルゴリズムの並列バージョンを実行するためにpbdMPIを使用しています。
  • ベイズ推定:
    • 多変量ガウス分布の有限混合物のベイズ推定は、パッケージbayesmを使用して可能である。パッケージには、このような混合物からのサンプリングだけでなく、ギブスサンプリングを使用してモデルを推定するための機能を提供します。MCMCチェーンを分析するための追加機能は、観測値をクラスタリングするため、限界密度を決定するためとUNI-二変数限界密度をプロットするために、MCMCが描く上での瞬間を平均化するための利用可能です。
    • パッケージbayesMCClustは、ベイズアプローチを使用して、いくつか状態でカテゴリ変数を観察して得られた離散値の時系列のモデルベースの??クラスタリングのための様々なマルコフ連鎖モンテカルロサンプラーを提供しています。
    • パッケージbayesmixは、JAGSを使用してベイズ推定を提供しています。
    • パッケージbclustは、スパイク・アンド・スラブ階層モデルを用いてベイジアンクラスタリングを可能にし、高次元データをクラスタリングするのに適している。
    • パッケージBmixは、棒折り過程の混合についてのベイズサンプリングを提供します。
    • パッケージbmixture は、単変量のガンマ分布と正規分布の有限混合のベイズ推定を提供します。
    • パッケージdpmixsimは、正常な構造と共役モデルを使用してディリクレ過程混合モデルに適合します。パッケージprofdpmはディリクレ過程混合は、クラス内の特定のケースで、製品の分配モデルの最大事後推定値を決定する。
    • パッケージGSMは、ガンマ分布の混合物に適合します。
    • パッケージmixAKは、おそらく打ち切りデータの正規の混合物を分析するためのMCMC法を含む統計的手法の混合が含まれています。
    • パッケージmcclustは、(ハード)クラスタリングなどのサンプルを処理するためのメソッドを実装しています。例えば、ベイズクラスタリング・モデルのMCMC出力。中でも後部類似度行列または再ラベル付けアルゴリズムに基づいているサンプルを表すために単一の最良のクラスタリングを見つける方法である。
    • パッケージPReMiuMは、応答が共変量プロファイルに非パラメトリックにリンクされているディリクレ過程ベイズクラスタリングされているプロファイルの回帰のためのパッケージです。
    • パッケージrjagsは、混合モデリング用のモジュールが含まれてぎざぎざMCMCライブラリへのインタフェースを提供します。
  • 他の推定方法:
    • パッケージAdMitは、そのカーネル関数を介して目標濃度を近似するためにスチューデント-T分布の適応型混合にフィットすることができます。
    • パッケージCEC は、クロスエントロピークラスタリングを使用して不要なクラスタを自動的に削除すると同時に、さまざまな種類のガウス混合モデルを同時に使用できます。
    • パッケージpendensityは、ペナルティ混合アプローチと密度を推定する。
    • redescending M-推定量を使用する円形と直交回帰クラスタリングは、パッケージedci によって提供されています。
    • 加重可能性を使用したロバスト推定は、パッケージwleで行うことができます。

その他のクラスタアルゴリズム:

  • パッケージADPclust は、2次元の決定プロットに基づいて、高次元データをクラスタ化することができます。 各データに対するこの密度距離プロットは、より高い局所密度値を持つすべての観測までの最短距離に対する局所密度データポイントに対してプロットします。 この非反復手順のクラスタ重心は、対話型または自動選択モードを使用して選択することができます。
  • パッケージamapは、K-means法や凝集型階層クラスタリングの代替実装を提供します。
  • パッケージbiclustは、2次元データでbiclustersを見つけるためにいくつかのアルゴリズムが用意されています。
  • パッケージcbaは、「ロック」と「proximus」のようなビジネス・アナリティクスのためのクラスタリング技術を実装しています。
  • ローカルモードにパッケージCHsharpクラスター3次元データはチェ・ホール(1999)のデータの鮮鋭化法の収束フォームに基づいている。
  • パッケージのclueは、両方の階層とパーティションクラスタメソッドのアンサンブルのメソッドを実装します。
  • パッケージCoClustは、コピュラ関数に基づいており、クラスタ化アルゴリズムを実装し、そのためのマージン上の任意の仮定なしに生成処理の多変量依存構造によりグループ観測することができます。
  • ファジィクラスタリングと袋詰めのクラスタリングは、パッケージe1071中で提供されています。ファジィクラスタリングのためのさらなる、より広範なツールがパッケージfclustでご利用いただけます。
  • パッケージcompHclustは、マイクロアレイデータが「弱い」遺伝子から生じたデータに存在する構造を明らかにするために特に設計された無料の階層的クラスタリングを提供しています。
  • パッケージdbscanは、kdツリーを用いたアルゴリズムDBSCAN(ノイズを持つアプリケーションの密度ベースの空間クラスタリング)の高速reimplementaitonを提供しています。
  • パッケージFactoClassは階乗方法やクラスター分析の組み合わせを実行します。
  • hopachアルゴリズムは、階層的な方法とPAMの間のハイブリッドで、再帰的なデータセットを分割することにより、ツリーを構築します。
  • largeVis パッケージは、非常に大きな高次元のデータセットを視覚化するために同じ名前のアルゴリズムを実装します。 HDBSCAN *のクラスタリングに最適化された実装に関して、DBSCANおよびOPTICSアルゴリズムは、最近傍および外れ値検出の非常に高速な検索と組み合わせて提供されます。
  • グラフやネットワークのためのモデルベースのクラスタリング手法は、パッケージlatentnetmixerに実装されています。
  • パッケージoptpartは、パーティション、大部分は類似関係(または行列)での操作に基づいてオブジェクトの敷物を作成するためのアルゴリズムのセットが含まれています。
  • パッケージpdfClusterは、カーネル密度推定を経由してクラスター分析を実行するためのツールを提供します。クラスタは、しきい値を超えると推定密度が最大に接続されたコンポーネントに関連付けられます。また、接続されたコンポーネントに関連付けられたツリー構造が得られる。
  • パッケージprcr は、最初の階層クラスタリングが実行されて、後続のk-meansクラスタリング手順の最初のパーティションを決定する2ステップクラスタ分析を実装します。
  • パッケージrandomLCAはまた、必要に応じて、ランダムな効果を含んで潜在クラスモデルのフィッティングを提供します。パッケージpoLCAは、多値型変数、潜在クラス分析と回帰することができます。BayesLCAは、EMアルゴリズム、ギブスサンプリングや変分ベイズ法を用いたベイジアンLCAモデルに適合することができます。
  • パッケージRPMMは、ベータガウス混合のための再帰的分割混合モデルに適合します。これは、階層的クラスタリングと同様のクラスの階層だけでなく、有限混合モデルに似を返すモデルベースの??クラスタリングアルゴリズムである。
  • 自己組織化マップは、パッケージsomで提供されています。
  • いくつかのパッケージは、バイオインフォマティクス・アプリケーションのために開発されたクラスタ化アルゴリズムを提供する。これらのパッケージは、順序が制限情報ベースのクラスタリングのためのマイクロアレイ発現データとORIClustプロファイリングのためFunClusterが含まれています。

クラスタワイズ回帰:

  • (時系列を含む)を混合し、カテゴリおよび連続データの潜マルコフモデルの多群の混合物がdepmixまたはdepmixS4を使用して取り付けることができる。パラメータは、線形およびパラメータに対する非線形制約与えられた汎用の最適化ルーチンを使用して最適化されています。
  • パッケージflexCWMは、クラスタ加重モデルの最尤フィッティング、ランダム共変量回帰モデルの混合物の分類を可能にする。
  • パッケージflexmixは、(一般化)線形モデルの混合物を含む回帰モデルの混合物のEM-推定のためのユーザ拡張可能なフレームワークを実装しています。
  • パッケージのfpcは、両方のモデルベースのクラスタリングと線形回帰のための固定小数点のメソッドが用意されています。非対称突起メソッドのコレクションは、クラスタリングの種々の態様をプロットするために使用することができる。
  • パッケージmixregは、1変数回帰の混合に適合し、部品点数のためのブートストラップ・テストを提供しています。
  • パッケージlcmmも最尤法を用いて成長混合モデルまたは異種の線形混合モデルとして知られている潜在クラス線形混合モデルをフィットする。
  • mixtoolsは、パラメトリックおよびノンパラメトリック(多変量)の混合物のためのEMアルゴリズムとのフィッティングを提供する。パラメトリック混合物はmultinomialsの混合物、多変量法線、反復測定と法線、ポアソン回帰と(ランダム効果を持つ)ガウス回帰が含まれています。ノンパラメトリックの混合物は、対称性が識別可能性と条件付き独立した仮定した多変量ノンパラメトリックの混合のために課されている単変量セミパラメトリック場合があります。またメトロポリス-ヘイスティングスアルゴリズムのガウス回帰のフィットの混合物が提供されています。
  • mixPHMは、EMアルゴリズムで比例ハザードモデルの混合に適合します。
  • パッケージgamlss.mxは、gamlssファミリーの分布の有限の混合に適合します。

追加機能:

  • 単変量正規分布の混合物が印刷され、パッケージnor1mixを用いてプロットすることができる。
  • パッケージclusterflyは、クラスタリングアルゴリズムの結果を可視化することができます。
  • パッケージclusterGenerationは、クラスタまたはクラスタ分布のペアのための分離指数(データ、人口版)、およびクラスタを可視化する1次元および2次元投影プロットを計算し、ランダムなクラスタおよびランダム共分散/相関行列を生成するための関数が含まれています。別の方法としてMixSimは、最大かつ/または平均重なり予め指定されたレベルのためのガウスコンポーネントを有限混合モデルを生成する。このモデルは、クラスタ・アルゴリズムの性能を研究するためのデータをシミュレートするために使用することができる。
  • クラスタ検証パッケージのclusterReproは、クラスタの再現性をテストします。パッケージclvは、いくつかの安定性の尺度を計算し、パッケージclusterclValidの関数によって生成される出力のほとんどを使い人気の内部と外部のクラスター検証方法の準備が含まれています。
  • パッケージclustvarselは、モデルベースのクラスタリングのための変数選択を提供しています。
  • 2クラスタソリューションとの間の類似性を比較するための機能がパッケージのfpcにおけるcluster.stats()によって提供されます。
  • パッケージflexclustから関数を用いて適合たk重心クラスタリング溶液の安定性は、ブートストラップ法を用いてbootFlexclust()を介して検証することができる。
  • パッケージMOCCAは、クラスタ検証指数の多目的最適化に基づくクラスタの選択肢を分析するためのメソッドが用意されています。
  • パッケージNbClustは、クラスタ構造を評価し、クラスタの適切な数の上で決定するのに役立つはずである30種類の指標を実装しています。
  • パッケージのseriationは、系列下と行列シェーディングを使用して非類似度行列を可視化するためのdissplot()を提供しています。これはまた、連続した順序で表示される同一クラスタに属するオブジェクトを制限することにより、クラスタの品質を検査することを可能にする。
  • パッケージsigclustは、クラスタリング結果の有意性を試験するための統計的方法を提供する。
  • パッケージtreeClust は、各変数の回帰または分類木で、その葉のメンバーシップに基づいて、データポイント間の非類似度を計算します。
R言語 CRAN Task View:クラスター分析&有限混合モデル

One thought on “R言語 CRAN Task View:クラスター分析&有限混合モデル

Comments are closed.