目次
概要
Maintainer: | Karel Hron, Javier Palarea-Albaladejo, Matthias Templ, Alessandra Menafoglio |
Contact: | karel.hron at upol.cz |
Version: | 2025-03-25 |
URL: | https://CRAN.R-project.org/view=CompositionalData |
Source: | https://github.com/cran-task-views/CompositionalData/ |
Contributions: | このタスクビューに対する提案や改良は、GitHubのissueやpull request、またはメンテナのアドレスに電子メールで送ってください。詳しくはContributing guideをご覧ください。 |
Installation: | このタスクビューのパッケージは、ctvパッケージを使用して自動的にインストールすることができます。例えば、ctv::install.views(“CompositionalData”, coreOnly = TRUE)は全てのコアパッケージをインストールし、ctv::update.views(“CompositionalData”)はまだインストールしていない全てのパッケージと最新のものをインストールします。詳しくはCRAN Task View Initiativeを参照してください。 |
一般的に、組成データとは、相対的な情報を伝える多変量、正値、スケール不変のデータを指します。必ずしもそうとは限りませんが、多くの場合、組成データは閉じたデータ、または合計が1になる割合、合計が100になるパーセンテージなどで表現されるように正規化されます。しかし、スケール不変の性質は、使用される正規化定数が実際には無関係であることを意味します。つまり、組成手法は、研究者がデータ内の関連情報が相対的であり、したがって組成を構成する部分間に本質的な相互依存関係があることを認識している場合に限り適用可能です。これらの特殊性は、通常、制約のない実数値データ用に設計される通常の統計手法では考慮されません。
このタスクビューは、対数比座標フレームワークにおける組成データ分析を支援するRパッケージの厳選コレクションを提供します。主な目的は、こうした手法の適用に関心のある実務家のためのガイドとなることです。パッケージは大きく分けて以下のトピックに分類できますが、多くのパッケージは複数のカテゴリにまたがる機能を提供しています。以下に詳細を示します。
目次
- General purpose packages
- Irregular data: Zeros, censoring, missing and outliers
- Visualization
- Compositional tables
- Density data analysis
- Regression modeling
- High-dimensional compositional data with applications to omics data
- Special applications in geostatistics and geochemistry
- Other packages
- Background
汎用パッケージ
このセクションでは、Rにおける組成データ分析のための汎用プラットフォームを提供するパッケージについて言及します。これらのパッケージは、基本的な演算や計算、対数比表現、データ可視化、そして一般的な統計解析を実行するための関数を実装しています。これらのパッケージは通常、出版されたモノグラフに付随しており、様々な分野からこの手法に取り組む人々にとって、構成データの基本特性に対応した解析環境を提供します。
- compositions:
- 想定される基礎ジオメトリに対応するデータクラス(構成的、acompクラス、または多変量ポジティブデータ、aplusクラス)が設定されると、パッケージは、記述統計、可視化、統計的検定、多変量解析(主成分分析、クラスタリング、MANOVA、回帰など)を含む、一貫した分析とモデリングのための関数を介して動作します。また、構成用バリオグラムや構成的通常クリギングなどの地統計ツールも実装しています。このパッケージは、Van den Boogaart and Tolosana-Delgado (2013)のモノグラフにリンクされており、そこに記載されている分析と例をサポートしています。
- robCompositions:
- ロバスト統計手法に重点を置いたパッケージです(Rで利用可能なその他のロバスト統計手法の概要については、Robustを参照してください)。このパッケージには、対数比フレームワーク内で組成データの操作と分析を行うための幅広いツールが含まれています。これには、通常の変換、不規則データの処理、主成分分析、因子分析、判別分析、構成予測変数を用いた回帰分析などの手法のロバストバージョンが含まれます。さらに、2因子組成(別名、組成表)と密度データの機能組成分析のための特殊な手法も実装しています。主な参考文献は、Filzmoser, Hron and Templ (2018)です。
- easyCODA:
- Greenacre (2018)の精神に基づき、組成データの単変量および多変量解析のための手法とグラフを提供します。特に、基本的な対数比の対数的評価の使用に重点を置いています。特に、対数比の段階的選択、対応分析、冗長性分析などの手順を備えています。
不規則なデータ: ゼロ、打ち切り、欠損、外れ値
組成データは、通常のデータセットと同様に、統計分析を複雑にする課題に直面することがよくあります。対数比アプローチにおける重要な課題は、データの特性を歪めることなくゼロを処理することです。ゼロは、丸められたゼロ(検出限界以下の小さな値)、カウントゼロ(離散的な計数プロセスによる)、そして本質的なゼロ(組成における真の欠落)の3種類に区別されます。丸められたゼロは、左側打ち切りデータに類似しており、文献で最も注目を集めています。
さらに、非組成的統計手法と同様に、欠損値または外れ値の存在は実用上の課題となります。組成的枠組みにおける一貫したデータ分析には、ここでも一貫した処理が求められます。
以下は、データの組成特性を尊重しながらこれらの問題に対処することに重点を置いた特殊なパッケージです。
- zCompositions:
- 対数比アプローチ(Palarea-Albaladejo and Martín-Fernández (2015))の原則に基づき、ゼロ、非検出、欠損データ、およびそれらの組み合わせに適用可能なデータ補完手法群です。これには、閉じた組成と閉じていない組成の一貫した処理、一意または可変の検出限界、パラメトリックおよびノンパラメトリック補完、単一および多重補完、最大尤度およびロバスト推定、そしてゼロパターンの探索とグループ化組成の統計的検定のためのツールが含まれます。
- mvoutlier:
- 組成データ内の多変量外れ値を視覚化および識別するための特定のツール。
可視化
可視化は組成データ分析の重要な要素であり、研究者が制約された単体幾何学内のパターン、関係、分布を探索できるようにします。
このセクションでは、上記の汎用パッケージで提供される機能に加えて、三元図、合成バイプロット、ペアワイズ対数比プロットなどを作成するための特殊なツールをまとめています。
- ggtern:
- グラフィカルパッケージggplot2のスタイルと構文に従った三元図のプロットと管理を可能にします。標準ジオメトリと追加ジオメトリの両方をサポートし、高度なカスタマイズが可能です。
- Ternary:
- 基本グラフィックスを使用して、三元図とホールドリッジ生命圏プロットを作成します。カスタム注釈、補間、等高線描画、スケーリング、そしてインタラクティブなプロットのためのShinyインターフェースなどの機能を備えています。
- isopleuros:
- 三元空間でのデータの可視化、グラフィック要素のカスタマイズ、統計サマリーの表示を行います。考古学に特化した図表(土壌テクスチャチャートや陶磁器相図など)も含まれています。
- provenance:
- 三元図における組成データと個数データ、放射状プロットにおける点数データの表現が可能です。指定された統計精度レベルに必要なサンプルサイズを計算し、水圧選別が堆積岩の組成に与える影響を評価することができます。Rに精通していないユーザー向けに、直感的なクエリベースのユーザーインターフェースを提供します。
組成表
組成表(つまり、通常の分割表の離散版)は、複数のカテゴリにまたがる頻度または割合を表します。これらの表は行または列の合計によって制約されることが多いため、関係性、依存関係、パターンを、それらの相対的な性質を尊重しながら分析するには、特別な手法が必要です。本セクションでは、対数比表現や特定の多変量解析法など、これらの分析ツールについて説明します。
- robCompositions:
- 組成表の対数比座標表現と、主成分分析および回帰分析を用いた統計処理手法。これらの統計処理には、実数応答と組成表を予測変数とする回帰分析が用いられます。詳細は、Filzmoser, Hron and Templ (2018) (第12章) およびNesrstová et al. (2023)を参照してください。
回帰モデリング
組成データを用いた回帰モデル化により、研究者は、予測変数/共変量または応答変数として、組成と他の変数との関連性、そして回帰モデルの両側における組成間の関連性を調査することができます。組成回帰分析に特化したパッケージを以下に挙げます。complmrobとrobregccは、例えばrobCompositionsのような機能以外には本質的な機能を提供していないことに注意してください。
- complmrob:
- 構成データに対するロバスト線形回帰モデル。応答変数は実数値ベクトル、共変量は構成データです。Hron, Filzmoser and Thompson (2012)も参照してください。
- robregcc:
- 構成共変量を持つロバスト回帰モデルのパラメータを推定するアルゴリズム。このモデルは、Mishra and Mueller (2019)で説明されているように、外れ値とパラメータ推定値を同時に処理します。
- codaredistlm:
- 構成予測変数を持つ線形回帰モデル。構成値の再配分に基づく結果の変化の予測値と信頼区間を提供します。Dumuid et al. (2017a)およびDumuid et al. (2017b)を参照してください。
- DirichletReg:
- ディリクレ回帰モデルを用いて構成データを分析する関数。
- multilevelcoda:
- 予測因子と結果の両方としての構成データと事後等時間置換分析を使用したベイズ多段階モデリング。
オミクス科学への応用を伴う高次元組成データ
構成データ分析は、マイクロバイオームの組成、遺伝子発現、メタボロームプロファイルが本質的に組成的であるオミックス科学およびバイオインフォマティクスにおいて重要性を増しています。これらのアプリケーションでは、高次元性、ゼロインフレーション、過剰分散、系統統合を扱う手法が求められます。
このセクションでは、オミクス データ用に設計された組成ツールを提供するパッケージについて重点的に取り上げていますが、それらのほとんどは、一般的な高次元組成データの統計処理にも使用できます。
- FLORAL:
- Fei et al. (2023)で説明されているように、組成特性を持つ連続、2値、および生存アウトカムに対する対数比Lasso回帰。
- coda4microbiome:
- マイクロバイオームのデータ分析において、その組成特性を考慮したツール。2値または連続アウトカムを持つ横断研究および縦断研究における変数選択のためのペナルティ付き回帰法を含む。
- codacore:
- 回帰問題における予測変数として機能する組成のスパース対数比を特定します。スケール不変の対数比が導出され、応答変数との関連性を考慮するように最適化されます。
- lnmCluster:
- マイクロバイオーム組成データのためのロジスティック正規多項式クラスタリング。因子分析、バイクラスタリング、スパース共分散推定のための拡張を含みます。
- MicrobiomeStat:
- マイクロバイオーム組成データを分析するための堅牢な手法。ゼロインフレーション、系統構造、および組成特性の影響に対処する。シーケンシング実験から得られる他の高次元組成データセットにも適用可能です。
- QFASA:
- 脂肪酸の多様性、生合成限界、単胃動物の消化特性を活用し、捕食者の食性を推定するための定量的脂肪酸シグネチャー分析。組成データと制約データの両方の手法が用いられます。
地質統計学および地球化学における特殊応用
組成データ分析は、空間依存性を持つ元素、鉱物、または同位体比の解析に必要不可欠であり、地統計学および地球化学において不可欠です。これらの応用では、空間関係を考慮しつつ相対的なデータ構造を尊重する手法が求められます(時空間手法に特化したタスクビューについては、SpatioTemporalを参照してください)。
したがって、このセクションでは、地統計モデリング、空間内挿、バリオグラム解析、組成クリギングのためのパッケージ、および空間地球化学組成解析手法について言及します。一部の手法は、他の応用分野における類似の構造を持つあらゆるデータセットに同様に適用可能であることに注意してください。
- provenance:
- 堆積起源分析のための統計ツール。カーネル密度推定、主成分分析、コレスポンデンス分析、多次元尺度構成法などが含まれます。単変量プロキシデータ(単粒子年代、同位体組成など)とカテゴリデータの比較は、Kolmogorov-Smirnov、Wasserstein、Aitchison、Bray-Curtisなどの距離法を用いてサポートされます。三元図やラジアルプロット上でのデータの可視化、サンプルサイズの計算、水圧選別効果の評価のためのツールも含まれています。さらに、R初心者向けにユーザーフレンドリーなインターフェースも提供されています。
- ArArRedux:
- 希ガス質量分析計データから同位体組成を処理し、$Ar^/Ar^$地質年代学のためのデータ削減と誤差伝播を行います。回帰法、ブランク補正および減衰補正、検出器間較正、干渉補正、年代計算などの手法を備えています。アルゴン同位体比は、正確な統計処理のために組成データとして扱われます。
- gmGeostats:
- 構成や正値などの制約を伴う多変量データのためのツール。2点ガウス分布と多点分布を用いた記述的分析とモデリング。構成バリオグラムと構成クリギング。
その他のパッケージ
このコレクションは、典型的には比較的特定の目的を持つ、他の有用な小型パッケージを含めることを目的としています。ここで検討する対数比フレームワークに従い、このコレクションに含めるための条件は、構成データのスケール不変性が少なくとも部分的に尊重されることです。
- coda.base:
- 主成分座標や主成分バランス座標、そしてカスタマイズされた直交基底からの対数比座標など、様々なタイプの対数比座標表現を計算するための関数の、最適化されたユーザーフレンドリーな実装を提供します。また、基本的な組成統計を計算することもできます。
- aIc:
- データの組成上の病理を特定するための統計的検定。具体的には、相関の一貫性、距離の優位性、摂動不変性、共変動行列の特異性などです。比例、中心対数比(clr)、その他一般的なRパッケージの様々なデータ変換をサポートしています。
- SARP.compo:
- 組成データの変化をネットワークベースで解釈するためのツール。ペアワイズ比の計算、条件間の統計検定、結果のネットワーク表現などが含まれます。
- ToolsForCoDa:
- 組成データ用の厳選された多変量解析ツール。構成正準相関分析、条件数計算付き対数比主成分分析、対数比判別分析などが含まれます。
背景
以下では、このタスクビューが組成データ分析のどの方向に沿っているかを説明します。
組成データに関する問題への認識は、著名な統計学者カール・ピアソンが、共通分母に関して尺度化された変数間の偽相関の問題を認識した19世紀末にまで遡ります。合計が一定値に閉じている場合、組成データは単体標本空間に正式に投影され、これは実用的な設定においてしばしば便利な表現となります。単体は、独自の内部演算と幾何学を持つ制約空間です。しかし、組成データを分析するための一貫したアプローチは、選択された表現に依存すべきではなく、また事前の正規化を必要としません。
Aitchison (1982) によって最初に定式化された組成データ分析の主流のアプローチは、データを実空間に投影する対数比変換(より現代的な用語で言えば対数比座標)の使用を伴います。今日では、組成法に関する文献では、この方法論的枠組みの中で幅広い手法が提示されており、その多くはRパッケージに実装されています。
組成データは、化学、生物学、環境科学など、様々な科学分野で広く用いられています。これらの分野では、通常、サンプルの総重量または体積の割合を表し、パーセント、百万分率、mg/l、mmol/molなどの単位で表されます。土壌、水、空気の化学組成、食品の組成、行動または時間利用プロファイル、種の相対的存在量などがその例です。また、社会経済科学においても、市場シェア、投資ポートフォリオ、家計などを扱う際によく用いられます。
近年、組成法の人気は著しく高まっています。同時に、様々な科学分野のニーズを満たすために、組成に関する知識を伝達し、定式化するための新たな方法論的課題も生じています。