CRAN Task View: Mixed, Multilevel, and Hierarchical Models in Rについて、機械翻訳を交えて日本語化し掲載しております。

Maintainer: Ben Bolker, Julia Piaskowski, Emi Tanaka, Phillip Alday, Wolfgang Viechtbauer
Contact: bolker at mcmaster.ca
Version: 2022-10-31
URL: https://CRAN.R-project.org/view=MixedModels
Source: https://github.com/cran-task-views/MixedModels/
Contributions: このタスクビューに対する提案や改良は、GitHubのissueやpull request、またはメンテナのアドレスに電子メールで送ってください。詳しくはContributing guideをご覧ください。
Installation: このタスクビューのパッケージは、ctvパッケージを使用して自動的にインストールすることができます。例えば、ctv::install.views(“MixedModels”, coreOnly = TRUE)は全てのコアパッケージをインストールし、ctv::update.views(“MixedModels”)はまだインストールしていない全てのパッケージと最新のものをインストールします。詳しくはCRAN Task View Initiativeを参照してください。

混合(または混合効果)モデルは、オブザベーションが離散グループに先験的に割り当てられ、グループ間の差を記述するパラメータがランダム(または潜在)変数として扱われるデータを分析するために使用される統計モデルの広いクラスです。縦断的データはこの枠組みで分析されることが多い。計量経済学では、縦断的または横断的な時系列データはしばしばパネル・データと呼ばれ、混合モデルを用いてフィッティングされることがあります。混合モデルは、FrequentistまたはBayesianのどちらの枠組みでもあてはめることができます。

このタスクビューでは、連続変数(通常はガウス変数だが、必ずしもガウス変数とは限らない)を組み込んだモデルのみを扱います。隠れマルコフモデル、潜在マルコフモデル、有限(離散)混合モデルを扱うパッケージは除外されます(これらのいくつかはClusterタタスクビューで扱われます)。動的線形モデルや離散グループ化変数を含まない他の状態空間モデルも除外されます(これらのいくつかはTimeSeriesタスクビューでカバーされています)。mixed models hosted on Bioconductorのバイオインフォマティクスアプリケーションも除外されます。

基本的なモデルフィッティング

線形混合モデル

線形混合モデル(LMM)は次のような仮定を置く:

  • 応答の期待値は,固定予測変数とランダム効果の線形結合です。
  • 応答の条件付き分布は、ガウス分布です(等価的に、誤差はガウス分布です)。
  • ランダム効果は正規分布です。

頻度主義:

frequentist LMMで最もよく使われるパッケージや関数は以下の通りです:

  • nlme:nlme::lme()は、REMLまたはML推定を行います。複数のネストされたランダム効果を許容し、異種継時効果および/または相関誤差をモデル化するための構造を提供します。パラメータの不確かさのWald推定。
  • lme4:lmer4::lmer()は、REMLまたはML推定を行う。複数の入れ子または交差したランダム効果が可能で、プロファイル信頼区間を計算し、パラメトリックブートストラップを行うことができます。
  • mbest:高速なモーメントベースのアプローチで大規模な入れ子LMMをフィットします。

ベイズ主義:

ほとんどのベイズRパッケージはマルコフ連鎖モンテカルロ(MCMC)推定を使用します: MCMCglmmrstanarmbrms; 後者2つのパッケージはStanインフラストラクチャを使用します。lme4上に構築されたblmeは、最大事後推定(MAP)を使用します。bamlssは、ベイズ回帰モデリングのためのモジュラー関数の柔軟なセットを提供します。

一般化線形混合モデル

一般化線形混合モデル(GLMM)は、一般化線形モデル(GLM)の階層的拡張として、または異なる応答分布(通常、指数族)へのLMMの拡張として記述できます。ランダム効果分布は、通常、線形予測変数のスケールでガウスであると仮定されます。

頻度主義:

  • MASS:MASS::glmmPQL()は、ペナルティ付き準尤度により適合します。
  • lme4:lmer()は、lme4::glmer() はラプラス近似と適応的ガウス・ヘルミット求積法を使用します。指数族モデルだけでなく負の二項モデルにも適合します。
  • glmmTMBは、ラプラス近似を使用します。いくつかの非指数族(Beta、COM-Poisson など)およびゼロ膨張/ハードルモデルに適合します。
  • GLMMadaptiveは、適応的なガウス・ヘルマイト求積法を使用します。指数族、負の2項、ベータ、ゼロ膨張/ハードル/打ち切りガウスモデル、ユーザ指定の対数密度にフィットします。
  • hglmは、h-尤度を用いて階層的GLMを適合します。(sensu Nelder, Lee and Pawitan (2017))
  • glmmは、モンテカルロ尤度近似を用いてGLMMを適合します。
  • glmmEPは、バイナリデータに対するプロビット混合モデルを期待値伝搬法により適合します。
  • mbest:高速なモーメントベースのアプローチを使って、大規模なネストされたGLMMを適合します。

ベイズ主義:

ほとんどのベイズ混合モデルパッケージは、マルコフ連鎖モンテカルロ法(または他のモンテカルロ法)を使用しています。

  • MCMCglmm:ギブスサンプリング。指数族、多項式、順序型、ゼロインフレート/オルタード/ハードル、打ち切り、 多会員、多回答モデル。血統(動物/親族/系統)モデル。
  • rstanarm:ハミルトンモンテカルロ(Stanベース)。lme4 との互換性を保つように設計されています。
  • brms:ハミルトンモンテカルロ、線形、ロバスト線形、カウントデータ、生存期間、応答時間、順序データ、ゼロインフレート/ハードル/打ち切りデータ。
  • bamlss:最適化と微分ベースのメトロポリス・ヘイスティングス/スライスサンプリング。幅広い分布とリンク関数。

以下のパッケージ(bamlss に加えて)は、最適化によってベイズ (G)LMM の最大事後適合を求めます:

  • blmeは、lme4をラップして事前分布を追加しています。
  • INLAは、統合されたネストされたラプラス近似を使用して、様々な潜在モデル(特に空間推定用)、事前分布、および分布を使用してGLMMを適合させます。
    • inlabruは、R-INLAパッケージにより、統合された入れ子のラプラス近似を用いた空間モデリングを容易にします。さらに、GAMのようなモデル・クラスをより一般的な非線形予測式に拡張し、生態調査データに基づく一変量および空間点過程のモデリングのための対数ガウスCox過程尤度を実装しています。
    • inlatoolsは、INLAモデルに適切な事前分布を設定し、分散と分布をチェックするツールを提供します。

vglmerは、変分ベイズ法によってGLMMを推定します。

非線形混合モデル

非線形混合モデルは、GLMMの枠組みでは対応できない任意の非線形応答を組み込んでいます。一般化非線形混合モデル(すなわち、非ガウス応答を持つパラメトリック非線形混合モデル)に対応できるパッケージはわずかでし。しかし、多くのパッケージは、滑らかなノンパラメトリック成分を許容しています(下記の「加法モデル」を参照)。そうでない場合は、より一般的な階層モデリングの枠組みでGNLMMを実装する必要があるかもしれません。

頻度主義:

  • nlmeのnlme::nlme()とlme4のlmer4::nlmer()は、非線形混合効果モデルを最尤法であてはめます。
  • nlmixr2のnlmixr2::nlmixr2()は、一次条件付き推定(focei)最尤近似(nlme:nlme()やlmer4:nlmer()とは異なる近似)によって非線形混合効果モデルを適合させ、一般化尤度や組み込みリンク関数の選択を可能にします。
  • repeatedのgnlmm()およびgnlmm3()は、ガウス・ヘルミット積分によるGNLMMを繰り返しフィットしたものです。
  • saemixnlmixr2は、EMアルゴリズムの確率的近似を使用して、幅広いGNLMMに適合します。

ベイズ主義:

  • brmsは、GNLMMをサポートしています。

一般化推定方程式

一般推定方程式(GEE)は、クラスター化された、縦断的な、またはその他の相関のあるデータにフィッティングするための代替アプローチです。これらのモデルは、条件付き効果(グループレベルの情報に条件付けされた)ではなく、周辺効果(グループレベルの変動にわたって平均化された)の推定値を生成します。

  • geepackgeegeeMは、標準的なGEEソルバーであり、結果間に相関がある可能性のある平均構造のパラメータのGEE推定を提供します。
  • wgeeselは、縦断的クラスタ化データに対する一般化線形モデルの重み付き拡張を実装しており、データがランダムに欠落している場合に、クラスタ内の相関を取り込むことができます。
  • geesmv:Liang and Zeger (1986)によって提案されたオリジナルのサンドイッチ分散推定量を用いたGEE推定量と、有限小標本の性能を向上させるための8種類の分散推定量。
  • multgeeは、相関のある名義または順序の多項式回答に対するGEE ソルバーです。

専用モデル

  • 加法モデル(回帰スプラインやガウス過程などの滑らかな関数成分を含むモデル): gamm4mgcvbrmslmeSplinesbamlssgamlssLMMsolverR2BayesXGLMMRR
  • ビッグデータ/分散計算: lmmparmbestMixedModels.jl(Julia)、diamond(Python)も参照。
  • バイオインフォマティクス/定量的遺伝学: MCMC.qpcrQGglmmCpGassoc(メチル化研究)。
  • 打ち切りデータ(下限/上限までのみ既知の応答データ):brmsおよび nlmixr2(一般)、ARpLMEC (打ち切りガウス、自己回帰誤差)。 打ち切りガウス(Tobit)応答: GLMMadaptiveMCMCglmmgamlss
  • 微分方程式 (DE をグループ構造パラメーターでフィッティング。このカテゴリは薬物動態モデリングとかなり重複します):確率的 DE の mixedsde。通常のDEは、「focei」または「saem」(EM)メソッドを使用するか、nlmeを使用して、nlmixr2で実行できます。 DifferentialEquationsタスク ビューも参照してください。
  • 二重階層 GLM:dhglmmdhglm(多変量)
  • 因子分析モデル、潜在変数モデル、および構造方程式モデル: lavaannlmmsempiecewiseSEMsemtree、およびblavaanPsychometricsタスク ビューも参照してください。
  • 親族関係拡張モデル (個人が既知の家族関係を持っている場合の応答): pedigreemmcoxmekinship2LMMsolverMCMCglmmsommerrrBLUPBGLRlme4GSlme4qtlpedigreemmqgtoolscpgenQTLRel
  • 位置スケール モデル:nlmeglmmTMBbrmsmgcv [*ls/*lss オプションのいずれかから選択されたファミリーを使用] はすべて、分散/スケール コンポーネントのモデリングを可能にします。
  • 欠損値:micemlmmm(EM 代入)、CRTgeeDRJointAImdmbpanMissingDataタスク ビューも参照してください。
  • 複数のメンバーシップ モデル:(ベイジアン)MCMCglmmbrmsrmm。 (頻度主義者) lmerMultiMember(Bradley-Terry モデルにも適合可能)
  • 多項応答: bamlssR2BayesXMCMCglmmmgcvmclogit
  • 複数形質分析:(複数の従属変数)BMTME (archived)MCMCglmmMegaLMM
  • 非ガウスランダム効果:brmsrepeatedspaMM
  • 順序値応答 (順序スケールで測定された応答):ordinalcplm
  • 過分散モデル:aodaods3
  • パネル データ: 計量経済学では、パネル データは通常、長期間にわたって繰り返しサンプリングされる対象(個人または企業)を指します。 計量経済学者が使用する理論的および計算的アプローチは、混合モデルと重複します(たとえば、hereを参照)。 plmは、混合効果パネル モデルに適合します。Econometricsタスクビューも参照してください。
  • 分位点回帰:lqmmqrLMMqrNLMM
  • 系統発生モデル:pezphyrMCMCglmmbrms
  • 反復測定:(反復測定を処理するための特殊な共分散構造を備えたパッケージ) nlmemmrmglmmTMBLMMsolverrepeatedmmrm
  • 正則化/ペナルティ付きモデル(リッジ、ラッソ、またはエラスティック ネット ペナルティによる正則化または変数選択):splmmは、変数選択の固定効果と変量効果の両方にペナルティを課すことによって、高次元データのLMMを適合させます。glmmLassoは、L1ペナルティ付き(LASSO)固定効果を備えたGLMMに適合します。bamlssは、一般化された加算モデルに対してLASSOのようなペナルティを実装します。
  • ロバスト/ヘビーテール推定(極端な観測の重要性を軽減):robustlmmrobustBLME(ベイジアン ロバスト LME)、二重ロバスト逆確率重み付き拡張GEE推定器のCRTgeeDR。一部のパッケージ (brmsbamlss、family = “scat”のmgcvnlmixr2)では、Student-t などのヘビーテール応答分布が可能です。
  • 歪んだデータ:skewlmmは、期待値最大化 (EM)を使用して、歪正規線形混合モデルのスケール混合を適合します。 nlmixr2は、coxBox()とyeoJohnson()変換の両方を使用した両側の動的変換を最尤法またはEMメソッド「saem」で使用して、歪んだデータを近似できます。
  • 空間モデル:nlme(corStruct 関数を使用)、CARBayesSTsphetspindspaMMglmmfieldsglmmTMB,、inlabru(log-Gaussian Cox プロセスによる空間点プロセス)、brmsLMMsolverbamlssSpatialおよびSpatioTemporalCRAN タスク ビューも参照してください。
  • スポーツ分析:mvglmmRank、スポーツ チームをランク付けするための多変量一般化線形混合モデル。
  • 生存分析:coxme
  • ツリーベースのモデル:glmertreesemtreegpboost
  • 重み付きモデル:WeMix(複数のレベルで重みをもつ線形およびロジット モデル)
  • ゼロインフレモデル:

階層モデリングフレームワーク

これらのパッケージは、混合モデルに適合する関数を直接提供するのではなく、混合モデルに適合するために使用できる汎用のサンプリングおよび最適化ツールボックスへのインターフェイスを実装します。 モデルのセットアップには追加の労力が必要であり、多くの場合、R以外のドメイン固有言語でのプログラミングが必要になりますが、これらのフレームワークは、ここにリストされている他のほとんどのパッケージよりも柔軟性が高くなります。

モデルの診断と要約統計情報

モデル診断

概要統計

  • 相関:iccbeta(クラス内相関)、rptR(再現性)
  • R2 計算:r2glmm(R2 および部分 R2)、MuMIn(r.squaredGLMM()関数)、partR2performance (r2() 関数) ((G)LMMのR2値を計算するにはさまざまな方法があることに注意してください。中川、ジョンソン、シールゼス(2017)、イェーガーら(2017)。)
  • 情報基準:cAIC4(条件付き AIC)、blmeco(WAIC)。
  • 堅牢な分散共分散推定:clubSandwichmerDeriv

デリバティブ

パラメーターに関する対数尤度の1次導関数と2次導関数は、さまざまなモデル評価タスク(感度の計算、ロバストな分散共分散行列、デルタ法の分散など)に役立ちます。

データセット

多くのパッケージには、小さなサンプル データ セット(lme4、nlme など)が含まれています。これらのパッケージは、混合モデルの評価によく使用される前述のデータ セットを提供します。

モデルの提示と予測

混合モデルの結果を表形式およびグラフィカルに便利に出力するための関数とフレームワーク:

便利なラッパー

  • これらの関数は、混合モデルを適合および解釈するための便利なフレームワークを提供します。
  • モデルフィッティング:multilevelmodezmixlmafexdalmatian (archived)(JAGSおよびnimbleへのラッパー)。

推論とモデルの選択

仮説検証

予測と推定

ブートストラッピング

検定力分析とシミュレーション

混合モデルの統計的検出力を計算するために利用できる分析手法はほとんどないため、これらのトピックは密接に関連しています。通常、検定力はシミュレーションによって推定する必要があります。

モデル選定

商用ソフトウェアインターフェース

  • MplusMplusAutomation
  • ASReml RasremlPlus
  • Phoenix NLME softwarePhxnlme
  • babelmixr2を使用すると、nlmixr2モデルを商用ツールMonolixまたはNONMEMで変換して実行し、結果を読み込んで標準化されたnlmixr2フィット オブジェクトを作成できます。この適合オブジェクトは、nlmixr2で診断を実行し、商用ソフトウェアの出力と比較して、商用ツールの出力に対して適合オブジェクトを「検証」します。また、観察された薬物動態 (PK) データを PK モデルの初期推定に自動的に使用するためのPKNCAなどの無料ツールとも連携します。
R言語 CRAN Task View:R の混合モデル、マルチレベルモデル、階層モデル