Journal of Statistical Software: Volume 112の記事一覧

Journal of Statistical Software Volume 112に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。

記事

Parsimoniously Fitting Large Multivariate Random Effects in glmmTMB

Parsimoniously Fitting Large Multivariate Random Effects in glmmTMB / glmmTMBを用いた大規模多変量ランダム効果の簡潔なフィッティング

Multivariate random effects with unstructured variance-covariance matrices of large dimensions, q, can be a major challenge to estimate. In this paper, we introduce a new implementation of a reduced-rank approach to fit large dimensional multivariate random effects by writing them as a linear combination of d < q latent variables. By adding reduced-rank functionality to the package glmmTMB, we enhance the mixed models available to include random effects of dimensions that were previously not possible. We apply the reduced-rank random effect to two examples, estimating a generalized latent variable model for multivariate abundance data and a random-slopes model.

次元qの非構造化分散共分散行列を持つ多変量ランダム効果の推定は、大きな課題となる場合があります。本稿では、次元qの多変量ランダム効果をd < qの潜在変数の線形結合として記述することで適合させる、低ランクアプローチの新しい実装を紹介します。glmmTMBパッケージにランク削減機能を追加することで、これまで不可能だった次元のランダム効果を含めることができる混合モデルが拡張されます。ランク削減ランダム効果を2つの例に適用し、多変量個体数データに対する一般化潜在変数モデルとランダム傾斜モデルを推定します。

gptools: Scalable Gaussian Process Inference with Stan

gptools: Scalable Gaussian Process Inference with Stan / gptools:スタンによるスケーラブルガウス過程推論

Gaussian processes (GPs) are sophisticated distributions to model functional data. Whilst theoretically appealing, they are computationally cumbersome except for small datasets. We implement two methods for scaling GP inference in Stan: First, a general sparse approximation using a directed acyclic dependency graph; second, a fast, exact method for regularly spaced data modeled by GPs with stationary kernels using the fast Fourier transform. Based on benchmark experiments, we offer guidance for practitioners to decide between different methods and parameterizations. We consider two real-world examples to illustrate the package. The implementation follows Stan’s design and exposes performant inference through a familiar interface. Full posterior inference for ten thousand data points is feasible on a laptop in less than 20 seconds. Details on how to get started using the popular interfaces cmdstanpy for Python and cmdstanr for R are provided.

ガウス過程(GP)は、機能データをモデル化するための高度な分布です。理論的には魅力的ですが、小規模なデータセットを除いて、計算上の負担が大きいです。私たちは、Stan内でのGP推論のスケーリングのために2つの方法を実装しました。まず、指向された非循環依存グラフを用いた一般的なスパース近似です。次に、定常カーネルを持つGPでモデル化された均等に配置されたデータのための高速で正確な方法です。ベンチマーク実験に基づき、異なる方法とパラメータ化の選択に関して実務者向けのガイダンスを提供します。パッケージを示すために、2つの実世界の例を考慮します。実装はStanの設計に従い、親しみやすいインターフェースを通じて高性能な推論を提供します。1万のデータポイントに対する完全な事後推論は、ラップトップで20秒未満で実行可能です。Python用の人気インターフェースcmdstanpyおよびR用のcmdstanrの使用を開始する方法についての詳細も提供します。

RESI: An R Package for Robust Effect Sizes

RESI: An R Package for Robust Effect Sizes / RESI: 堅牢な効果量のためのRパッケージ

Effect size indices are useful parameters that quantify the strength of association and are unaffected by sample size. There are many available effect size parameters and estimators, but it is difficult to compare effect sizes across studies as most are defined for a specific type of population parameter. We recently introduced a new robust effect size index (RESI) and confidence interval, which is advantageous because it is not model-specific. Here we present the RESI R package, which makes it easy to report the RESI and its confidence interval for many different model classes, with a consistent interpretation across parameters and model types. The package produces coefficient, ANOVA tables, and overall Wald tests for model inputs, appending the RESI estimate and confidence interval to each. The package also includes functions for visualization and conversions to and from other effect size measures. For illustration, we analyze and interpret three datasets using different model types.

効果量指標は関連の強さを定量化する有用なパラメータであり、サンプルサイズの影響を受けません。多くの効果量パラメータと推定量が利用可能ですが、ほとんどが特定のタイプの母集団パラメータに対して定義されているため、研究間で効果量を比較するのは難しいです。最近、モデルに特化しないため有利な新しい堅牢な効果量指標(RESI)と信頼区間を導入しました。ここでは、さまざまなモデルクラスのためにRESIとその信頼区間を報告するのを簡単にするRESI Rパッケージを紹介します。パラメータとモデルタイプにわたる一貫した解釈を提供します。このパッケージは、モデル入力のための係数、ANOVAテーブル、全体のウォルド検定を生成し、それぞれにRESI推定値と信頼区間を付加します。また、視覚化や他の効果量測定への変換用の関数も含まれています。例として、異なるモデルタイプを使用して三つのデータセットを分析および解釈します。

Split-Apply-Combine with Dynamic Grouping

Split-Apply-Combine with Dynamic Grouping / 動的グルーピングによる分割-適用-結合

Partitioning a data set by one or more of its attributes and computing an aggregate for each part is one of the most common operations in data analyses. There are use cases where the partitioning is determined dynamically by collapsing smaller subsets into larger ones, to ensure sufficient support for the computed aggregate. These use cases are not supported by software implementing split-apply-combine types of operations. This paper presents the R package accumulate that offers convenient interfaces for defining grouped aggregation where the grouping itself is dynamically determined, based on user-defined conditions on subsets, and a user-defined subset collapsing scheme. The formal underlying algorithm is described and analyzed as well.

データセットをその属性の1つ以上でパーティション分割し、各部分の集計を計算することは、データ分析における最も一般的な操作の1つです。小さなサブセットを大きなものに統合することによって動的にパーティション分割が決定される使用例があり、計算された集計のために十分なサポートを確保します。これらの使用例は、分割・適用・結合型の操作を実装するソフトウェアではサポートされていません。本論文では、グループ化そのものがサブセットのユーザー定義条件に基づいて動的に決定されるグループ化集計の定義のための便利なインターフェースを提供するRパッケージaccumulateを紹介します。基となる公式的なアルゴリズムも説明され、分析されています。

Stability Selection and Consensus Clustering in R: The R Package sharp

Stability Selection and Consensus Clustering in R: The R Package sharp / Rにおける安定性選択とコンセンサスクラスタリング: R パッケージ sharp

The R package sharp (Stability-enHanced Approaches using Resampling Procedures) provides an integrated framework for stability-enhanced variable selection, graphical modeling and clustering. In stability selection, a feature selection algorithm is combined with a resampling technique to estimate feature selection probabilities. Features with selection proportions above a threshold are considered stably selected. Similarly, a clustering algorithm is applied on multiple subsamples of items to compute co-membership proportions in consensus clustering. The consensus clusters are obtained by clustering using comembership proportions as a measure of similarity. We calibrate the hyper-parameters of stability selection (or consensus clustering) jointly by maximizing a consensus score calculated under the null hypothesis of equiprobability of selection (or co-membership), which characterizes instability. The package offers flexibility in the modeling, includes diagnostic and visualization tools, and allows for parallelization.

Rパッケージのsharp(Stability-enHanced Approaches using Resampling Procedures)は、安定性強化型変数選択、グラフィカルモデリング、クラスタリングのための統合フレームワークを提供します。安定性選択では、特徴選択アルゴリズムとリサンプリング手法を組み合わせて特徴選択確率を推定します。選択率が閾値を超える特徴は、安定的に選択されたとみなされます。同様に、クラスタリングアルゴリズムを複数のサブサンプルに適用して、コンセンサスクラスタリングにおける共存率を計算します。コンセンサスクラスタは、共存率を類似性の尺度としてクラスタリングを行うことで得られます。安定性選択(またはコンセンサスクラスタリング)のハイパーパラメータは、選択(または共存)の等確率という帰無仮説の下で計算されたコンセンサススコアを最大化することによって共同で較正されます。このスコアは不安定性を特徴づけるものです。このパッケージは、モデリングの柔軟性を提供し、診断ツールと可視化ツールを含み、並列処理も可能です。

TrueSkill Through Time: Reliable Initial Skill Estimates and Historical Comparability with Julia, Python, and R

TrueSkill Through Time: Reliable Initial Skill Estimates and Historical Comparability with Julia, Python, and R / TrueSkill Through Time: Julia、Python、Rを用いた信頼性の高い初期スキル推定と履歴比較

Knowing how individual abilities change is essential in a wide range of activities. The most widely used skill estimators in industry and academia (such as Elo and TrueSkill) propagate information in only one direction, from the past to the future, preventing them from obtaining reliable initial estimates and ensuring comparability between estimates distant in time and space. In contrast, the model TrueSkill Through Time (TTT) propagates all historical information throughout a single causal network, providing estimates with low uncertainty at any given time, enabling reliable initial skill estimates, and ensuring historical comparability. Although the TTT model was published more than a decade ago, it was not available until now in the programming languages with the largest communities. Here we offer the first software for Julia, Python, and R, accompanied by a detailed overview for the general public and an in-depth scientific explanation. After illustrating its basic mode of use, we show how to estimate the learning curves of historical players of the Association of Tennis Professionals. Analytical approximation methods and message-passing algorithms allow inference to be solved efficiently using any low-end computer, even in causal networks with millions of nodes and irregular structures.

個々の能力がどのように変化するかを知ることは、幅広い活動において不可欠です。産業界や学術界で最も広く使われているスキル推定器(EloやTrueSkillなど)は、情報を過去から未来へと一方向にしか伝播しないため、信頼できる初期推定値を得ることができず、時間的にも空間的にも離れた推定値間の比較可能性も確保できません。一方、TrueSkill Through Time(TTT)モデルは、すべての履歴情報を単一の因果ネットワーク全体に伝播させることで、任意の時点での不確実性の低い推定値を提供し、信頼できる初期スキル推定値を可能にし、履歴の比較可能性を確保します。TTTモデルは10年以上前に発表されましたが、これまでコミュニティの大きいプログラミング言語では利用できませんでした。本稿では、Julia、Python、R向けの最初のソフトウェアを、一般向けの詳細な概要と詳細な科学的解説とともに提供します。基本的な使用方法を示した後、プロテニス協会(ATP)の過去の選手の学習曲線を推定する方法を示します。解析的近似法とメッセージパッシングアルゴリズムを用いることで、数百万のノードと不規則な構造を持つ因果ネットワークであっても、あらゆる低スペックコンピュータで効率的に推論を解くことができます。

Learning Permutation Symmetry of a Gaussian Vector with gips in R

Learning Permutation Symmetry of a Gaussian Vector with gips in R / Rでギプスを使ったガウスベクトルの置換対称性の学習

The study of hidden structures in data presents challenges in modern statistics and machine learning. We introduce the gips package in R, which identifies permutation subgroup symmetries in Gaussian vectors. gips serves two main purposes: Exploratory analysis in discovering hidden permutation symmetries and estimating the covariance matrix under permutation symmetry. It is competitive to canonical methods in dimensionality reduction while providing a new interpretation of the results. gips implements a novel Bayesian model selection procedure within Gaussian vectors invariant under the permutation subgroup introduced in Graczyk, Ishi, Kołodziejek, and Massam (2022b, The Annals of Statistics).

データにおける隠れた構造の研究は、現代の統計学や機械学習において課題を呈します。私たちは、ガウスベクトルにおける置換部分群対称性を特定するRのgipsパッケージを紹介します。gipsは2つの主な目的を持っています:隠れた置換対称性を発見するための探索的分析と、置換対称性の下での共分散行列の推定。次元削減において従来の方法と競争力があり、結果の新しい解釈を提供します。gipsは、Graczyk、Ishi、Kołodziejek、およびMassam(2022b、統計年報)で導入された置換部分群の下で不変のガウスベクトル内の新しいベイズモデル選択手続きを実装しています。

pyrichlet: A Python Package for Density Estimation and Clustering Using Gaussian Mixture Models

pyrichlet: A Python Package for Density Estimation and Clustering Using Gaussian Mixture Models / pyrichlet:ガウス混合モデルを使用した密度推定とクラスタリングのためのPythonパッケージ

Bayesian nonparametric models have proven to be successful tools for clustering and density estimation. While there exists a nourished ecosystem of implementations in R, for Python there are only a few. Here we develop a Python package called pyrichlet, for Bayesian nonparametric density estimation and clustering using various state-of-the-art Gaussian mixture models that generalize the well established Dirichlet process mixture, many of which are fairly new. Implementation is performed using Markov chain Monte Carlo techniques as well as variational Bayes methods. This article contains a detailed description of pyrichlet and examples for its usage with a real dataset.

ベイズ非パラメトリックモデルは、クラスタリングと密度推定に成功したツールであることが証明されています。Rには実装の豊かなエコシステムが存在する一方で、Pythonにはいくつかのみがあります。ここでは、確立されたディリクレ過程混合に一般化されたさまざまな最先端のガウス混合モデルを使用したベイズ非パラメトリック密度推定とクラスタリングのためのPythonパッケージであるpyrichletを開発しました。その実装は、マルコフ連鎖モンテカルロ技術や変分ベイズ法を使用して行われます。この記事では、pyrichletの詳細な説明と、実際のデータセットを使用した例が含まれています。

BayesMix: Bayesian Mixture Models in C++

BayesMix: Bayesian Mixture Models in C++ / BayesMix:C++におけるベイズ混合モデル

We describe BayesMix, a C++ library for MCMC posterior simulation for general Bayesian mixture models. The goal of BayesMix is to provide a self-contained ecosystem to perform inference for mixture models to computer scientists, statisticians and practitioners. The key idea of this library is extensibility, as we wish the users to easily adapt our software to their specific Bayesian mixture models. In addition to the several models and MCMC algorithms for posterior inference included in the library, new users with little familiarity on mixture models and the related MCMC algorithms can extend our library with minimal coding effort. Our library is computationally very efficient when compared to competitor software. Examples show that the typical code runtimes are from two to 25 times faster than competitors for data dimension from one to ten. We also provide Python (bayesmixpy) and R (bayesmixr) interfaces. Our library is publicly available on GitHub at https://github.com/bayesmix-dev/bayesmix/.

BayesMixについて説明します。これは一般的なベイズ混合モデルのためのMCMC後方シミュレーション用のC++ライブラリです。BayesMixの目的は、コンピュータサイエンティスト、統計学者、実務者に対して混合モデルの推論を実行するための自己完結したエコシステムを提供することです。このライブラリの主なアイデアは拡張性であり、ユーザーが特定のベイズ混合モデルにソフトウェアを簡単に適応できるようにしたいと考えています。ライブラリに含まれる後方推論のためのいくつかのモデルとMCMCアルゴリズムに加えて、混合モデルや関連するMCMCアルゴリズムにあまり精通していない新しいユーザーでも、最小限のコーディング努力でライブラリを拡張できます。当社のライブラリは、競合ソフトウェアと比較すると計算的に非常に効率的です。例によれば、典型的なコードの実行時間は、データ次元が1から10の場合、競合よりも2倍から25倍速いことが示されています。また、Python(bayesmixpy)およびR(bayesmixr)インターフェースも提供しています。当社のライブラリはGitHubで公開されており、https://github.com/bayesmix-dev/bayesmix/から入手できます。

参考文献

関連情報