Journal of Statistical Software: Volume 113の記事一覧

Journal of Statistical Software Volume 113に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。

記事

scpi: Uncertainty Quantification for Synthetic Control Methods

scpi: Uncertainty Quantification for Synthetic Control Methods / scpi: 合成制御法のための不確実性定量化

The synthetic control method offers a way to quantify the effect of an intervention using weighted averages of untreated units to approximate the counterfactual outcome that the treated unit(s) would have experienced in the absence of the intervention. This method is useful for program evaluation and causal inference in observational studies. We introduce the software package scpi for prediction and inference using synthetic controls, implemented in Python, R, and Stata. For point estimation or prediction of treatment effects, the package offers an array of (possibly penalized) approaches leveraging the latest optimization methods. For uncertainty quantification, the package offers the prediction interval methods introduced by Cattaneo, Feng, and Titiunik (2021) and Cattaneo, Feng, Palomba, and Titiunik (2025b). The paper includes numerical illustrations and a comparison with other synthetic control software.

合成制御法は、介入を受けなかった場合に介入を受けたユニットが経験したであろう反事実的結果を近似するために、未介入ユニットの加重平均を用いて介入の効果を定量化する手法を提供します。この手法は、観察研究におけるプログラム評価や因果推論に有用です。本稿では、Python、R、Stataで実装された、合成制御を用いた予測と推論のためのソフトウェアパッケージscpiを紹介します。点推定や介入効果の予測のために、このパッケージは最新の最適化手法を活用した様々な(場合によってはペナルティ付きの)アプローチを提供します。不確実性の定量化のために、このパッケージはCattaneo、Feng、およびTitiunik (2021)およびCattaneo、Feng、Palomba、およびTitiunik (2025b)によって導入された予測区間法を提供します。本論文には、数値例と他の合成制御ソフトウェアとの比較が含まれています。

dame-flame: A Python Package Providing Fast Interpretable Matching for Causal Inference

dame-flame: A Python Package Providing Fast Interpretable Matching for Causal Inference / dame-flame: 因果推論のための高速で解釈可能なマッチングを提供する Python パッケージ

dame-flame is a Python package for performing matching for observational causal inference on datasets containing discrete covariates. This package implements the dynamic almost matching exactly (DAME) and fast, large-scale almost matching exactly (FLAME) algorithms, which match treatment and control units on subsets of the covariates. The resulting matched groups are interpretable, because the matches are made directly on covariates, and high-quality, because machine learning is used to determine which covariates are important to match on instead of human inputs. The package provides several adjustable parameters to adapt the algorithms to specific applications, and can calculate treatment effects after matching. The most recent source code of the implementation is available at https://github.com/almost-matching-exactly/DAME-FLAME-Python-Package.

dame-flameは、離散共変量を含むデータセットに対する観測的因果推論のためのマッチングを実行するPythonパッケージです。このパッケージは、共変量のサブセットに基づいて治療群と対照群をマッチングする動的ほぼ完全マッチング(DAME)アルゴリズムと高速大規模ほぼ完全マッチング(FLAME)アルゴリズムを実装しています。マッチングは共変量に基づいて直接行われるため、結果として得られるマッチンググループは解釈可能であり、人間の入力ではなく機械学習を用いてマッチングに重要な共変量を決定するため、高品質です。このパッケージは、アルゴリズムを特定のアプリケーションに適応させるための調整可能なパラメータをいくつか提供し、マッチング後に治療効果を計算することもできます。実装の最新のソースコードは、https://github.com/almost-matching-exactly/DAME-FLAME-Python-Packageで入手できます。

BoXHED2.0: Scalable Boosting of Dynamic Survival Analysis

BoXHED2.0: Scalable Boosting of Dynamic Survival Analysis / BoXHED2.0: 動的生存分析のスケーラブルなブースティング

Modern applications of survival analysis increasingly involve time-dependent covariates.The Python package BoXHED2.0 (Boosted eXact Hazard Estimator with Dynamic covariates) is a tree-boosted hazard estimator that is fully nonparametric, and is applicable to survival settings far more general than right-censoring, including recurring events and competing risks. BoXHED2.0 is also scalable to the point of being on the same order of speed as parametric boosted survival models, in part because its core is written in C++ and it also supports the use of GPUs and multicore CPUs. BoXHED2.0 is available from PyPI and also from https://github.com/BoXHED.

生存分析の現代的な応用では、時間依存共変量がますます重要になっています。PythonパッケージBoXHED2.0(Boosted eXact Hazard Estimator with Dynamic covariates)は、完全ノンパラメトリックなツリーブースト型ハザード推定器であり、右側打ち切りよりもはるかに一般的な生存分析設定(反復イベントや競合リスクなど)に適用可能です。BoXHED2.0は、コア部分がC++で記述されていること、およびGPUとマルチコアCPUの使用をサポートしていることから、パラメトリックブースト型生存モデルと同程度の速度で動作するほどスケーラブルです。BoXHED2.0はPyPIおよびhttps://github.com/BoXHEDから入手できます。

pymle: A Python Package for Maximum Likelihood Estimation and Simulation of Stochastic Differential Equations

pymle: A Python Package for Maximum Likelihood Estimation and Simulation of Stochastic Differential Equations / pymle: 確率微分方程式の最尤推定とシミュレーションのためのPythonパッケージ

This paper introduces the object-oriented Python package pymle, which provides core functionality for maximum likelihood estimation and simulation of univariate stochastic differential equations. The package supports maximum likelihood estimation using Euler, Elerian, Ozaki, Shoji-Ozaki, Hermite polynomial, and Kessler density approximations, as well as a recently proposed continuous-time Markov chain approximation scheme. Exact maximum likelihood estimation is also provided when available. The framework supports estimation and simulation for 21 stochastic differential equations models at the time of writing, and its object oriented design facilitates easy extensions to new models and approximation methods.

本稿では、単変量確率微分方程式の最尤推定とシミュレーションのためのコア機能を提供するオブジェクト指向Pythonパッケージpymleを紹介します。このパッケージは、オイラー、エレリアン、尾崎、庄司尾崎、エルミート多項式、ケスラー密度近似を用いた最尤推定に加え、最近提案された連続時間マルコフ連鎖近似法をサポートしています。利用可能な場合は、厳密な最尤推定値も提供されます。このフレームワークは、執筆時点で21種類の確率微分方程式モデルの推定とシミュレーションをサポートしており、オブジェクト指向設計により、新しいモデルや近似法への拡張が容易です。

SURVEYHLM: A SAS Macro for Multilevel Analysis with Large-Scale Educational Assessment Data

SURVEYHLM: A SAS Macro for Multilevel Analysis with Large-Scale Educational Assessment Data / SURVEYHLM: 大規模教育評価データを用いたマルチレベル分析のためのSASマクロ

Special techniques must be considered during analysis of large-scale educational assessment (LSA) data. In this regard, many software packages are available to support researchers conducting secondary analyses. However, the software packages available for multilevel analyses are somewhat limited and usually contain only a few of the required techniques. In this article, we review the technical details of LSA studies and describe our comparison of software for multilevel analyses by questioning the extent to which these packages take these technical details into account. In accordance with our findings from this comparison, we developed a SAS macro for multilevel analyses of LSA data that meets all technical requirements. The macro SURVEYHLM fits multilevel models with LSA datasets. SURVEYHLM can handle up to three levels. It can fit different correlation structures for the random components and use plausible values as response variables, and the responses do not necessarily need to be normally distributed. Weights can be specified on levels 1, 2 and 3. Scaling of the level-specific weights is possible, and standard errors can be based on a sandwich estimator or calculated with either the jackknife replication technique or through user-supplied replication weights. Examples of applications are given.

大規模教育評価(LSA)データの分析には、特別な手法を考慮する必要があります。この点で、二次分析を実施する研究者を支援するソフトウェアパッケージが数多く利用可能です。しかし、マルチレベル分析に利用可能なソフトウェアパッケージは限られており、必要な手法がいくつかしか搭載されていないのが一般的です。本稿では、LSA研究の技術的詳細を概観し、これらのソフトウェアパッケージがこれらの技術的詳細をどの程度考慮しているかを検証することで、マルチレベル分析用ソフトウェアの比較を行います。この比較結果に基づき、LSAデータのマルチレベル分析において、すべての技術的要件を満たすSASマクロを開発しました。マクロSURVEYHLMは、LSAデータセットを用いてマルチレベルモデルをフィッティングします。SURVEYHLMは最大3つのレベルを扱うことができます。ランダム成分に対して異なる相関構造をフィッティングし、応答変数として妥当な値を使用することができ、応答は必ずしも正規分布に従う必要はありません。重みはレベル1、2、3で指定できます。レベル固有の重みはスケーリング可能で、標準誤差はサンドイッチ推定値に基づくか、ジャックナイフ法による複製法、またはユーザー指定の複製重みを用いて計算できます。適用例を示します。

Estimating Spatial Dynamic Panel Data Models with Unobserved Common Factors in Stata

Estimating Spatial Dynamic Panel Data Models with Unobserved Common Factors in Stata / Stataで観測されない共通因子を持つ空間動的パネルデータモデルを推定する

This article introduces the spxtivdfreg package in Stata, which implements a general instrumental variables (IV) approach for estimating dynamic spatial panel data models with unobserved common factors or interactive effects, when the number of both cross-sectional and time series observations is large. The estimator has been developed in a recent paper by Cui, Sarafidis, and Yamagata (2023). The underlying idea is to project out the common factors from exogenous covariates using principal components analysis, and to run IV regression in both of two stages, using defactored covariates (and their spatial counterparts) as instruments. The resulting two-stage IV estimator is valid for models with homogeneous slope coefficients, and has several advantages relative to existing popular approaches. In addition, the spxtivdfreg package allows estimation of short-run and long-run direct and indirect effects, as well as total effects, accounting for the cumulative effects over time and across space. Standard errors for such effects are computed using the Delta method. Last, the spxtivdfreg package allows for heterogeneous slope coefficients, as in Chen, Cui, Sarafidis, and Yamagata (2025). In particular, we construct a “mean group” IV estimator, which involves averaging first-step IV estimates of individual-specific slope coefficients.

本稿では、Stataのspxtivdfregパッケージを紹介します。このパッケージは、横断的データと時系列データの両方の観測値が多い場合に、観測されない共通因子または相互作用効果を持つ動的空間パネルデータモデルを推定するための、一般的な操作変数法(IV法)を実装しています。この推定量は、Cui、Sarafidis、Yamagata(2023)による最近の論文で開発されました。基本的な考え方は、主成分分析を使用して外生共変量から共通因子を射影し、デファクタリングされた共変量(およびその空間的対応物)を操作変数として使用して、2段階の両方でIV回帰を実行することです。結果として得られる2段階IV推定量は、均質な傾き係数を持つモデルに対して有効であり、既存の一般的なアプローチと比較していくつかの利点があります。さらに、spxtivdfregパッケージでは、短期および長期の直接効果と間接効果、ならびに時間および空間にわたる累積効果を考慮した総効果の推定が可能です。このような効果の標準誤差は、デルタ法を使用して計算されます。最後に、spxtivdfregパッケージでは、Chen、Cui、Sarafidis、Yamagata (2025)のように、異質な傾き係数を許容します。特に、個人固有の傾き係数の第1段階IV推定値を平均する「平均グループ」IV推定量を構築します。

StatisticalProcessMonitoring.jl: A General Framework for Statistical Process Monitoring in Julia

StatisticalProcessMonitoring.jl: A General Framework for Statistical Process Monitoring in Julia / StatisticalProcessMonitoring.jl: Juliaにおける統計的プロセスモニタリングのための汎用フレームワーク

Statistical process monitoring (SPM) control charts are widely used for monitoring the stability of sequential processes. Currently, there is no open-source software which provides a general and extensible implementation of control charts. StatisticalProcessMonitoring.jl is a novel Julia package which aims at addressing this gap, offering support for monitoring various type of data, such as univariate and multivariate observations, partially-observed data streams, and profiles. The package introduces an extensible SPM framework, allowing users to seamlessly design control charts for structured data types using the existing implementation. By introducing a flexible implementation of control charts, StatisticalProcessMonitoring.jl provides fully-automated and efficient algorithms for determining control limits and tuning control chart hyperparameters. These algorithms can accommodate various commonly-used performance metrics based on the run length distribution. The package further leverages existing packages in the Julia ecosystem to offer users a range of optimization and plotting functionalities.

統計的プロセス監視(SPM)管理図は、逐次プロセスの安定性を監視するために広く用いられています。現在、汎用的かつ拡張可能な管理図の実装を提供するオープンソースソフトウェアは存在しません。StatisticalProcessMonitoring.jlは、このギャップを埋めることを目的とした新しいJuliaパッケージであり、単変量および多変量観測値、部分観測データストリーム、プロファイルなど、様々な種類のデータの監視をサポートします。このパッケージは拡張可能なSPMフレームワークを導入し、既存の実装を用いて構造化データタイプの管理図をシームレスに設計できるようにします。StatisticalProcessMonitoring.jlは、管理図の柔軟な実装を導入することで、管理限界の決定と管理図のハイパーパラメータの調整のための完全自動化された効率的なアルゴリズムを提供します。これらのアルゴリズムは、実行長分布に基づく様々な一般的なパフォーマンス指標に対応できます。さらに、このパッケージはJuliaエコシステムの既存パッケージを活用し、ユーザーに幅広い最適化機能とプロット機能を提供します。

StepMix: A Python Package for Pseudo-Likelihood Estimation of Generalized Mixture Models with External Variables

StepMix: A Python Package for Pseudo-Likelihood Estimation of Generalized Mixture Models with External Variables / StepMix: 外部変数を含む一般化混合モデルの擬似尤度推定のためのPythonパッケージ

StepMix is an open-source Python package for the pseudo-likelihood estimation (one-, two- and three-step approaches) of generalized finite mixture models (latent profile and latent class analysis) with external variables (covariates and distal outcomes). In many applications in social sciences, the main objective is not only to cluster individuals into latent classes, but also to use these classes to develop more complex statistical models. These models generally divide into a measurement model that relates the latent classes to observed indicators, and a structural model that relates covariates and outcome variables to the latent classes. The measurement and structural models can be estimated jointly using the so-called one-step approach or sequentially using stepwise methods, which present significant advantages for practitioners regarding the interpretability of the estimated latent classes. In addition to the one-step approach, StepMix implements the most important stepwise estimation methods from the literature, including the bias-adjusted three-step methods with Bolk-Croon-Hagenaars and maximum likelihood corrections and the more recent two-step approach. These pseudo-likelihood estimators are presented in this paper under a unified framework as specific expectation-maximization subroutines. To facilitate and promote their adoption among the data science community, StepMix follows the object-oriented design of the scikit-learn library and provides an additional R wrapper.

StepMixは、外部変数(共変量および遠位結果)を用いた一般化有限混合モデル(潜在プロファイルおよび潜在クラス分析)の擬似尤度推定(1段階、2段階、3段階アプローチ)を行うためのオープンソースPythonパッケージです。社会科学における多くの応用において、主な目的は個人を潜在クラスにクラスタリングするだけでなく、これらのクラスを用いてより複雑な統計モデルを開発することです。これらのモデルは一般的に、潜在クラスを観測指標に関連付ける測定モデルと、共変量および結果変数を潜在クラスに関連付ける構造モデルに分けられます。測定モデルと構造モデルは、いわゆる1段階アプローチを用いて同時に推定することも、ステップワイズ法を用いて順次推定することもできます。ステップワイズ法は、推定された潜在クラスの解釈可能性に関して、実務家にとって大きな利点となります。1段階アプローチに加えて、StepMixは、Bolk-Croon-Hagenaars法と最大尤度補正を用いたバイアス調整3段階法や、より最近の2段階アプローチなど、文献に記載されている最も重要なステップワイズ推定法を実装しています。本稿では、これらの擬似尤度推定量を、統一されたフレームワークの下、特定の期待最大化サブルーチンとして提示します。データサイエンスコミュニティにおけるこれらの採用を促進するため、StepMixはscikit-learnライブラリのオブジェクト指向設計に準拠し、追加のRラッパーを提供しています。

BayesMortalityPlus: A Package in R for Bayesian Mortality Modeling

BayesMortalityPlus: A Package in R for Bayesian Mortality Modeling / BayesMortalityPlus: ベイズ死亡率モデリングのためのRパッケージ

The BayesMortalityPlus package provides a framework for modeling and predicting mortality data. The package includes tools for the construction of life tables based on Heligman-Pollard laws, and also on dynamic linear smoothers. Flexibility is available in terms of modeling so that the response variable may be modeled as Poisson, binomial or Gaussian. If temporal data is available, the package provides a Bayesian implementation for the well-known Lee-Carter model that allows for estimation, projection of mortality over time, and assessment of uncertainty of any linear or nonlinear function of parameters such as life expectancy. Illustrations are considered to show the capability of the proposed package to model mortality data.

BayesMortalityPlusパッケージは、死亡率データのモデリングと予測のためのフレームワークを提供します。このパッケージには、ヘリグマン・ポラードの法則と動的線形平滑化に基づく生命表作成ツールが含まれています。モデリングに関しては柔軟性があり、応答変数はポアソン分布、二項分布、またはガウス分布としてモデル化できます。時系列データが利用可能な場合、このパッケージは、よく知られているLee-Carterモデルのベイズ実装を提供し、経時的な死亡率の推定、予測、および平均寿命などのパラメータの線形または非線形関数の不確実性の評価を可能にします。図解は、提案パッケージが死亡率データをモデリングする能力を示すために考慮されています。

stopp: An R Package for Spatio-Temporal Point Pattern Analysis

stopp: An R Package for Spatio-Temporal Point Pattern Analysis / stopp: 時空間点パターン分析のためのRパッケージ

stopp is a novel R package specifically designed for the analysis of spatio-temporal point patterns which might have occurred in a subset of the Euclidean space or on some specific linear network, such as roads of a city. It represents the first package providing a comprehensive modeling framework for spatio-temporal Poisson point processes. While many specialized models exist in the scientific literature for analyzing complex spatio-temporal point patterns, we address the lack of general software for comparing simpler alternative models and their goodness of fit. The package’s main functionalities include modeling and diagnostics, together with exploratory analysis tools and the simulation of point processes. A particular focus is given to local first-order and second-order characteristics. The package aggregates existing methods within one coherent framework, including those we proposed in recent papers, and it aims to welcome many further proposals and extensions from the R community.

stoppは、ユークリッド空間のサブセット、または都市の道路などの特定の線形ネットワークで発生する可能性のある時空間ポイントパターンの分析用に特別に設計された新しいRパッケージです。これは、時空間ポアソン点プロセスの包括的なモデリングフレームワークを提供する最初のパッケージです。科学文献には複雑な時空間ポイントパターンを分析するための多くの専用モデルが存在する一方で、より単純な代替モデルとその適合度を比較するための汎用ソフトウェアが不足しています。パッケージの主な機能には、モデリングと診断、探索的分析ツール、点プロセスのシミュレーションが含まれます。特に、局所的な一次特性と二次特性に重点が置かれています。パッケージは、最近の論文で提案したものも含め、既存の手法を1つの首尾一貫したフレームワークに集約しており、Rコミュニティからの多くの提案と拡張を歓迎することを目的としています。

参考文献

関連情報