Journal of Statistical Software Volume 114に記載されている内容を一覧にまとめ、機械翻訳を交えて日本語化し掲載します。
記事
NUBO: A Transparent Python Package for Bayesian Optimization
NUBO: ベイズ最適化のための透過的なPythonパッケージ
NUBO, short for Newcastle University Bayesian Optimisation, is a Bayesian optimization framework for the optimization of expensive-to-evaluate black-box functions, such as physical experiments and computer simulators. Bayesian optimization is a costefficient optimization strategy that uses surrogate modelling via Gaussian processes to represent an objective function and acquisition functions to guide the selection of candidate points to approximate the global optimum of the objective function. NUBO itself focuses on transparency and user experience to make Bayesian optimization easily accessible to researchers from all disciplines. Clean and understandable code, precise references, and thorough documentation ensure transparency, while user experience is ensured by a modular and flexible design, easy-to-write syntax, and careful selection of Bayesian optimization algorithms. NUBO allows users to tailor Bayesian optimization to their specific problem by writing the optimization loop themselves using the provided building blocks. It supports sequential single-point, parallel multi-point, and asynchronous optimization of bounded, constrained, and/or mixed (discrete and continuous) parameter input spaces. Only algorithms and methods that are extensively tested and validated to perform well are included in NUBO. This ensures that the package remains compact and does not overwhelm the user with an unnecessarily large number of options. The package is written in Python but does not require expert knowledge of Python to optimize your simulators and experiments. NUBO is distributed as open-source software under the BSD 3-Clause license.
NUBOはNewcastle University Bayesian Optimisationの略で、物理実験やコンピュータ シミュレータなど、評価にコストがかかるブラック ボックス機能の最適化を目的としたベイズ最適化フレームワークです。ベイズ最適化は、ガウス過程による代理モデリングを使用して目的関数を表現し、獲得関数を使用して候補点の選択をガイドし、目的関数のグローバル最適値を近似する、コスト効率の高い最適化戦略です。NUBO自体は、あらゆる分野の研究者がベイズ最適化に簡単にアクセスできるように、透明性とユーザー エクスペリエンスに重点を置いています。クリーンでわかりやすいコード、正確な参照、および徹底したドキュメントによって透明性が確保され、モジュール式の柔軟な設計、書きやすい構文、およびベイズ最適化アルゴリズムの慎重な選択によってユーザー エクスペリエンスが確保されます。NUBOでは、提供されているビルディング ブロックを使用して自分で最適化ループを記述することにより、ユーザーが特定の問題に合わせてベイズ最適化をカスタマイズできます。NUBOは、境界付き、制約付き、および/または混合(離散および連続)パラメータ入力空間の順次シングルポイント、並列マルチポイント、および非同期最適化をサポートします。NUBOには、広範囲にテストされ、良好なパフォーマンスが検証されたアルゴリズムとメソッドのみが含まれています。これにより、パッケージがコンパクトになり、不必要に多くのオプションでユーザーを圧倒することがなくなります。このパッケージはPythonで書かれていますが、シミュレータや実験を最適化するためにPythonの専門知識は必要ありません。NUBOは、BSD 3条項ライセンスの下でオープンソース ソフトウェアとして配布されています。
mdendro: An R Package for Extended Agglomerative Hierarchical Clustering
mdendro: 拡張凝集型階層的クラスタリングのためのRパッケージ
mdendro is an R package that provides a comprehensive collection of linkage methods for agglomerative hierarchical clustering on a matrix of proximity data (distances or similarities), returning a multifurcated dendrogram or multidendrogram. Multidendrograms can group more than two clusters at the same time, solving the nonuniqueness problem that arises when there are ties in the data. This problem causes that different binary dendrograms are possible depending both on the order of the input data and on the criterion used to break ties. Weighted and unweighted versions of the most common linkage methods are included in the package, which also implements two parametric linkage methods. In addition, package mdendro provides five descriptive measures to analyze the resulting dendrograms: cophenetic correlation coefficient, space distortion ratio, agglomerative coefficient, chaining coefficient and tree balance.
mdendroは、近接データ(距離または類似度)のマトリックスに対する凝集型階層的クラスタリングのための包括的なリンク メソッドのコレクションを提供し、多重分岐デンドログラムまたはマルチデンドログラムを返すRパッケージです。マルチデンドログラムは、同時に3つ以上のクラスターをグループ化できるため、データに同点がある場合に発生する非一意性の問題を解決できます。この問題により、入力データの順序と同点判定の基準の両方に応じて、異なるバイナリデンドログラムが作成される可能性があります。最も一般的なリンケージ法の加重バージョンと加重なしバージョンがパッケージに含まれており、2つのパラメトリックリンケージ法も実装されています。さらに、パッケージmdendroは、結果のデンドログラムを分析するための5つの記述尺度(コフェネティック相関係数、空間歪み比、凝集係数、連鎖係数、ツリーバランス)を提供します。
ebnm: An R Package for Solving the Empirical Bayes Normal Means Problem Using a Variety of Prior Families
ebnm: 様々な事前分布族を用いて経験的ベイズ正規平均問題を解くRパッケージ
The empirical Bayes normal means (EBNM) model is important to many areas of statistics, including (but not limited to) multiple testing, wavelet denoising, and gene expression analysis. There are several existing software packages that can fit EBNM models under different prior assumptions and using different algorithms. However, the differences across interfaces complicate direct comparisons, and a number of important prior assumptions do not yet have implementations. Motivated by these issues, we developed the R package ebnm, which provides a unified interface for efficiently fitting EBNM models using a variety of prior assumptions, including nonparametric approaches. In some cases, we incorporated existing implementations into ebnm; in others, we implemented new fitting procedures, with an emphasis on speed and numerical stability. We illustrate the use of ebnm in a detailed analysis of baseball statistics. By providing a unified and easily extensible interface, ebnm can facilitate development of new methods in statistics, genetics, and other areas; as an example, we briefly discuss the R package flashier, which harnesses ebnm for flexible and robust matrix factorization.
経験的ベイズ正規平均(EBNM)モデルは、多重検定、ウェーブレットノイズ除去、遺伝子発現解析など、多くの統計分野で重要です。異なる事前仮定の下で異なるアルゴリズムを使用してEBNMモデルを適合できる既存のソフトウェアパッケージがいくつかあります。ただし、インターフェース間の違いにより直接比較が複雑になり、多くの重要な事前仮定はまだ実装されていません。これらの問題に着目し、我々はRパッケージebnmを開発しました。このパッケージは、ノンパラメトリック手法を含む様々な事前仮定を用いてEBNMモデルを効率的にフィッティングするための統一インターフェースを提供します。ebnmには既存の実装を組み込んだケースもあれば、速度と数値安定性を重視した新しいフィッティング手順を実装したケースもあります。本稿では、野球統計の詳細な分析におけるebnmの使用例を示します。統一され、容易に拡張可能なインターフェースを提供することで、ebnmは統計学、遺伝学、その他の分野における新しい手法の開発を促進します。例として、ebnmを用いて柔軟かつ堅牢な行列分解を行うRパッケージflashierについて簡単に説明します。
hmmTMB: Hidden Markov Models with Flexible Covariate Effects in R
hmmTMB: Rにおける柔軟な共変量効果を持つ隠れマルコフモデル
Hidden Markov models (HMMs) are widely applied in studies where a discrete-valued process of interest is observed indirectly. They have for example been used to model behavior from human and animal tracking data, disease status from medical data, and financial market volatility from stock prices. The model has two main sets of parameters: transition probabilities, which drive the latent state process, and observation parameters, which characterize the state-dependent distributions of observed variables. One particularly useful extension of HMMs is the inclusion of covariates on those parameters, to investigate the drivers of state transitions or to implement Markov-switching regression models. We present the new R package hmmTMB for HMM analyses, with flexible covariate models in both the hidden state and observation parameters. In particular, non-linear effects are implemented using penalized splines, including multiple univariate and multivariate splines, with automatic smoothness selection. The package allows for various random effect formulations (including random intercepts and slopes), to capture between-group heterogeneity. hmmTMB can be applied to multivariate observations, and it accommodates various types of response data, including continuous (bounded or not), discrete, and binary variables. Parameter constraints can be used to implement non-standard dependence structures, such as semi-Markov, higher-order Markov, and autoregressive models. Here, we summarize the relevant statistical methodology, we describe the structure of the package, and we present an example analysis of animal tracking data to showcase the workflow of the package.
隠れマルコフモデル(HMM)は、離散値過程を間接的に観測する研究において広く応用されています。例えば、ヒトや動物の追跡データから行動をモデル化したり、医療データから疾病状態をモデル化したり、株価から金融市場のボラティリティをモデル化したりするために用いられています。このモデルは、潜在状態過程を駆動する遷移確率と、観測変数の状態依存分布を特徴付ける観測パラメータという、2つの主要なパラメータセットから構成されています。HMMの特に有用な拡張の一つは、これらのパラメータに共変量を含めることです。これにより、状態遷移の駆動要因を調査したり、マルコフスイッチング回帰モデルを実装したりすることができます。本稿では、隠れ状態パラメータと観測パラメータの両方に柔軟な共変量モデルを備えた、HMM解析用の新しいRパッケージhmmTMBを紹介します。特に、非線形効果は、複数の単変量および多変量スプラインを含むペナルティ付きスプラインを用いて実装され、平滑度は自動的に選択されます。このパッケージでは、ランダム切片や傾きを含む様々なランダム効果の定式化が可能であり、群間の異質性を捉えることができます。hmmTMBは多変量観測に適用でき、連続変数(有界・無界)、離散変数、2値変数など、様々な種類の応答データに対応しています。パラメータ制約を用いることで、セミマルコフモデル、高階マルコフモデル、自己回帰モデルといった非標準的な従属構造を実装できます。本稿では、関連する統計手法の概要、パッケージの構造、そしてパッケージのワークフローを示すために動物追跡データの分析例を紹介します。
hibayes: An R Package to Fit Individual-Level, Summary-Level and Single-Step Bayesian Regression Models for Genomic Prediction and Genome-Wide Association Studies
hibayes: ゲノム予測およびゲノムワイド関連研究のための個体レベル、要約レベル、およびシングルステップベイズ回帰モデルを当てはめるRパッケージ
With the rapid development of sequencing technology, the costs of individual genotyping have been reduced dramatically, leading to genomic prediction and genome-wide association studies being widely promoted and used to predict the unknown phenotypes and to locate candidate genes for animal and plant economic traits and, increasingly, for human diseases. Developing new advanced statistical models to improve prediction accuracy and location precision for the traits with various genetic architectures has always been a hot topic in those two research domains. The Bayesian regression model (BRM) has played a crucial role in the past decade, and it has been used widely in relevant genetic analyses owing to its flexible model assumptions on the unknown genetic architecture of complex traits. To fully utilize the available data from either a self-designed experimental population or a public database, statistical geneticists have constantly extended the fitting capacity of BRM, and a series of new methodologies have been proposed for different application scenarios. Here we introduce the R package hibayes, a software tool that can be used to fit individual-level, summary-level, and single-step Bayesian regression models. Including also the richest methods achieved thus far, it covers most of the functionalities involved in the field of genomic prediction and genome-wide association studies, potentially helping to address a wide range of research problems, while retaining an easy-to-learn and flexible-to-use experience. We believe that package hibayes will facilitate the academic research and practical application of statistical genetics for humans, plants, and animals.
シーケンシング技術の急速な発展に伴い、個体の遺伝子型解析にかかるコストは劇的に削減され、ゲノム予測やゲノムワイド関連研究が広く推進され、未知の表現型の予測や、動植物の経済形質、そしてますますヒトの疾患の候補遺伝子の発見に利用されています。様々な遺伝子構造を持つ形質の予測精度と位置精度を向上させるための新しい高度な統計モデルの開発は、これら2つの研究領域で常にホットな話題でした。ベイズ回帰モデル(BRM)は過去10年間で重要な役割を果たしており、複雑な形質の未知の遺伝子構造に関する柔軟なモデル仮定のため、関連する遺伝子解析で広く利用されてきました。統計遺伝学者は、独自に設計した実験集団または公開データベースから利用可能なデータを最大限に活用するために、BRMのフィッティング能力を継続的に拡張し、さまざまな応用シナリオ向けに一連の新しい方法論が提案されています。本稿では、Rパッケージhibayesをご紹介します。これは、個体レベル、サマリーレベル、そしてシングルステップのベイズ回帰モデルをフィッティングできるソフトウェアツールです。これまでに開発された最も豊富な手法も搭載し、ゲノム予測やゲノムワイド関連研究の分野における機能のほとんどを網羅しています。学習の容易さと柔軟な操作性を維持しながら、幅広い研究課題への対応に役立つ可能性があります。hibayesパッケージは、ヒト、植物、動物における統計遺伝学の学術研究と実用化を促進すると確信しています。
TSCI: Two Stage Curvature Identification for Causal Inference with Invalid Instruments in R
TSCI: Rにおける無効な操作変数を用いた因果推論のための2段階曲率同定
TSCI implements treatment effect estimation from observational data under invalid instruments in the R statistical computing environment. Existing instrumental variable approaches rely on arguably strong and untestable identification assumptions, which limits their practical application. TSCI does not require the classical instrumental variable identification conditions and is effective even if all instruments are invalid. TSCI implements a two-stage algorithm. In the first stage, machine learning is used to cope with nonlinearities and interactions in the treatment model. In the second stage, a space to capture the instrument violations is selected in a data-adaptive way. These violations are then projected out to estimate the treatment effect.
TSCIは、R統計計算環境において、無効な操作変数を用いた観測データから処置効果の推定を実装します。既存の操作変数アプローチは、強力かつ検証不可能な同定仮定に依存しており、これが実用性を制限しています。TSCIは、従来の操作変数同定条件を必要とせず、すべての操作変数が無効な場合でも有効です。TSCIは2段階アルゴリズムを実装します。第1段階では、機械学習を用いて処置モデルの非線形性と相互作用に対処します。第2段階では、データ適応的に操作変数違反を捕捉する空間を選択します。その後、これらの違反を投影して処置効果を推定します。
Quantile Regression under Limited Dependent Variable in Stata
Stataにおける限定従属変数を用いた分位点回帰
This article develops a Stata command, ldvqreg, to estimate quantile regression models for the cases of censored (with lower and/or upper censoring) and binary dependent variables. The estimator is implemented using a smoothed version of the quantile regression objective function. Simulation exercises show that it correctly estimates the parameters and it should be implemented instead of the available quantile regression methods when censoring is present. Different empirical applications illustrate these methods.
本稿では、打ち切り(下限打ち切りおよび/または上限打ち切り)および2値従属変数の場合の分位点回帰モデルを推定するためのStataコマンドldvqregを開発します。推定量は、分位点回帰目的関数の平滑化バージョンを使用して実装されます。シミュレーション演習では、この手法がパラメータを正しく推定し、打ち切りが存在する場合には既存の分位点回帰法の代わりに導入すべきであることが示されています。様々な実証的応用において、これらの手法の有効性が実証されています。
GLMcat: An R Package for Generalized Linear Models for Categorical Responses
GLMcat: カテゴリカル応答の一般化線形モデルのためのRパッケージ
In statistical modeling, there is a wide variety of generalized linear models for categorical response variables (nominal or ordinal responses); yet, there is no software embracing all these models together in a unique and generic framework. We propose and present GLMcat, an R package to estimate generalized linear models implemented under the unified specification (r, F, Z) where r represents the ratio of probabilities (reference, cumulative, adjacent, or sequential), F the cumulative distribution function for the linkage, and Z the design matrix. All classical models (and their variations) for categorical data can be written as an (r, F, Z) triplet, thus, they can be fitted with GLMcat. The functions in the package are intuitive and user-friendly. For each of the three components, there are multiple alternatives from which the user should thoroughly select those that best address the objectives of the analysis. The main strengths of the GLMcat package are the possibility of choosing from a large number of link functions (defined by the composition of F and r) and the simplicity for setting constraints in the linear prediction, either on the intercepts or on the slopes. This paper proposes a methodological and practical guide for the appropriate selection of a model considering the concordance between the nature of the data and the properties of the model.
統計モデリングでは、カテゴリ応答変数(名義応答または順序応答)に対する一般化線形モデルが多種多様ですが、これらすべてのモデルを一意かつ汎用的なフレームワークにまとめたソフトウェアは存在しません。本稿では、統一仕様(r、F、Z)に基づいて実装された一般化線形モデルを推定するRパッケージ、GLMcatを提案・紹介します。ここで、rは確率比(参照、累積、隣接、または逐次)、Fはリンクの累積分布関数、Zは計画行列を表します。カテゴリデータのすべての古典的モデル(およびそのバリエーション)は、(r、F、Z)トリプレットとして記述できるため、GLMcatでフィッティングできます。パッケージの関数は直感的でユーザーフレンドリーです。3つのコンポーネントそれぞれに複数の選択肢があり、ユーザーは分析の目的に最も適したものを徹底的に選択する必要があります。GLMcatパッケージの主な強みは、多数のリンク関数(Fとrの組み合わせで定義)から選択できることと、切片または傾きのいずれかに対する線形予測の制約を簡単に設定できることです。本稿では、データの性質とモデルの特性との一致を考慮した適切なモデル選択のための方法論的かつ実践的なガイドを提案します。
Optimum Allocation for Adaptive Multi-Wave Sampling in R: The R Package optimall
Rにおける適応型マルチウェーブサンプリングの最適配分: Rパッケージoptimall
The R package optimall offers a collection of functions that efficiently streamline the design process of sampling in surveys ranging from simple to complex. The package’s main functions allow users to interactively define and adjust strata cut points based on values or quantiles of auxiliary covariates, adaptively calculate the optimum number of samples to allocate to each stratum using Neyman or Wright allocation, and select specific units to sample based on a stratified sampling design. Using real-life epidemiological study examples, we demonstrate how optimall facilitates an efficient workflow for the design and implementation of surveys in R. Although tailored towards multi-wave sampling under two- or three-phase designs, the R package optimall may be useful for any sampling survey.
Rパッケージoptimallは、単純なものから複雑なものまで、調査のサンプリング設計プロセスを効率的に合理化する関数のコレクションを提供します。このパッケージの主な機能により、ユーザーは補助共変量の値または変位値に基づいて層のカットポイントを対話的に定義および調整したり、ネイマンまたはライト割り当てを使用して各層に割り当てる最適なサンプル数を適応的に計算したり、層別サンプリング設計に基づいて特定のユニットを選択してサンプリングしたりできます。実際の疫学研究の例を用いて、optimallがRにおける調査の設計と実施のための効率的なワークフローをいかに促進するかを示します。Rパッケージoptimallは、2段階または3段階の設計による多波サンプリング向けにカスタマイズされていますが、あらゆるサンプリング調査にも有用です。
Mixed-Effects Additive Transformation Models with the R Package tramME
RパッケージtramMEを用いた混合効果加法変換モデル
Regression models that accommodate correlated observations and potential nonlinear predictor-outcome relationships are fundamental in analyzing experimental and observational data. Unlike traditional parametric approaches, transformation models make weaker assumptions on the conditional response distribution, thus allowing for a more universal applicability to at least ordered univariate outcomes. This flexibility makes transformation models an attractive choice for modeling complex relationships in a wide range of domains. The R package tramME extends the transformation model framework with general random effect structures and penalized smooth terms to adapt to dependent data and nonlinear predictor-outcome relationships. This paper presents the statistical framework and implementation details of tramME, including its integration with other popular R packages for transformation modeling (mlt), mixed-effects (lme4) and additive models (mgcv). The package employs the efficient Template Model Builder framework (TMB) for fully parametric likelihood-based estimation and inference. Two illustrations demonstrate that tramME can readily model complex, dependent data structures under settings where the choice of the outcome distribution type is challenging.
相関のある観測値と潜在的な非線形予測因子-結果関係を考慮した回帰モデルは、実験データと観測データの分析において不可欠です。従来のパラメトリック手法とは異なり、変換モデルは条件付き応答分布に関する仮定を弱めることで、少なくとも順序付けられた単変量結果に対してより普遍的な適用性を可能にします。この柔軟性により、変換モデルは幅広い分野における複雑な関係をモデル化するための魅力的な選択肢となっています。RパッケージtramMEは、一般的なランダム効果構造とペナルティ付き平滑項を追加することで、変換モデルのフレームワークを拡張し、従属データと非線形予測因子-結果関係に適応します。本稿では、変換モデリング(mlt)、混合効果モデル(lme4)、加法モデル(mgcv)などの他の一般的なRパッケージとの統合を含め、tramMEの統計フレームワークと実装の詳細を紹介します。このパッケージは、効率的なテンプレートモデルビルダーフレームワーク(TMB)を採用し、完全なパラメトリック尤度ベースの推定と推論を実現します。2つの図は、結果分布タイプの選択が難しい状況下でも、tramMEが複雑で依存関係のあるデータ構造を容易にモデル化できることを示しています。