Towards Understanding Gradient Flow Dynamics of Homogeneous Neural Networks Beyond the Origin
均質ニューラルネットワークの勾配フローダイナミクスの理解に向けて(原点を超えて)
Recent works exploring the training dynamics of homogeneous neural network weights under gradient flow with small initialization have established that in the early stages of training, the weights remain small and near the origin, but converge in direction. Building on this, the current paper studies the gradient flow dynamics of homogeneous neural networks with locally Lipschitz gradients, after they escape the origin. Insights gained from this analysis are used to characterize the first saddle point encountered by gradient flow after escaping the origin. Also, it is shown that for homogeneous feed-forward neural networks, under certain conditions, the sparsity structure emerging among the weights before the escape is preserved after escaping the origin and until reaching the next saddle point.
小さな初期化を伴う勾配フローにおける均質ニューラルネットワークの重みの訓練ダイナミクスを調査した最近の研究では、訓練の初期段階では重みは小さく原点付近に留まりますが、方向が収束することが明らかにされています。これに基づき、本論文では、局所的にリプシッツ勾配を持つ均質ニューラルネットワークが原点を脱出した後の勾配フローダイナミクスを研究します。この解析から得られた知見は、勾配フローが原点を脱出した後に遭遇する最初の鞍点を特徴付けるために用いられます。また、均質フィードフォワードニューラルネットワークでは、特定の条件下では、脱出前に重み間に現れたスパース構造が、原点を脱出した後、次の鞍点に到達するまで維持されることが示されています。
Optimal Complexity in Byzantine-Robust Distributed Stochastic Optimization with Data Heterogeneity
データの異質性を考慮したビザンチンロバスト分散確率最適化における最適計算量
In this paper, we establish tight lower bounds for Byzantine-robust distributed first-order stochastic methods in both strongly convex and non-convex stochastic optimization. We reveal that when the distributed nodes have heterogeneous data, the convergence error comprises two components: a non-vanishing Byzantine error and a vanishing optimization error. We establish the lower bounds on the Byzantine error and on the minimum number of queries to a stochastic gradient oracle for achieving an arbitrarily small optimization error. Nevertheless, we also identify significant discrepancies between our established lower bounds and the existing upper bounds. To fill this gap, we leverage the techniques of Nesterov’s acceleration and variance reduction to develop novel Byzantine-robust distributed stochastic optimization methods that provably match these lower bounds, up to at most logarithmic factors, implying that our established lower bounds are tight.
本論文では、強凸および非凸確率最適化の両方において、ビザンチンロバストな分散一次確率的手法の厳密な下限を確立します。分散ノードが異種データを持つ場合、収束誤差は2つの要素、すなわちゼロでないビザンチン誤差とゼロとなる最適化誤差で構成されることを明らかにします。我々は、ビザンチン誤差と、任意に小さい最適化誤差を達成するための確率的勾配オラクルへの最小クエリ回数の下限を確立します。しかしながら、確立した下限と既存の上限の間には重大な矛盾があることも確認した。このギャップを埋めるため、我々はネステロフの加速法と分散低減法の手法を活用し、これらの下限値に最大でも対数係数まで一致することが証明できる、ビザンチンロバストな新しい分散確率最適化手法を開発しました。これは、我々が確立した下限値が厳密であることを示しています。
Towards Unified Native Spaces in Kernel Methods
カーネル法における統一ネイティブ空間の実現に向けて
There exists a plethora of parametric models for positive definite kernels in Euclidean spaces, and their use is ubiquitous in statistics, machine learning, numerical analysis, and approximation theory. Usually, the kernel parameters index certain features of an associated process. Amongst those features, smoothness (in the sense of Sobolev spaces, mean square differentiability, and fractal dimensions), compact or global supports, and negative dependencies (hole effects) are of interest to several theoretical and applied disciplines. This paper unifies a wealth of well-known kernels into a single parametric class that encompasses them as special cases, attained either by exact parameterization or through parametric asymptotics. We furthermore find parametric restrictions under which we can characterize the Sobolev space that is norm equivalent to the RKHS associated with the new kernel. As a by-product, we infer the Sobolev spaces that are associated with existing classes of kernels. We illustrate the main properties of the new class, show how this class can switch from compact to global supports, and provide special cases for which the kernel attains negative values over nontrivial intervals. Hence, the proposed class of kernel is the reproducing kernel of a Hilbert space that contains many special cases, including the celebrated Matérn and Wendland kernels, as well as their aliases with hole effects.
ユークリッド空間における正定値カーネルのパラメトリックモデルは数多く存在し、統計学、機械学習、数値解析、近似理論などにおいて広く用いられています。通常、カーネルパラメータは関連するプロセスの特定の特徴を表します。これらの特徴の中でも、滑らかさ(ソボレフ空間、平均二乗微分可能性、フラクタル次元の意味で)、コンパクトまたはグローバルなサポート、そして負の従属性(ホール効果)は、多くの理論分野および応用分野で関心を集めています。本論文では、数多くのよく知られたカーネルを、厳密なパラメータ化またはパラメトリック漸近法によって得られる特殊なケースとして包含する単一のパラメトリッククラスに統合します。さらに、新しいカーネルに関連付けられたRKHSとノルム同値なソボレフ空間を特徴付けることができるパラメトリック制約を明らかにします。副産物として、既存のカーネルクラスに関連付けられたソボレフ空間を推論します。我々は、この新しいクラスの主な特性を示し、このクラスがコンパクトサポートからグローバルサポートへとどのように切り替わるかを示し、カーネルが非自明な区間で負の値をとる特殊なケースを提供します。したがって、提案するカーネルクラスは、著名なマテルンカーネルとウェンドランドカーネル、そしてそれらのホール効果を伴うエイリアスを含む多くの特殊なケースを含むヒルベルト空間の再生カーネルです。
TorchCP: A Python Library for Conformal Prediction
TorchCP:共形予測のためのPythonライブラリ
Conformal prediction (CP) is a powerful statistical framework that generates prediction intervals or sets with guaranteed coverage probability. While CP algorithms have evolved beyond traditional classifiers and regressors to sophisticated deep learning models like deep neural networks (DNNs), graph neural networks (GNNs), and large language models (LLMs), existing CP libraries often lack the model support and scalability for large-scale deep learning (DL) scenarios. This paper introduces TorchCP, a PyTorch-native library designed to integrate state-of-the-art CP algorithms into DL techniques, including DNN-based classifiers/regressors, GNNs, and LLMs. Released under the LGPL-3.0 license, TorchCP comprises about 16k lines of code, validated with 100% unit test coverage and detailed documentation. Notably, TorchCP enables CP-specific training algorithms, online prediction, and GPU-accelerated batch processing, achieving up to 90% reduction in inference time on large datasets. With its low-coupling design, comprehensive suite of advanced methods, and full GPU scalability, TorchCP empowers researchers and practitioners to enhance uncertainty quantification across cutting-edge applications.
等角予測(CP)は、保証されたカバレッジ確率で予測区間またはセットを生成する強力な統計フレームワークです。CPアルゴリズムは、従来の分類器や回帰器を超えて、ディープニューラルネットワーク(DNN)、グラフニューラルネットワーク(GNN)、大規模言語モデル(LLM)といった洗練されたディープラーニングモデルへと進化してきましたが、既存のCPライブラリは、大規模なディープラーニング(DL)シナリオに対応できるモデルサポートとスケーラビリティが不足していることが多いです。本稿では、最先端のCPアルゴリズムをDNNベースの分類器/回帰器、GNN、LLMなどのDL技術に統合するために設計されたPyTorchネイティブライブラリであるTorchCPを紹介します。LGPL-3.0ライセンスの下でリリースされたTorchCPは、約16,000行のコードで構成され、100%のユニットテストカバレッジと詳細なドキュメントによって検証されています。特に、TorchCPはCP固有のトレーニングアルゴリズム、オンライン予測、GPUアクセラレーションによるバッチ処理を可能にし、大規模データセットにおける推論時間を最大90%短縮します。低結合設計、包括的な高度な手法スイート、そして完全なGPUスケーラビリティを備えたTorchCPは、研究者や実務家が最先端のアプリケーション全体にわたって不確実性の定量化を強化することを可能にします。
Hopfield-Fenchel-Young Networks: A Unified Framework for Associative Memory Retrieval
ホップフィールド・フェンチェル・ヤングネットワーク:連想記憶検索のための統一フレームワーク
Associative memory models, such as Hopfield networks and their modern variants, have garnered renewed interest due to advancements in memory capacity and connections with self-attention in transformers. In this work, we introduce a unified framework-Hopfield-Fenchel-Young networks-which generalizes these models to a broader family of energy functions. Our energies are formulated as the difference between two Fenchel-Young losses: one, parameterized by a generalized entropy, defines the Hopfield scoring mechanism, while the other applies a post-transformation to the Hopfield output. By utilizing Tsallis and norm entropies, we derive end-to-end differentiable update rules that enable sparse transformations, uncovering new connections between loss margins, sparsity, and exact retrieval of single memory patterns. We further extend this framework to structured Hopfield networks using the SparseMAP transformation, allowing the retrieval of pattern associations rather than a single pattern. Our framework unifies and extends traditional and modern Hopfield networks and provides an energy minimization perspective for widely used post-transformations like $\ell_2$-normalization and layer normalization-all through suitable choices of Fenchel-Young losses and by using convex analysis as a building block. Finally, we validate our Hopfield-Fenchel-Young networks on diverse memory recall tasks, including free and sequential recall. Experiments on simulated data, image retrieval, multiple instance learning, and text rationalization demonstrate the effectiveness of our approach.
ホップフィールドネットワークやその最新版といった連想記憶モデルは、記憶容量の進歩や、変換における自己注意との関連性により、新たな関心を集めています。本研究では、これらのモデルをより広範なエネルギー関数群に一般化する統合フレームワーク、ホップフィールド-フェンチェル-ヤングネットワークを導入します。我々のエネルギーは、2つのフェンチェル-ヤング損失の差として定式化されます。1つは一般化エントロピーでパラメータ化され、ホップフィールドスコアリングメカニズムを定義します。もう1つはホップフィールド出力に事後変換を適用します。Tsallisエントロピーとノルムエントロピーを用いることで、スパース変換を可能にするエンドツーエンドの微分可能更新規則を導出し、損失マージン、スパース性、そして単一記憶パターンの正確な検索との間の新たな関連性を明らかにします。さらに、このフレームワークをSparseMAP変換を用いて構造化ホップフィールドネットワークに拡張し、単一パターンではなくパターンの関連性の検索を可能にします。我々のフレームワークは、従来のホップフィールドネットワークと最新のホップフィールドネットワークを統合・拡張し、適切なフェンチェル-ヤング損失の選択と凸解析を構成要素として用いることで、$\ell_2$正規化や層正規化といった広く用いられている事後変換に対してエネルギー最小化の観点を提供します。最後に、自由想起や逐次想起を含む多様な記憶想起タスクにおいて、ホップフィールド-フェンチェル-ヤングネットワークの有効性を検証します。シミュレーションデータ、画像検索、複数インスタンス学習、テキスト合理化といった実験により、我々のアプローチの有効性が実証されています。
Identifiability of Causal Graphs under Non-Additive Conditionally Parametric Causal Models
非加法的な条件付きパラメトリック因果関係に基づく因果グラフの識別可能性モデル
Existing approaches to causal discovery often rely on restrictive modeling assumptions that limit their applicability in real-world settings, particularly when data are heavy-tailed or contain a mixture of discrete and continuous variables. Identifiability of causal graphs has been established under several structural models, including linear non-Gaussian models, post-nonlinear models, and location-scale models. However, these frameworks may not capture the diversity of distributions observed in practice. To address this, we introduce Conditionally Parametric Causal Models (CPCM), a flexible class of models where the conditional distribution of the effect, given its cause, belongs to a known parametric family such as Gaussian, Poisson, Gamma, or Pareto. These models are adaptable to a wide range of practical situations, where the cause influences not only the mean but also the variance or tail behavior of the effect. We demonstrate the identifiability of CPCM by leveraging the concept of sufficient statistics. Furthermore, we propose an algorithm for estimating the causal structure from random samples drawn from CPCM. We evaluate the empirical properties of our methodology on various datasets, demonstrating state-of-the-art performance across multiple benchmarks.
因果発見に対する既存のアプローチは、多くの場合、制限的なモデリング仮定に依存しており、特にデータがヘビーテールである場合や、離散変数と連続変数が混在している場合、現実世界の設定への適用性が制限されます。因果グラフの識別可能性は、線形非ガウスモデル、ポスト非線形モデル、ロケーションスケールモデルなど、いくつかの構造モデルにおいて確立されています。しかし、これらの枠組みは、実際に観察される分布の多様性を捉えきれない可能性があります。この問題に対処するため、我々は条件付きパラメトリック因果モデル(CPCM)を導入します。これは、原因を与えられた効果の条件付き分布が、ガウス分布、ポアソン分布、ガンマ分布、パレート分布などの既知のパラメトリック分布族に属する柔軟なモデル群です。これらのモデルは、原因が効果の平均だけでなく、分散や裾の挙動にも影響を与えるような、幅広い実用状況に適応可能です。我々は十分統計量の概念を活用することで、CPCMの識別可能性を実証します。さらに、CPCMから抽出されたランダムサンプルから因果構造を推定するアルゴリズムを提案します。様々なデータセットを用いて本手法の実証的特性を評価し、複数のベンチマークにおいて最先端の性能を示す。
Fundamental Limits of Membership Inference Attacks on Machine Learning Models
機械学習モデルに対するメンバーシップ推論攻撃の基本的限界
Membership inference attacks (MIA) can reveal whether a particular data point was part of the training dataset, potentially exposing sensitive information about individuals. This article provides theoretical guarantees by exploring the fundamental statistical limitations associated with MIAs on machine learning models at large. More precisely, we first derive the statistical quantity that governs the effectiveness and success of such attacks. We then theoretically prove that in a non-linear regression setting with overfitting learning procedures, attacks may have a high probability of success. Finally, we investigate several situations for which we provide bounds on this quantity of interest. Interestingly, our findings indicate that discretizing the data might enhance the learning procedure’s security. Specifically, it is demonstrated to be limited by a constant, which quantifies the diversity of the underlying data distribution. We illustrate those results through simple simulations.
メンバーシップ推論攻撃(MIA)は、特定のデータポイントが学習データセットの一部であったかどうかを明らかにする可能性があり、個人に関する機密情報を漏洩する可能性があります。本稿では、機械学習モデル全体におけるMIAに関連する基本的な統計的限界を探求することで、理論的な保証を提供します。より正確には、まず、このような攻撃の有効性と成功率を左右する統計量を導出します。次に、過学習手順を伴う非線形回帰設定において、攻撃の成功率が高くなる可能性があることを理論的に証明します。最後に、この関心対象の統計量に上限を与えるいくつかの状況を調査します。興味深いことに、私たちの調査結果は、データを離散化することで学習手順のセキュリティが向上する可能性があることを示唆しています。具体的には、基礎となるデータ分布の多様性を定量化する定数によってセキュリティが制限されることが実証されています。これらの結果を簡単なシミュレーションで示します。
On the Robustness of Kernel Goodness-of-Fit Tests
カーネル適合度検定の堅牢性について
Goodness-of-fit testing is often criticized for its lack of practical relevance: since “all models are wrong”, the null hypothesis that the data conform to our model is ultimately always rejected as the sample size grows. Despite this, probabilistic models are still used extensively, raising the more pertinent question of whether the model is good enough for the task at hand. This question can be formalized as a robust goodness-of-fit testing problem by asking whether the data were generated from a distribution that is a mild perturbation of the model. In this paper, we show that existing kernel goodness-of-fit tests are not robust under common notions of robustness including both qualitative and quantitative robustness. We further show that robustification techniques using tilted kernels, while effective in the parameter estimation literature, are not sufficient to ensure both types of robustness in the testing setting. To address this, we propose the first robust kernel goodness-of-fit test, which resolves this open problem by using kernel Stein discrepancy (KSD) balls. This framework encompasses many well-known perturbation models, such as Huber’s contamination and density-band models.
適合度検定は、実用性に欠けるという批判を受けることが多い。「すべてのモデルは間違っている」ため、データがモデルに適合するという帰無仮説は、サンプルサイズが大きくなるにつれて最終的に必ず棄却されるからです。それにもかかわらず、確率モデルは依然として広く用いられており、より適切な問題として、モデルが当該タスクに対して十分に適合しているかどうかという問題が生じる。この問題は、データがモデルをわずかに揺らがせた分布から生成されたかどうかを問うことによって、ロバストな適合度検定問題として定式化することができます。本論文では、既存のカーネル適合度検定が、定性的および定量的ロバスト性の両方を含む一般的なロバスト性の概念の下ではロバストではないことを示す。さらに、傾斜カーネルを用いたロバスト化手法は、パラメータ推定の文献では有効であるものの、検定環境においては両方の種類のロバスト性を確保するには不十分であることを示す。この問題に対処するため、本論文では、カーネル・スタイン・ディスクレパンシー(KSD)ボールを用いることでこの未解決問題を解決する、初のロバストなカーネル適合度検定を提案します。このフレームワークには、Huberの汚染モデルや密度バンド モデルなど、多くのよく知られた摂動モデルが含まれています。
Efficient Online Prediction for High-Dimensional Time Series via Joint Tensor Tucker Decomposition
ジョイントテンソル・タッカー分解による高次元時系列の効率的なオンライン予測
Real-time prediction plays a vital role in various control systems, such as traffic congestion control and wireless channel resource allocation. In these scenarios, the predictor usually needs to track the evolution of the latent statistical patterns in the modern high-dimensional streaming time series continuously and quickly, which presents new challenges for traditional prediction methods. This paper is the first to propose a novel online algorithm (TOPA) based on tensor factorization to predict streaming tensor time series. The proposed algorithm TOPA updates the predictor in a low-complexity online manner to adapt to the time-evolving data. Additionally, an automatically adaptive version of the algorithm (TOPA-AAW) is presented to mitigate the negative impact of stale data. Simulation results demonstrate that our proposed methods achieve prediction accuracy similar to that of conventional offline tensor prediction methods, while being much faster than them during long-term online prediction. Therefore, TOPA-AAW is an effective and efficient solution method for online prediction of streaming tensor time series.
リアルタイム予測は、交通渋滞制御や無線チャネルリソース割り当てなど、さまざまな制御システムで重要な役割を果たしています。これらのシナリオでは、予測子は通常、最新の高次元ストリーミング時系列の潜在的な統計パターンの変化を継続的かつ迅速に追跡する必要があり、従来の予測方法には新たな課題が生じています。本論文は、ストリーミングテンソル時系列を予測するために、テンソル分解に基づく新しいオンラインアルゴリズム(TOPA)を提案する初めての論文です。提案されたアルゴリズムTOPAは、時間とともに変化するデータに適応するために、予測子を低複雑度のオンラインで更新します。さらに、古くなったデータの悪影響を軽減するために、アルゴリズムの自動適応バージョン(TOPA-AAW)が提示されています。シミュレーション結果は、提案された方法が従来のオフラインテンソル予測方法と同等の予測精度を達成しながら、長期オンライン予測中にそれらよりもはるかに高速であることを示しています。したがって、TOPA-AAWは、ストリーミングテンソル時系列のオンライン予測のための効果的で効率的なソリューション方法です。
Fast Computation of Superquantile-Constrained Optimization Through Implicit Scenario Reduction
暗黙的シナリオ縮約による超分位制約最適化の高速計算
Superquantiles have recently gained significant interest as a risk-aware metric for addressing fairness and distribution shifts in statistical learning and decision making problems. This paper introduces a fast, scalable and robust second-order computational framework to solve large-scale optimization problems with superquantile-based constraints. Unlike empirical risk minimization, superquantile-based optimization requires ranking random functions evaluated across all scenarios to compute the tail conditional expectation. While this tail-based feature might seem computationally unfriendly, it provides an advantageous setting for a semismooth-Newton-based augmented Lagrangian method. The superquantile operator effectively reduces the dimensions of the Newton systems since the tail expectation involves considerably fewer scenarios. Notably, the extra cost of obtaining relevant second-order information and performing matrix inversions is often comparable to, and sometimes even less than, the effort required for gradient computation. Our developed solver is particularly effective when the number of scenarios substantially exceeds the number of decision variables. In synthetic problems with linear and convex diagonal quadratic objectives, numerical experiments demonstrate that our method outperforms existing approaches by a large margin: It achieves speeds more than 750 times faster for linear and quadratic objectives than the alternating direction method of multipliers as implemented by OSQP for computing low-accuracy solutions. Additionally, it is up to 25 times faster for linear objectives and 70 times faster for quadratic objectives than the commercial solver Gurobi, and 20 times faster for linear objectives and 30 times faster for quadratic objectives than the Portfolio Safeguard optimization suite for high-accuracy solution computations. For the quantile regression problem involving over 30 million scenarios, our method computes solution paths up to 20 times faster than Gurobi. The Julia implementation of the solver is available at https://github.com/jacob-roth/superquantile-opt.
スーパークォンタイルは、統計学習および意思決定問題における公平性と分布シフトに対処するためのリスクを考慮した指標として、最近大きな注目を集めています。本稿では、スーパークォンタイルに基づく制約を持つ大規模最適化問題を解くための、高速でスケーラブルかつ堅牢な2次計算フレームワークを紹介します。経験的リスク最小化とは異なり、スーパークォンタイルに基づく最適化では、裾の条件付き期待値を計算するため、すべてのシナリオにわたって評価されたランク付けランダム関数が必要です。この裾に基づく特徴は計算的に不利に思えるかもしれないが、半平滑ニュートン法に基づく拡張ラグランジュ法にとって有利な設定を提供します。スーパークォンタイル演算子は、裾期待値に含まれるシナリオ数が大幅に減少するため、ニュートンシステムの次元を効果的に削減します。特に、関連する二次情報を取得し、逆行列演算を実行するための追加コストは、勾配計算に必要な労力と同程度、あるいはそれ以下になる場合さえあります。開発したソルバーは、シナリオ数が決定変数の数を大幅に上回る場合に特に効果的です。線形および凸対角二次目的関数を含む合成問題において、数値実験により、本手法が既存の手法を大幅に上回る性能を示すことが実証されています。低精度解の計算において、OSQPが実装する交互方向乗算法と比較して、線形および二次目的関数で750倍以上の速度を達成しています。さらに、商用ソルバーGurobiと比較して、線形目的関数で最大25倍、二次目的関数で最大70倍、高精度解の計算においてPortfolio Safeguard最適化スイートと比較して、線形目的関数で最大20倍、二次目的関数で最大30倍の速度を達成しています。3,000万以上のシナリオを含む分位点回帰問題において、本手法はGurobi法よりも最大20倍高速に解経路を計算します。ソルバーのJulia実装はhttps://github.com/jacob-roth/superquantile-optで入手可能です。
Collaborative likelihood-ratio estimation over graphs
グラフ上の協調的尤度比推定
This paper introduces the Collaborative Likelihood-ratio Estimation problem, which is relevant for applications involving multiple statistical estimation tasks that can be mapped to the nodes of a fixed graph expressing pairwise task similarity. Each graph node $v$ observes i.i.d data from two unknown node-specific pdfs, $p_{v}$ and $q_{v}$, and the goal is to estimate the likelihood-ratios (or density-ratios), $r_{v}(x)=\frac{q_{v}(x)}{p_{v}(x)}$, for all $v$. Our contribution is multifold: we present a non-parametric collaborative framework that leverages the graph structure of the problem to solve the tasks more efficiently; we present a concrete method that we call Graph-based Relative Unconstrained Least-Squares Importance Fitting (GRULSIF) along with an efficient implementation; we derive convergence rates that highlight the role of the main variables of the problem. Our theoretical results explicit the conditions under which the collaborative estimation leads to performance gains compared to solving each estimation task independently. Finally, in a series of experiments, we demonstrate that the joint likelihood-ratio estimation of GRULSIF at all graph nodes is more accurate compared to state-of-the-art methods that operate independently at each node, and we verify that the behavior of GRULSIF is in agreement with our theoretical analysis.
本論文では、協調的尤度比推定問題を紹介します。この問題は、ペアワイズタスク類似性を表現する固定グラフのノードにマッピングできる複数の統計的推定タスクを伴うアプリケーションに関連します。各グラフノード$v$は、2つの未知のノード固有のpdf $p_{v}$と$q_{v}$からi.i.dデータを観察し、すべての$v$について尤度比(または密度比) $r_{v}(x)=\frac{q_{v}(x)}{p_{v}(x)}$を推定することが目標です。私たちの貢献は多岐にわたります。問題のグラフ構造を活用してタスクをより効率的に解決するノンパラメトリック協調フレームワークを提示します。また、効率的な実装とともに、Graph-based Relative Unconstrained Least-Squares Importance Fitting (GRULSIF)と呼ぶ具体的な手法を提示します。さらに、問題の主な変数の役割を強調する収束率を導出します。我々の理論的結果は、各推定タスクを個別に解く場合と比較して、協調推定が性能向上につながる条件を明確に示しています。最後に、一連の実験において、すべてのグラフノードにおけるGRULSIFの結合尤度比推定は、各ノードで独立して動作する最先端の方法と比較してより正確であることを実証し、GRULSIFの挙動が我々の理論分析と一致することを検証します。
On the Utility of Equal Batch Sizes for Inference in Stochastic Gradient Descent
確率的勾配降下法における推論における等バッチサイズの有用性について
Stochastic gradient descent (SGD) is an estimation tool for large data employed in machine learning and statistics. Due to the Markovian nature of the SGD process, inference is a challenging problem. An underlying asymptotic normality of the averaged SGD (ASGD) estimator allows for the construction of a batch-means estimator of the asymptotic covariance matrix. Instead of the usual increasing batch-size strategy, we propose a memory efficient equal batch-size strategy and show that under mild conditions, the batch-means estimator is consistent. A key feature of the proposed batching technique is that it allows for bias-correction of the variance, at no additional cost to memory. Further, since joint inference for large dimensional problems may be undesirable, we present marginal-friendly simultaneous confidence intervals, and show through an example on how covariance estimators of ASGD can be employed for improved predictions.
確率的勾配降下法(SGD)は、機械学習や統計学で用いられる大規模データの推定ツールです。SGDプロセスのマルコフ性のため、推論は困難な問題です。平均SGD(ASGD)推定量の漸近正規性を利用することで、漸近共分散行列のバッチ平均推定量を構築できます。通常のバッチサイズ増加戦略の代わりに、メモリ効率の高い等バッチサイズ戦略を提案し、軽度の条件下ではバッチ平均推定量が整合することを示します。提案するバッチ処理手法の重要な特徴は、メモリコストを追加することなく、分散のバイアス補正を可能にすることです。さらに、大規模問題における同時推論は望ましくない場合があるため、周辺化を考慮した同時信頼区間を提示し、ASGDの共分散推定量を用いて予測精度を向上させる方法を例を用いて示します。
Differentially Private Bootstrap: New Privacy Analysis and Inference Strategies
差分プライバシーを考慮したブートストラップ: 新しいプライバシー分析および推論戦略
Differentially private (DP) mechanisms protect individual-level information by introducing randomness into the statistical analysis procedure. Despite the availability of numerous DP tools, there remains a lack of general techniques for conducting statistical inference under DP. We examine a DP bootstrap procedure that releases multiple private bootstrap estimates to infer the sampling distribution and construct confidence intervals (CIs). Our privacy analysis presents new results on the privacy cost of a single DP bootstrap estimate, applicable to any DP mechanism, and identifies some misapplications of the bootstrap in the existing literature. For the composition of the DP bootstrap, we present a numerical method to compute the exact privacy cost of releasing multiple DP bootstrap estimates, and using the Gaussian-DP (GDP) framework (Dong et al., 2022) we show that the release of $B$ DP bootstrap estimates from mechanisms satisfying $(\mu/\sqrt{(2-2/\mathrm{e})B})$-GDP asymptotically satisfies $\mu$-GDP as $B$ goes to infinity. Then, we perform private statistical inference by post-processing the DP bootstrap estimates. We prove that our point estimates are consistent, our standard CIs are asymptotically valid, and both enjoy optimal convergence rates. To further improve the finite performance, we use deconvolution with DP bootstrap estimates to accurately infer the sampling distribution. We derive CIs for tasks such as population mean estimation, logistic regression, and quantile regression, and we compare them to existing methods using simulations and real-world experiments on 2016 Canada Census data. Our private CIs achieve the nominal coverage level and offer the first approach to private inference for quantile regression.
差分プライバシー(DP)メカニズムは、統計分析手順にランダム性を導入することで、個人レベルの情報を保護します。多数のDPツールが利用可能であるにもかかわらず、DP下で統計的推論を行うための一般的な手法が依然として不足しています。本研究では、複数のプライベートブートストラップ推定値を公開して標本分布を推定し、信頼区間(CI)を構築するDPブートストラップ手順を検証します。本プライバシー分析は、任意のDPメカニズムに適用可能な単一のDPブートストラップ推定値のプライバシーコストに関する新しい結果を示し、既存の文献におけるブートストラップのいくつかの誤用を特定します。DPブートストラップの合成については、複数のDPブートストラップ推定値を公開する際の正確なプライバシーコストを計算する数値手法を提示し、ガウスDP(GDP)フレームワーク(Dongら, 2022)を使用して、$(\mu/\sqrt{(2-2/\mathrm{e})B})$-GDPを満たすメカニズムから$B$個のDPブートストラップ推定値を公開すると、$B$が無限大になるにつれて漸近的に$\mu$-GDPを満たすことを示します。次に、DPブートストラップ推定値を後処理することで、プライベートな統計的推論を実行します。点推定値が一貫していること、標準信頼区間が漸近的に有効であること、そしてどちらも最適な収束率を享受できることを証明します。有限パフォーマンスをさらに向上させるために、DPブートストラップ推定値とのデコンボリューションを使用して、サンプリング分布を正確に推論します。人口平均推定、ロジスティック回帰、分位回帰といったタスクのためのCIを導出し、2016年カナダ国勢調査データを用いたシミュレーションと実世界実験を用いて、既存の手法と比較しました。私たちのプライベートCIは名目カバレッジレベルを達成し、分位回帰におけるプライベート推論への初めてのアプローチを提供します。
Convergence and Sample Complexity of Natural Policy Gradient Primal-Dual Methods for Constrained MDPs
制約付きMDPに対する自然方策勾配プライマル-デュアル法の収束とサンプル複雑度
We study the sequential decision making problem of maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected subgradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization, we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. We use a set of computational experiments to showcase the effectiveness of our approach.
期待総効用に関する制約を満たしつつ、期待総報酬を最大化する逐次意思決定問題を研究します。制約付きマルコフ決定過程(制約付きMDP)の割引無限時間最適制御問題を解くために、自然方策勾配法を用います。具体的には、自然方策勾配上昇法によって主変数を更新し、射影劣勾配降下法によって双対変数を更新する、新しい自然方策勾配主双対法(NPG-PD法)を提案します。この最大化には非凹目的関数と非凸制約セットが用いられるが、ソフトマックス方策パラメータ化の下で、本手法は最適性ギャップと制約違反の両方に関して、線形以下の速度で大域収束を達成することを証明します。このような収束は状態行動空間のサイズに依存しない、すなわち次元フリーです。さらに、対数線形および一般的な滑らかな方策パラメータ化に対して、制限された方策パラメータ化によって引き起こされる関数近似誤差までの線形収束率を確立します。また、2つのサンプルベースのNPG-PDアルゴリズムに対して、収束性と有限サンプル計算量の保証を提供します。一連の計算実験を用いて、本手法の有効性を示す。
Differentially Private Multivariate Medians
差分プライバシーを考慮した多変量メディアン
Statistical tools which satisfy rigorous privacy guarantees are necessary for modern data analysis. It is well-known that robustness against contamination is linked to differential privacy. Despite this fact, using multivariate medians for differentially private and robust multivariate location estimation has not been systematically studied. We develop novel finite-sample performance guarantees for differentially private multivariate depth-based medians, which are essentially sharp. Our results cover commonly used depth functions, such as the halfspace (or Tukey) depth, spatial depth, and the integrated dual depth. We show that under Cauchy marginals, the cost of heavy-tailed location estimation outweighs the cost of privacy. We demonstrate our results numerically using a Gaussian contamination model in dimensions up to d = 100, and compare them to a state-of-the-art private mean estimation algorithm. As a by-product of our investigation, we prove concentration inequalities for the output of the exponential mechanism about the maximizer of the population objective function. This bound applies to objective functions that satisfy a mild regularity condition.
厳格なプライバシー保証を満たす統計ツールは、現代のデータ分析に不可欠です。汚染に対する堅牢性は差分プライバシーと関連していることはよく知られています。しかしながら、多変量中央値を差分プライバシーと堅牢性を備えた多変量位置推定に用いることは、体系的に研究されていません。本研究では、本質的にシャープな、差分プライバシーを考慮した多変量深度ベース中央値に対する、新たな有限サンプル性能保証を開発します。本研究の結果は、半空間(またはTukey)深度、空間深度、統合双対深度など、一般的に用いられる深度関数を網羅しています。コーシー周辺分布の下では、裾の厚い位置推定のコストがプライバシーのコストを上回ることを示します。本研究の結果は、d = 100次元までのガウス汚染モデルを用いて数値的に実証し、最先端のプライバシー平均推定アルゴリズムと比較します。本研究の副産物として、人口目的関数の最大化関数に関する指数関数メカニズムの出力における集中不等式を証明します。この境界は、軽度の正則性条件を満たす目的関数に適用されます。
VFOSA: Variance-Reduced Fast Operator Splitting Algorithms for Generalized Equations
VFOSA: 一般化方程式に対する分散縮小高速演算子分割アルゴリズム
We develop two Variance-reduced Fast Operator Splitting Algorithms (VFOSA) to approximate solutions for a class of generalized equations, covering fundamental problems such as minimization, minimax problems, and variational inequalities as special cases. Our approach integrates recent advances in accelerated operator splitting and fixed-point methods, co-hypomonotonicity structure, and variance reduction techniques. First, we introduce a class of variance-reduced estimators and establish their variance-reduction bounds. This class includes both unbiased and biased instances and comprises common estimators as special cases, including SVRG, SAGA, SARAH, and Hybrid-SGD. Second, we design a novel accelerated variance-reduced forward-backward splitting (FBS) method using these estimators to solve generalized equations in both finite-sum and expectation settings. Our algorithm achieves both O(1/k^2) and o(1/k^2) convergence rates on the expected squared norm E[ ||G_{\lambda}x^k||^2] of the FBS residual G_{\lambda}, where k is the iteration counter. Additionally, we establish almost sure convergence rates and the almost sure convergence of iterates to asolution of the underlying generalized equation. Unlike existing stochastic operator splitting algorithms, our methods accommodate co-hypomonotone operators, which can include nonmonotone problems arising in recent applications. Third, we specify our method for each concrete estimator mentioned above and derive the corresponding oracle complexity, demonstrating that these variants achieve the best-known oracle complexity bounds without requiring additional enhancement techniques. Fourth, we develop a variance-reduced fast backward-forward splitting (BFS) method, which attains similar convergence results and oracle complexity bounds as our FBS-based algorithm. Finally, we validate our results through numerical experiments and compare their performance with existing methods.
我々は、最小化、ミニマックス問題、変分不等式などの基本的な問題を特別なケースとして扱う、一般化方程式のクラスの解を近似する2つの分散低減高速演算子分割アルゴリズム(VFOSA)を開発します。我々のアプローチは、加速演算子分割と固定小数点法、共低単調性構造、分散低減技術における最近の進歩を統合します。まず、我々は分散低減推定量を定義し、その分散低減限界を確立します。このクラスには、偏りのあるインスタンスと偏りのあるインスタンスの両方が含まれ、SVRG、SAGA、SARAH、Hybrid-SGDなどの一般的な推定量を特殊なケースとして含む。次に、これらの推定量を用いて、有限和設定と期待値設定の両方で一般化方程式を解くための、新しい加速分散低減前向き後向き分割(FBS)法を設計します。このアルゴリズムは、FBS残差G_{\lambda}の期待二乗ノルムE[||G_{\lambda}x^k||^2]に対して、O(1/k^2)とo(1/k^2)の収束率を達成します。ここで、kは反復回数です。さらに、ほぼ確実な収束率と、反復回数が基礎となる一般化方程式の解にほぼ確実に収束することを確立します。既存の確率的演算子分割アルゴリズムとは異なり、本手法は、非単調問題を含む可能性のある共低単調演算子に対応します。近年の応用で生じる問題に対処します。第三に、上述の具体的な推定量それぞれについて本手法を詳細に規定し、対応するオラクル複雑度を導出します。これにより、これらの手法は追加の拡張技術を必要とせずに、既知のオラクル複雑度における最良の境界値を達成できることを示す。第四に、分散を低減した高速後方前方分割(BFS)法を開発します。この手法は、FBSベースのアルゴリズムと同様の収束結果とオラクル複雑度境界値を達成します。最後に、数値実験により本手法の結果を検証し、既存の手法と性能を比較します。
Scaling Capability in Token Space: An Analysis of Large Vision Language Model
トークン空間におけるスケーリング能力:大規模視覚言語モデルの分析
Large language models have demonstrated predictable scaling behaviors with respect to model parameters and training data.This study investigates whether a similar scaling relationship exist for vision-language models with respect to the number of vision tokens.A mathematical framework is developed to characterize a relationship between vision token number and the expected divergence of distance between vision-referencing sequences.The theoretical analysis reveals two distinct scaling regimes: sublinear scaling for less vision tokens and linear scaling for more vision tokens.This aligns with model performance relationships of the form \(S(n) \approx c / n^{\alpha(n)}\), where the scaling exponent relates to the correlation structure between vision token representations.Empirical validations across multiple vision-language benchmarks show that model performance matches the prediction from scaling relationship.The findings contribute to understanding vision token scaling in transformers through a theoretical framework that complements empirical observations.
大規模言語モデルは、モデルパラメータとトレーニングデータに関して予測可能なスケーリング挙動を示しています。本研究では、視覚言語モデルにおいて視覚トークンの数に関して同様のスケーリング関係が存在するかどうかを調査します。視覚トークン数と視覚トークン間の距離の期待される乖離との関係を特徴付けるための数学的枠組みが開発されます。視覚参照シーケンス。理論分析により、2つの異なるスケーリング方式が明らかになった。すなわち、視覚トークンが少ない場合は亜線形スケーリング、視覚トークンが多い場合は線形スケーリングです。これは、\(S(n) \approx c / n^{\alpha(n)}\)という形式のモデル性能関係と一致し、スケーリング指数は視覚トークン表現間の相関構造に関係します。複数の視覚言語ベンチマークを用いた実証的検証では、モデル性能がスケーリング関係からの予測と一致することが示されました。これらの知見は、実証的観察を補完する理論的枠組みを通じて、トランスフォーマーにおける視覚トークンのスケーリングの理解に貢献します。
Minimax Optimal Two-Sample Testing under Local Differential Privacy
局所差分プライバシー下におけるミニマックス最適2標本検定
We explore the trade-off between privacy and statistical utility in private two-sample testing under local differential privacy (LDP) for both multinomial and continuous data. We begin with the multinomial case, where we introduce private permutation tests using practical privacy mechanisms such as Laplace, discrete Laplace, and Google’s RAPPOR. We then extend this approach to continuous data via binning and study its uniform separation under LDP over H\”{o}lder and Besov smoothness classes. The proposed tests for both discrete and continuous cases rigorously control type I error for any finite sample size, strictly adhere to LDP constraints, and achieve minimax optimality under LDP. The attained minimax rates reveal inherent privacy-utility trade-offs that are unavoidable in private testing. To address scenarios with unknown smoothness parameters in density testing, we propose a Bonferroni-type adaptive test that ensures robust performance without prior knowledge of the smoothness parameters. We validate our theoretical findings with extensive numerical experiments and demonstrate the practical relevance and effectiveness of our proposed methods.
多項式データと連続データの両方を対象に、ローカル差分プライバシー(LDP)に基づく非公開2標本検定におけるプライバシーと統計的有用性のトレードオフを検証します。まず多項式データの場合から始め、ラプラス検定、離散ラプラス検定、GoogleのRAPPOR検定といった実用的なプライバシーメカニズムを用いた非公開順列検定を導入します。次に、このアプローチをビニングによって連続データに拡張し、H\”{o}olderおよびBesovの平滑性クラスにおけるLDPの下での一様分離を研究します。離散ケースと連続ケースの両方に対して提案された検定は、任意の有限サンプルサイズに対してタイプIエラーを厳密に制御し、LDP制約を厳密に遵守し、LDPの下でミニマックス最適性を達成します。達成されたミニマックス率は、プライベートテストでは避けられない固有のプライバシーと効用とのトレードオフを明らかにします。密度テストにおいて平滑性パラメータが不明なシナリオに対処するために、平滑性パラメータの事前知識なしに堅牢なパフォーマンスを保証するBonferroni型適応検定を提案します。我々は、広範な数値実験によって理論的発見を検証し、提案手法の実用的な関連性と有効性を示す。
Jackpot: Approximating Uncertainty Domains with Adversarial Manifolds
ジャックポット:敵対的多様体による不確実性領域の近似
Given a forward mapping Φ : R^N → R^M and a point x* ∈ R^N , the region {x ∈ R^N , ||Φ(x) − Φ(x*)|| ≤ ε}, where ε ≥ 0 is a perturbation amplitude, represents the set of all possible inputs x that could have produced the measurement Φ(x*) within an acceptable error margin. This set is related to uncertainty analysis, a key challenge in inverse problems. In this work, we develop a numerical algorithm called Jackpot (Jacobian Kernel Projection Optimization) which approximates this set with a low-dimensional adversarial manifold. The proposed algorithm leverages automatic differentation, allowing it to handle complex, high dimensional mappings such as those found when dealing with dynamical systems or neural networks. We demonstrate the effectiveness of our algorithm on various challenging large-scale, non-linear problems including parameter identification in dynamical systems and blind image deblurring.
順方向写像 Φ: R^N→R^Mと点x*∈R^Nが与えられたとき、領域{x∈R^N , ||Φ(x)− Φ(x*)||≤ ε}(ε ≥0は摂動振幅)は、許容誤差範囲内で測定値 Φ(x*)を生成する可能性のあるすべての入力xの集合を表す。この集合は、逆問題における重要な課題である不確実性解析に関連しています。本研究では、この集合を低次元の敵対的多様体で近似するJackpot(Jacobian Kernel Projection Optimization)と呼ばれる数値アルゴリズムを開発します。提案アルゴリズムは自動微分法を活用することで、力学系やニューラルネットワークを扱う際に見られるような複雑で高次元の写像を扱うことを可能にします。力学系におけるパラメータ同定やブラインド画像ぼかし除去など、様々な大規模非線形問題において、本アルゴリズムの有効性を実証します。
An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models
ガウスモデルからベイジアンネットワークを学習するための漸近最適座標降下アルゴリズム
This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem, which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: The algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.
本論文では、線形ガウス構造方程式モデルに従って生成された連続観測データからベイジアンネットワークを学習する問題を考察します。この問題に対して、好ましい統計特性を持つことが知られているものの、特に中規模ベイジアンネットワークでは計算量的に解くのが困難な、$\ell_0$ペナルティ付き最尤推定量を検討します。我々は、この推定量を近似する新しい座標降下アルゴリズムを提案し、その手法のいくつかの注目すべき特性を証明します。このアルゴリズムは座標ごとの最小値に収束し、損失関数が非凸であるにもかかわらず、サンプルサイズが無限大に近づくにつれて、座標降下解の目的関数値は$\ell_0$ペナルティ付き最尤推定量の最適な目的関数値に収束します。我々の知る限りでは、我々の提案はベイジアンネットワークの学習という文脈において最適性保証を備えた初の座標降下法です。合成データと実データを用いた数値実験は、我々の座標降下法がスケーラブルでありながら準最適解を得られることを実証しています。
Convergence Rates for Non-Log-Concave Sampling and Log-Partition Estimation
非対数凹サンプリングと対数分割推定の収束率
Sampling from Gibbs distributions and computing their log-partition function are fundamental tasks in statistics, machine learning, and statistical physics. While efficient algorithms are known for log-concave densities, the worst-case non-log-concave setting necessarily suffers from the curse of dimensionality. For many numerical problems, the curse of dimensionality can be alleviated when the target function is smooth, allowing the exponent in the rate to improve linearly with the number of available derivatives. Recently, it has been shown that similarly fast convergence rates can be achieved by efficient optimization algorithms. Since optimization can be seen as the low-temperature limit of sampling from Gibbs distributions, we pose the question of whether similarly fast convergence rates can be achieved for non-log-concave sampling. We first study the information-based complexity of the sampling and log-partition estimation problems and show that the optimal rates for sampling and log-partition computation are sometimes equal and sometimes faster than for optimization. We then analyze various polynomial-time sampling algorithms, including an extension of a recent promising optimization approach, and find that they sometimes exhibit interesting behavior but no near-optimal rates. Our results also give further insights into the relation between sampling, log-partition, and optimization problems.
ギブス分布からのサンプリングとその対数分割関数の計算は、統計学、機械学習、そして統計物理学における基本的な課題です。対数凹分布の密度関数に対しては効率的なアルゴリズムが知られていますが、最悪のケースである非対数凹分布の設定では必然的に次元の呪いに悩まされます。多くの数値問題において、次元の呪いは、目的関数が滑らかであれば緩和され、速度の指数が利用可能な導関数の数に比例して向上します。最近、効率的な最適化アルゴリズムによって同様に高速な収束速度が達成できることが示されました。最適化はギブス分布からのサンプリングの低温極限と見なすことができるため、非対数凹分布のサンプリングにおいても同様に高速な収束速度が達成できるかどうかという疑問を提起します。まず、サンプリングと対数分割推定問題の情報ベースの複雑性を検討し、サンプリングと対数分割計算の最適速度が最適化の場合と等しい場合もあれば、それよりも速い場合もあることを示します。次に、近年の有望な最適化手法の拡張を含む、様々な多項式時間サンプリングアルゴリズムを解析し、それらが興味深い挙動を示すことがあるものの、最適に近いレートは示さないことを発見した。我々の結果はまた、サンプリング、対数分割、および最適化問題の関係について更なる知見を与える。
A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning
機械学習における対称性の強化、発見、促進のための統一フレームワーク
Symmetry is present throughout nature and continues to play an increasingly central role in machine learning. In this paper, we provide a unifying theoretical and methodological framework for incorporating Lie group symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified candidate group only when the data provide sufficient evidence. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual under the bilinear pairing induced by the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularizers, built from the Lie derivative with a nuclear-norm relaxation, that penalizes symmetry breaking during training. We explain how these ideas can be applied to a wide range of machine learning models including basis-function regression, dynamical-systems discovery, neural networks, and neural operators acting on fields.
対称性は自然界全体に存在し、機械学習においてますます中心的な役割を果たし続けています。本稿では、リー群対称性を機械学習モデルに組み込むための統一的な理論的および方法論的枠組みを、以下の3つの方法で提供します。1.モデルのトレーニング時に既知の対称性を強制します。2.与えられたモデルまたはデータセットの未知の対称性を発見します。3.データが十分な証拠を提供する場合にのみ、ユーザーが指定した候補グループ内で対称性を破るモデルを学習することにより、トレーニング中に対称性を促進します。これらのタスクは、リー微分を中心とする共通の数学的枠組みの中に組み込むことができることを示す。対称性の強制と発見は、リー微分によって誘導される双線型ペアリングの下で双対である線型代数タスクであることを示すことで、いくつかの既存の結果を拡張および統合します。また、核ノルム緩和を用いてリー微分から構築された、トレーニング中の対称性の破れにペナルティを課す凸正則化のクラスを導入することにより、対称性を促進する新しい方法を提案します。これらのアイデアが、基底関数回帰、動的システムの発見、ニューラルネットワーク、および場に作用するニューラル演算子など、幅広い機械学習モデルにどのように適用できるかを説明します。
Infinite-dimensional Mahalanobis Distance with Applications to Kernelized Novelty Detection
無限次元マハラノビス距離とカーネル化新規性検出への応用
The Mahalanobis distance is a classical tool used to measure the covariance-adjusted distance between points in $\mathbb{R}^d$. In this work, we extend the concept of Mahalanobis distance to separable Banach spaces by reinterpreting it as a Cameron-Martin norm associated with a probability measure. This approach leads to a basis-free, data-driven notion of anomaly distance through the so-called variance norm, which can naturally be estimated using empirical measures of a sample. Our framework generalizes the classical $\mathbb{R}^d$, functional $(L^2[0,1])^d$, and kernelized settings; importantly, it incorporates non-injective covariance operators. We prove that the variance norm is invariant under invertible bounded linear transformations of the data, extending previous results which are limited to unitary operators. In the Hilbert space setting, we connect the variance norm to the RKHS of the covariance operator, and establish consistency and convergence results for estimation using empirical measures with Tikhonov regularization. Using the variance norm, we introduce the notion of a kernelized nearest-neighbour Mahalanobis distance, and study some of its finite-sample concentration properties. In an empirical study on 12 real-world data sets, we demonstrate that the kernelized nearest-neighbour Mahalanobis distance outperforms the traditional kernelized Mahalanobis distance for multivariate time series novelty detection, using state-of-the-art time series kernels such as the signature, global alignment, and Volterra reservoir kernels.
マハラノビス距離は、$\mathbb{R}^d$内の点間の共分散調整距離を測定するために用いられる古典的なツールです。本研究では、マハラノビス距離の概念を、確率測度に関連付けられたキャメロン・マーティンノルムとして再解釈することにより、可分バナッハ空間へと拡張します。このアプローチは、いわゆる分散ノルムを通じて、基底フリーでデータ駆動型の異常距離の概念につながる。分散ノルムは、サンプルの経験的尺度を用いて自然に推定できます。本フレームワークは、古典的な$\mathbb{R}^d$、関数型$(L^2[0,1])^d$、およびカーネル化設定を一般化します。重要な点として、非単射な共分散演算子を組み込んでいます。分散ノルムはデータの可逆な有界線形変換に対して不変であることを証明し、ユニタリ演算子に限定されていたこれまでの結果を拡張します。ヒルベルト空間の設定において、分散ノルムを共分散演算子のRKHSに結び付け、ティホノフ正則化を用いた経験的尺度を用いた推定の一貫性と収束結果を確立します。分散ノルムを用いて、カーネル化最近傍マハラノビス距離の概念を導入し、その有限サンプル集中特性のいくつかを研究します。12の実世界データセットを用いた実証的研究では、シグネチャカーネル、グローバルアライメントカーネル、ボルテラリザーバカーネルといった最先端の時系列カーネルを用いた多変量時系列新規性検出において、カーネル化最近傍マハラノビス距離が従来のカーネル化マハラノビス距離よりも優れていることを実証した。
Stable learning using spiking neural networks equipped with affine encoders and decoders
アフィンエンコーダとデコーダを備えたスパイキングニューラルネットワークを用いた安定学習
We study the learning problem associated with spiking neural networks. Specifically, we focus on spiking neural networks composed of simple spiking neurons having only positive synaptic weights, equipped with an affine encoder and decoder; we refer to these as affine spiking neural networks. These neural networks are shown to depend continuously on their parameters, which facilitates classical covering number-based generalization statements and supports stable gradient-based training. We demonstrate that the positivity of the weights enables a wide range of expressivity results, including rate-optimal approximation of smooth functions and dimension-independent approximation of Barron regular functions. In particular, we show in theory and simulations that affine spiking neural networks are capable of approximating shallow ReLU neural networks. Furthermore, we apply these affine spiking neural networks to standard machine learning benchmarks and reach competitive results (with respect to deep feedforward networks). Finally, we observe that from a generalization perspective, contrary to feedforward neural networks or previous results for general spiking neural networks, the depth has little to no adverse effect on theoretical guarantees for the generalization capabilities.
スパイキングニューラルネットワークに関連する学習問題を研究します。具体的には、正のシナプス重みのみを持つ単純なスパイキングニューロンで構成され、アフィンエンコーダとデコーダを備えたスパイキングニューラルネットワークに焦点を当てる。これらをアフィンスパイキングニューラルネットワークと呼ぶ。これらのニューラルネットワークは、そのパラメータに連続的に依存することが示されており、これは古典的な被覆数ベースの一般化ステートメントを容易にし、安定した勾配ベースのトレーニングをサポートします。重みの正値性により、滑らかな関数の速度最適近似やバロン正則関数の次元非依存近似など、幅広い表現力が得られることを実証します。特に、理論とシミュレーションの両面から、アフィンスパイキングニューラルネットワークが浅いReLUニューラルネットワークを近似できることを示します。さらに、これらのアフィンスパイキングニューラルネットワークを標準的な機械学習ベンチマークに適用し、深層フィードフォワードネットワークと比較して競争力のある結果を達成しました。最後に、汎化の観点から、フィードフォワードニューラルネットワークや一般的なスパイキングニューラルネットワークのこれまでの結果とは異なり、深度は汎化能力の理論的保証にほとんど、あるいは全く悪影響を与えないことを指摘します。
Efficient Knowledge Deletion from Trained Models Through Layer-wise Partial Machine Unlearning
層ごとの部分的機械反学習による学習済みモデルからの効率的な知識削除
Machine unlearning has garnered significant attention due to its ability to selectively erase knowledge obtained from specific training data samples in an already trained machine learning model. This capability enables data holders to adhere strictly to data protection regulations. However, existing unlearning techniques face practical constraints, often causing performance degradation, demanding brief fine-tuning post unlearning, and requiring significant storage. In response, this paper introduces a novel class of layer-wise partial machine unlearning algorithms that enable selective and controlled erasure of targeted knowledge. Of these, partial amnesiac unlearning integrates layer-wise selective pruning with the state-of-the-art amnesiac unlearning. This method selectively prunes and stores updates made to the model during training, enabling the targeted removal of specific data from the trained model. Other methods assimilates layer-wise partial-updates into label-flipping and optimization-based unlearning, thereby mitigating the adverse effects of specific knowledge deletion on model efficacy. Through a detailed experimental evaluation, we showcase the effectiveness of proposed unlearning methods. Experimental results highlight that the partial amnesiac unlearning not only preserves model efficacy but also eliminates the necessity for brief fine-tuning post unlearning, unlike conventional amnesiac unlearning. Further, employing layer-wise partial updates in label-flipping and optimization-based unlearning techniques demonstrates superiority in preserving model efficacy compared to their naive counterparts.
機械反学習は、既に学習済みの機械学習モデルにおいて、特定の学習データサンプルから得られた知識を選択的に消去できることから、大きな注目を集めています。この機能により、データ保有者はデータ保護規制を厳格に遵守することが可能になります。しかしながら、既存の反学習手法は実用上の制約に直面しており、性能低下、反学習後の微調整、そして膨大なストレージ容量の確保といった問題がしばしば生じます。そこで本稿では、対象とする知識を選択的かつ制御的に消去することを可能にする、層ごとの部分的機械反学習アルゴリズムの新たなクラスを紹介します。これらのアルゴリズムのうち、部分的アムネシアック反学習は、層ごとの選択的プルーニングと最先端のアムネシアック反学習を統合したものです。この手法は、学習中にモデルに加えられた更新を選択的にプルーニングして保存することで、学習済みモデルから特定のデータのみを対象的に削除することを可能にします。また、層ごとの部分更新をラベルフリッピングや最適化に基づく反学習に統合することで、特定の知識の削除がモデルの有効性に及ぼす悪影響を軽減する手法もあります。詳細な実験評価を通じて、提案する脱学習手法の有効性を示す。実験結果から、部分的な健忘性脱学習は、従来の健忘性脱学習とは異なり、モデルの有効性を維持するだけでなく、脱学習後の簡単な微調整も不要になることが明らかになった。さらに、ラベルフリッピングおよび最適化ベースの脱学習手法において層ごとの部分更新を採用することで、単純な手法と比較してモデルの有効性を維持する上で優れていることが示されました。
General Loss Functions Lead to (Approximate) Interpolation in High Dimensions
一般的な損失関数は高次元における(近似)補間につながる次元
We provide a unified framework that applies to a general family of convex losses across binary and multiclass settings in the overparameterized regime to approximately characterize the implicit bias of gradient descent in closed form. Specifically, we show that the implicit bias is approximated (but not exactly equal to) the minimum-norm interpolation in high dimensions, which arises from training on the squared loss. In contrast to prior work, which was tailored to exponentially-tailed losses and used the intermediate support-vector-machine formulation, our framework directly builds on the primal-dual analysis of Ji and Telgarsky (2021), allowing us to provide new approximate equivalences for general convex losses through a novel sensitivity analysis. Our framework also recovers existing exact equivalence results for exponentially-tailed losses across binary and multiclass settings. Finally, we provide evidence for the tightness of our techniques and use our results to demonstrate the effect of certain loss functions designed for out-of-distribution problems on the closed-form solution.
我々は、オーバーパラメータ化された領域における2クラスおよび多クラス設定にわたる一般的な凸損失族に適用可能な統一的なフレームワークを提供し、閉形式における勾配降下法の暗黙的バイアスを近似的に特徴付ける。具体的には、暗黙的バイアスは、損失の2乗に基づく訓練から生じる高次元における最小ノルム補間に近似される(ただし、完全に一致するわけではない)ことを示す。指数裾損失に適応され、中間的なサポートベクターマシン定式化を用いた先行研究とは対照的に、我々のフレームワークはJi and Telgarsky (2021)のプライマル・デュアル解析を直接的に基盤としており、新たな感度分析を通じて一般的な凸損失に対する新たな近似的同値性を提供することを可能にします。また、我々のフレームワークは、2クラスおよび多クラス設定にわたる指数裾損失に対する既存の正確な同値性の結果を回復します。最後に、我々の手法の厳密性を示す証拠を示し、我々の結果を用いて、分布外問題用に設計された特定の損失関数が閉形式解に与える影響を示す。
Piecewise deterministic sampling with splitting schemes
分割スキームを用いた区分的決定論的サンプリング
We introduce Markov chain Monte Carlo (MCMC) algorithms based on numerical approximations of piecewise-deterministic Markov processes obtained with the framework of splitting schemes. We present unadjusted as well as adjusted algorithms, for which the asymptotic bias due to the discretisation error is removed applying a non-reversible Metropolis-Hastings filter. In a general framework we demonstrate that the unadjusted schemes have weak error of second order in the step size, while typically maintaining a computational cost of only one gradient evaluation of the negative log-target function per iteration. Focusing then on unadjusted schemes based on the Bouncy Particle and Zig-Zag samplers, we provide conditions ensuring geometric ergodicity and consider the expansion of the invariant measure in terms of the step size. We analyse the dependence of the leading term in this expansion on the refreshment rate and on the structure of the splitting scheme, giving a guideline on which structure is best. Finally, we illustrate promising results for our samplers with numerical experiments on a Bayesian imaging inverse problem and a system of interacting particles.
分割スキームの枠組みを用いて得られた区分決定論的マルコフ過程の数値近似に基づくマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを導入します。調整されていないアルゴリズムと調整されたアルゴリズムを提示します。これらのアルゴリズムでは、離散化誤差による漸近的バイアスが非可逆メトロポリス・ヘイスティングスフィルタを適用することで除去されます。一般的な枠組みにおいて、調整されていないスキームはステップサイズに関して2次の弱い誤差を持つが、計算コストは反復ごとに負の対数目標関数の勾配評価1回分のみに抑えられることを示す。次に、バウンシー粒子サンプラーとジグザグサンプラーに基づく調整されていないスキームに焦点を当て、幾何学的エルゴード性を保証する条件を示し、ステップサイズに関して不変測度の展開を考察します。この展開における主要項のリフレッシュレートと分割スキームの構造への依存性を解析し、どの構造が最適であるかの指針を示す。最後に、ベイズイメージング逆問題と相互作用粒子系を用いた数値実験により、本サンプラーの有望な結果を示す。
Hierarchical and Stochastic Crystallization Learning: Geometrically Leveraged Nonparametric Regression with Delaunay Triangulation
階層的かつ確率的な結晶化学習:ドロネー三角形分割を用いた幾何学的レバレッジ型ノンパラメトリック回帰
High-dimensionality is known to be the bottleneck for both nonparametric regression and the Delaunay triangulation. To efficiently exploit the advantage of the Delaunay triangulation in utilizing geometry information for nonparametric regression without conducting the Delaunay triangulation for the entire feature space, we develop the crystallization search for the neighbor Delaunay simplices of the target point similar to crystal growth and estimate the conditional expectation function by fitting a local linear model to the data points of the constructed Delaunay simplices. Because the shapes and volumes of Delaunay simplices are adaptive to the density of feature data points, our method selects neighbor data points more uniformly in all directions in comparison with Euclidean distance based methods and thus it is more robust to the local geometric structure of the data. We further develop the stochastic approach to hyperparameter selection and the hierarchical crystallization learning under multimodal feature data densities, where an approximate global Delaunay triangulation is obtained by first triangulating the local centers and then constructing local Delaunay triangulations in parallel. We study the asymptotic properties of our method and conduct numerical experiments on both synthetic and real data to demonstrate the advantages of our method over the existing ones.
高次元性は、ノンパラメトリック回帰とDelaunay三角形分割の両方においてボトルネックとなることが知られています。特徴空間全体に対してドロネー三角形分割を行うことなく、ノンパラメトリック回帰に幾何学的情報を利用するというドロネー三角形分割の利点を効率的に活用するために、我々は、結晶成長に類似した対象点の近傍ドロネー単体の結晶化探索を開発し、構築されたドロネー単体のデータ点に局所線形モデルを当てはめることによって条件付き期待関数を推定します。ドロネー単体の形状と体積は特徴データ点の密度に適応的であるため、我々の手法はユークリッド距離に基づく方法と比較して、すべての方向でより均一に近傍データ点を選択し、したがってデータの局所的な幾何学的構造に対してより堅牢です。我々はさらに、多峰性特徴データ密度下でのハイパーパラメータ選択と階層的結晶化学習への確率的アプローチを開発し、最初に局所中心を三角形分割し、次に局所ドロネー三角形分割を並列に構築することにより、近似的なグローバルドロネー三角形分割を取得します。我々は提案手法の漸近的性質を研究し、合成データと実データの両方を用いて数値実験を行い、既存の手法に対する提案手法の優位性を示す。
Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
AlphaGeometry2を用いたオリンピック幾何学の金メダリストのパフォーマンス
We present AlphaGeometry2, a significantly improved version of AlphaGeometry introduced in Nature, 625 (7995):476, 2024, which has now surpassed an average gold medalist in solving Olympiad geometry problems. To achieve this, we first extend the original AlphaGeometry language to tackle problems involving movements of objects, and problems containing linear equations of angles, ratios, and distances. This, together with support for non-constructive problems, has markedly improved the coverage rate of the AlphaGeometry language on International Math Olympiads 2000-2024 geometry problems from 66% to 88%. The search process of AlphaGeometry2 has also been greatly improved through the use of Gemini architecture for better language modeling, and a novel knowledge-sharing mechanism that enables effective communication between search trees. Together with further enhancements to the symbolic engine and synthetic data generation, we have significantly boosted the overall solving rate of AlphaGeometry to 84% on all geometry problems over the last 25 years, compared to 54% previously. AlphaGeometry2 was also part of the system that achieved the silver-medal standard at IMO 2024 https://dpmd.ai/imo-silver. Finally, we report progress towards using AlphaGeometry2 as a part of a fully automated system that reliably solves geometry problems from natural language input. Code: https://github.com/google-deepmind/alphageometry2.
我々は、Nature, 625 (7995):476, 2024で発表されたAlphaGeometryの大幅に改良されたバージョンであるAlphaGeometry2を発表します。AlphaGeometry2は、オリンピックの幾何学問題を解く能力において、平均的な金メダリストを上回ることに成功した。これを実現するために、まずオリジナルのAlphaGeometry言語を拡張し、物体の移動を伴う問題や、角度、比、距離の線形方程式を含む問題にも対応できるようにした。これにより、非構成的問題のサポートと合わせて、国際数学オリンピック2000-2024の幾何学問題におけるAlphaGeometry言語の網羅率が66%から88%へと大幅に向上した。AlphaGeometry2の検索プロセスも、より優れた言語モデル化のためのGeminiアーキテクチャの使用と、検索ツリー間の効率的な通信を可能にする新しい知識共有メカニズムによって大幅に改善されました。シンボリックエンジンと合成データ生成のさらなる強化と相まって、過去25年間の幾何学問題におけるAlphaGeometryの総合的な解決率は、以前の54%から84%へと大幅に向上しました。AlphaGeometry2は、IMO 2024で銀メダル基準を達成したシステムの一部でもありました(https://dpmd.ai/imo-silver)。最後に、自然言語入力から幾何学問題を確実に解く完全自動化システムの一部としてAlphaGeometry2を活用するための進捗状況を報告します。コード:https://github.com/google-deepmind/alphageometry2。
Decentralized Bilevel Optimization: A Perspective from Transient Iteration Complexity
分散型二値最適化:過渡的反復計算量からの視点
Stochastic bilevel optimization (SBO) is becoming increasingly essential in machine learning due to its versatility in handling nested structures. To address large-scale SBO, decentralized approaches have emerged as effective paradigms in which nodes communicate with immediate neighbors without a central server, thereby improving communication efficiency and enhancing algorithmic robustness. However, most decentralized SBO algorithms focus solely on asymptotic convergence rates, overlooking transient iteration complexity-the number of iterations required before asymptotic rates dominate, which results in limited understanding of the influence of network topology, data heterogeneity, and the nested bilevel algorithmic structures. To address this issue, this paper introduces D-SOBA, a Decentralized Stochastic One-loop Bilevel Algorithm framework. D-SOBA comprises two variants: D-SOBA-SO, which incorporates second-order Hessian and Jacobian matrices, and D-SOBA-FO, which relies entirely on first-order gradients. We provide a comprehensive non-asymptotic convergence analysis and establish the transient iteration complexity of D-SOBA. This provides the first theoretical understanding of how network topology, data heterogeneity, and nested bilevel structures influence decentralized SBO. Extensive experimental results demonstrate the efficiency and theoretical advantages of D-SOBA.
確率的二層最適化(SBO)は、ネスト構造を処理できる汎用性から、機械学習においてますます重要になっています。大規模なSBOに対処するため、ノードが中央サーバーなしで近隣ノードと通信する効果的なパラダイムとして分散型アプローチが登場しており、これにより通信効率が向上し、アルゴリズムの堅牢性が高まる。しかし、ほとんどの分散型SBOアルゴリズムは漸近収束率のみに焦点を当てており、過渡反復複雑度(漸近率が支配的になるまでの反復回数)を無視しているため、ネットワーク トポロジ、データの異質性、ネストされた2レベル アルゴリズム構造の影響についての理解が限定的になっています。この問題に対処するために、本稿では、分散型確率的1ループ2レベル アルゴリズム フレームワークであるD-SOBAを紹介します。D-SOBAは、2次ヘッセ行列とヤコビ行列を組み込んだD-SOBA-SOと、完全に1次勾配に依存するD-SOBA-FOの2つのバリアントで構成されています。本稿では、包括的な非漸近収束解析を提供し、D-SOBAの過渡反復複雑度を確立しました。これにより、ネットワーク トポロジ、データの異質性、ネストされた2レベル構造が分散型SBOにどのように影響するかについて、初めて理論的に理解できるようになりました。広範な実験結果により、D-SOBAの効率性と理論的利点が実証されています。
Fair Text Classification via Transferable Representations
転送可能な表現による公平なテキスト分類
Group fairness is a central research topic in text classification, where reaching fair treatment between sensitive groups (e.g., women and men) remains an open challenge. We propose an approach that extends the use of the Wasserstein Dependency Measure for learning unbiased neural text classifiers.Given the challenge of distinguishing fair from unfair information in a text encoder, we draw inspiration from adversarial training by inducing independence between representations learned for the target label and those for a sensitive attribute. We further show that domain adaptation can be efficiently leveraged to remove the need for access to the sensitive attributes in the data set we cure. We provide both theoretical and empirical evidence that our approach is well-founded.
グループ公平性は、テキスト分類における中心的な研究課題であり、センシティブなグループ(女性と男性など)間の公平な扱いを実現することは依然として未解決の課題です。我々は、Wasserstein依存性尺度の使用を拡張し、偏りのないニューラルテキスト分類器を学習するアプローチを提案します。テキストエンコーダーにおいて公平な情報と不公平な情報を区別するという課題を踏まえ、ターゲットラベルに対して学習された表現とセンシティブな属性に対して学習された表現との間に独立性を誘導することで、敵対的学習から着想を得る。さらに、ドメイン適応を効果的に活用することで、処理対象のデータセット内のセンシティブな属性へのアクセスの必要性を排除できることを示す。このアプローチが十分に根拠のあることを、理論的および経験的の両方の証拠によって示す。
Stochastic Interior-Point Methods for Smooth Conic Optimization with Applications
滑らかな円錐最適化のための確率的内点法とその応用
Conic optimization plays a crucial role in many machine learning (ML) problems. However, practical algorithms for conic constrained ML problems with large datasets are often limited to specific use cases, as stochastic algorithms for general conic optimization remain underdeveloped. To fill this gap, we introduce a stochastic interior-point method (SIPM) framework for general conic optimization, along with four novel SIPM variants leveraging distinct stochastic gradient estimators. Under mild assumptions, we establish the iteration complexity of our proposed SIPMs, which, up to a polylogarithmic factor, matches the best-known results in stochastic unconstrained optimization. Finally, our numerical experiments on robust linear regression, multi-task relationship learning, and clustering data streams demonstrate the effectiveness and efficiency of our approach.
円錐最適化は、多くの機械学習(ML)問題において重要な役割を果たします。しかし、大規模データセットを用いた円錐制約付きML問題に対する実用的なアルゴリズムは、多くの場合、特定のユースケースに限定されています。これは、一般円錐最適化のための確率的アルゴリズムが未開発であるためです。このギャップを埋めるために、本研究では、一般円錐最適化のための確率的内点法(SIPM)フレームワークと、それぞれ異なる確率的勾配推定量を活用する4つの新しいSIPMバリアントを導入します。軽微な仮定の下で、提案するSIPMの反復計算量は、多重対数係数まで、確率的無制約最適化における最もよく知られた結果と一致します。最後に、ロバスト線形回帰、マルチタスク関係学習、およびデータストリームのクラスタリングに関する数値実験により、本アプローチの有効性と効率性を実証します。
Revisiting Gradient Normalization and Clipping for Nonconvex SGD under Heavy-Tailed Noise: Necessity, Sufficiency, and Acceleration
裾野の重いノイズ下における非凸SGDの勾配正規化とクリッピングの再考:必要性、十分性、加速性
Gradient clipping has long been considered essential for ensuring the convergence of Stochastic Gradient Descent (SGD) in the presence of heavy-tailed gradient noise. In this paper, we revisit this belief and explore whether gradient normalization can serve as an effective alternative or complement. We prove that, under individual smoothness assumptions, gradient normalization alone is sufficient to guarantee convergence of the nonconvex SGD. Moreover, when combined with clipping, it yields far better rates of convergence under more challenging noise distributions. We provide a unifying theory describing normalization-only, clipping-only, and combined approaches. Moving forward, we investigate existing variance-reduced algorithms, establishing that, in such a setting, normalization alone is sufficient for convergence. Finally, we present an accelerated variant that under second-order smoothness improves convergence.Our results provide theoretical insights and practical guidance for using normalization and clipping in nonconvex optimization with heavy-tailed noise.
勾配クリッピングは、裾の重い勾配ノイズが存在する場合の確率的勾配降下法(SGD)の収束を保証するために不可欠であると長い間考えられてきました。本稿では、この考え方を再検討し、勾配正規化が効果的な代替手段または補完手段となり得るかどうかを検討します。個々の滑らかさの仮定の下では、勾配正規化のみで非凸SGDの収束を保証するのに十分であることを証明します。さらに、クリッピングと組み合わせると、より困難なノイズ分布の下ではるかに優れた収束率が得られます。正規化のみ、クリッピングのみ、そしてそれらの組み合わせによるアプローチを記述する統一理論を提示します。さらに、既存の分散低減アルゴリズムを調査し、そのような設定では正規化のみで収束に十分であることを確立します。最後に、2次の平滑性の下で収束を改善する高速化版を提示します。本研究の結果は、裾野の重いノイズを伴う非凸最適化において正規化とクリッピングを使用するための理論的洞察と実践的な指針を提供します。
Generalized multi-view model: Adaptive density estimation under low-rank constraints
一般化マルチビューモデル:低ランク制約下での適応的密度推定
We study the problem of bivariate discrete or continuous probability density estimation under low-rank constraints. For discrete distributions, we assume that the two-dimensional array to estimate is a low-rank probability matrix. In the continuous case, we assume that the density with respect to the Lebesgue measure satisfies a generalized multi-view model, meaning that it is $\beta$-Hölder and can be decomposed as a sum of $K$ components, each of which is a product of one-dimensional functions. In both settings, we propose estimators that achieve, up to logarithmic factors, the minimax optimal convergence rates under such low-rank constraints. In the discrete case, the proposed estimator is adaptive to the rank $K$. In the continuous case, our estimator converges with the $L_1$ rate $\min((K/n)^{\beta/(2\beta+1)}, n^{-\beta/(2\beta+2)})$ up to logarithmic factors, and it is adaptive to the unknown support as well as to the smoothness $\beta$ and to the unknown number of separable components $K$. We present efficient algorithms to compute our estimators.
低ランク制約下における2変量離散または連続確率密度推定の問題を研究します。離散分布の場合、推定する2次元配列は低ランク確率行列であると仮定します。連続分布の場合、ルベーグ測度に関する密度は一般化マルチビューモデルを満たすと仮定します。つまり、これは$\beta$-Hölderであり、それぞれが1次元関数の積である$K$成分の和として分解できます。どちらの設定でも、このような低ランク制約下で対数係数までミニマックス最適収束率を達成する推定量を提案します。離散分布の場合、提案する推定量はランク$K$に適応的です。連続の場合、我々の推定量は対数係数まで$L_1$収束率$\min((K/n)^{\beta/(2\beta+1)}, n^{-\beta/(2\beta+2)})$で収束し、未知のサポート、滑らかさ$\beta$、および未知の分離可能な成分数$K$に適応的です。我々は推定量を計算するための効率的なアルゴリズムを提示します。
(De)-regularized Maximum Mean Discrepancy Gradient Flow
(デ)正則化最大平均差異勾配フロー
We introduce a (de)-regularization of the Maximum Mean Discrepancy (DrMMD) and its Wasserstein gradient flow. Existing gradient flows that transport samples from source distribution to target distribution with only target samples, either lack tractable numerical implementation ($f$-divergence flows) or require strong assumptions and modifications, such as noise injection, to ensure convergence (Maximum Mean Discrepancy flows). In contrast, DrMMD flow can simultaneously (i) guarantee near-global convergence for a broad class of targets in both continuous and discrete time, and (ii) be implemented in closed form using only samples. The former is achieved by leveraging the connection between the DrMMD and the $\chi^2$-divergence, while the latter comes by treating DrMMD as MMD with a de-regularized kernel. Our numerical scheme employs an adaptive de-regularization schedule throughout the flow to optimally balance the trade-off between discretization errors and deviations from the $\chi^2$ regime. The potential application of the DrMMD flow is demonstrated across several numerical experiments, including a large-scale setting of training student/teacher networks.
最大平均不一致(DrMMD)の(デ)正則化とそのワッサーシュタイン勾配フローを導入します。既存の勾配フローは、ターゲットサンプルのみを用いてソース分布からターゲット分布へサンプルを輸送するが、数値実装が容易ではない($f$-ダイバージェンスフロー)か、収束を確実にするためにノイズ注入などの強い仮定と修正を必要とする(最大平均不一致フロー)。これに対し、DrMMDフローは、(i)連続時間と離散時間の両方において、広範なターゲットクラスに対してほぼ大域的な収束を保証すると同時に、(ii)サンプルのみを用いて閉じた形式で実装することができます。前者はDrMMDと$\chi^2$-ダイバージェンスの関係を利用することで実現され、後者はDrMMDをデ正則化カーネルを用いたMMDとして扱うことで実現されます。本数値スキームは、フロー全体にわたって適応的なデ正則化スケジュールを採用し、離散化誤差と$\chi^2$領域からの逸脱との間のトレードオフを最適にバランスさせる。DrMMDフローの潜在的な応用は、学習中の生徒/教師ネットワークの大規模設定を含む、いくつかの数値実験を通じて実証されています。
On Probabilistic Embeddings in Optimal Dimension Reduction
最適次元削減における確率的埋め込みについて
Dimension reduction algorithms are essential in data science for tasks such as data exploration, feature selection, and denoising. However, many non-linear dimension reduction algorithms are poorly understood from a theoretical perspective. This work considers a generalized version of multidimensional scaling, which seeks to construct a map from high to low dimension which best preserves pairwise inner products or norms. We investigate the variational properties of this problem, leading to the following insights: 1) Particle-wise descent methods implemented in standard libraries can produce non-deterministic embeddings, 2) A probabilistic formulation leads to solutions with interpretable necessary conditions, and 3) The globally optimal solutions to the relaxed, probabilistic problem is only minimized by deterministic embeddings. This progression of results mirrors the classical development of optimal transportation, and in a case relating to the Gromov-Wasserstein distance actually gives explicit insight into the structure of the optimal embeddings, which are parametrically determined and discontinuous on smooth surfaces. Our results also imply that a standard computational implementation for this problem learns sub-optimal mappings, and we discuss how the embeddings learned in that context have highly misleading clustering structure, underscoring the delicate nature of solving this problem computationally.
次元削減アルゴリズムは、データ探索、特徴選択、ノイズ除去などのタスクにおいて、データサイエンスにおいて不可欠です。しかし、多くの非線形次元削減アルゴリズムは、理論的な観点から十分に理解されていない。本研究では、多次元尺度構成法の一般化バージョンを考察します。これは、ペアワイズ内積またはノルムを最もよく保持する高次元から低次元へのマップを構築しようとするものです。我々はこの問題の変分特性を調査し、以下の知見を得た。1)標準ライブラリに実装されている粒子単位の降下法は非決定論的な埋め込みを生成する可能性があります。2)確率論的定式化は解釈可能な必要条件を持つ解を導く。3)緩和された確率論的問題に対する大域的最適解は、決定論的な埋め込みによってのみ最小化されます。こうした結果の推移は、最適輸送の古典的な発展を反映しており、グロモフ・ワッサーシュタイン距離に関連する事例では、実際に、パラメータ的に決定され、滑らかな表面上で不連続となる最適埋め込みの構造に関する明確な知見を与えています。また、我々の結果は、この問題の標準的な計算実装が準最適なマッピングを学習することを示唆しており、その文脈で学習された埋め込みがいかにして非常に誤解を招くクラスタリング構造を持つのかについて考察し、この問題を計算的に解くことの繊細さを強調します。
Physics Informed Kolmogorov-Arnold Neural Networks for Dynamical Analysis via Efficient-KAN and WAV-KAN
Efficient-KANおよびWAV-KANを用いた動的解析のための物理学に基づくコルモゴロフ-アーノルドニューラルネットワーク
Physics-informed neural networks have proven to be a powerful tool for solving differential equations, leveraging the principles of physics to inform the learning process. However, traditional deep neural networks often face challenges in achieving high accuracy without incurring significant computational costs. In this work, we implement the Physics-Informed Kolmogorov-Arnold Neural Networks (PIKAN) through efficient-KAN and WAV-KAN, which utilize the Kolmogorov-Arnold representation theorem. PIKAN demonstrates superior performance compared to conventional deep neural networks, achieving the same level of accuracy with fewer layers and reduced computational overhead. We explore both B-spline and wavelet-based implementations of PIKAN and benchmark their performance across various ordinary and partial differential equations using unsupervised (data-free) and supervised (data-driven) techniques. For certain differential equations, the data-free approach suffices to find accurate solutions, while in more complex scenarios, the data-driven method enhances the PIKAN’s ability to converge to the correct solution. We validate our results against numerical solutions and achieve $99\%$ accuracy in most scenarios.
物理学情報に基づくニューラルネットワークは、物理学の原理を学習プロセスに活用することで、微分方程式を解く強力なツールであることが証明されています。しかし、従来のディープニューラルネットワークは、大きな計算コストをかけずに高い精度を達成することがしばしば課題となっています。本研究では、コルモゴロフ・アーノルド表現定理を利用する効率的KANとWAV-KANを通じて、物理学情報に基づくコルモゴロフ・アーノルドニューラルネットワーク(PIKAN)を実装します。PIKANは従来のディープニューラルネットワークと比較して優れた性能を示し、より少ない層数と少ない計算オーバーヘッドで同等の精度を実現します。我々はPIKANのBスプラインベースとウェーブレットベースの両方の実装を検討し、教師なし(データフリー)および教師あり(データ駆動型)手法を用いて、様々な常微分方程式および偏微分方程式における性能をベンチマークした。特定の微分方程式では、データフリーアプローチで正確な解を見つけるのに十分であるが、より複雑なシナリオでは、データ駆動型手法によってPIKANが正しい解に収束する能力が向上します。我々は数値解に対して結果を検証し、ほとんどのシナリオで$99\%$の精度を達成した。
Graph-accelerated Markov Chain Monte Carlo using Approximate Samples
近似サンプルを用いたグラフ加速型マルコフ連鎖モンテカルロ法
It has become increasingly easy nowadays to collect approximate posterior samples via fast algorithms such as variational Bayes, but concerns exist about the estimation accuracy. It is tempting to build solutions that exploit approximate samples in a canonical Markov chain Monte Carlo framework. As the dimension increases, a major barrier is that the approximate sample tends to have a low Metropolis–Hastings acceptance rate when used as a proposal. In this article, we propose a simple solution named graph-accelerated Markov Chain Monte Carlo. We build a graph with each node assigned to an approximate sample, then run Markov chain Monte Carlo with random walks over the graph. We optimize the graph edges to enforce small differences in posterior density/probability between nodes, while encouraging edges to have large distances in the parameter space. The graph allows us to accelerate a canonical Markov transition kernel through mixing with a large-jump Metropolis-Hastings step. The acceleration is easily applicable to existing Markov chain Monte Carlo algorithms. We theoretically quantify the rate of acceptance as dimension increases, and show the effects on improved mixing time. We demonstrate improved mixing performances for challenging problems, such as those involving multiple modes, non-convex density contour, or large-dimension latent variables.
近似事後サンプルの収集は、変分ベイズ法などの高速アルゴリズムを用いることで、近年ますます容易になっていますが、推定精度には懸念が残ります。近似サンプルを標準的なマルコフ連鎖モンテカルロの枠組みで活用するソリューションを構築することは魅力的です。しかし、次元が大きくなるにつれて、近似サンプルを提案モデルとして用いた場合のメトロポリス-ヘイスティングス法の受理率が低くなるという大きな障壁が生じます。本稿では、「グラフ加速型マルコフ連鎖モンテカルロ」というシンプルなソリューションを提案します。各ノードに近似サンプルを割り当てたグラフを作成し、そのグラフ上でランダムウォークを用いたマルコフ連鎖モンテカルロ法を実行します。グラフのエッジを最適化し、ノード間の事後密度/確率の差を小さくしつつ、エッジ間のパラメータ空間における距離を大きくします。このグラフは、大きなジャンプを持つメトロポリス-ヘイスティングス法と組み合わせることで、標準的なマルコフ遷移カーネルを高速化します。この高速化は、既存のマルコフ連鎖モンテカルロアルゴリズムに容易に適用できます。次元の増加に伴う受入れ率を理論的に定量化し、混合時間の改善への影響を示します。多重モード、非凸密度輪郭、大規模潜在変数などの困難な問題において、混合性能が向上することを実証します。
Online Quantile Regression
オンライン分位回帰
This paper addresses the challenge of integrating sequentially arriving data into the quantile regression framework, where the number of features may increase with the number of observations, the time horizon is unknown, and memory resources are limited. Unlike least squares and robust regression methods, quantile regression models different segments of the conditional distribution, thereby capturing heterogeneous relationships between predictors and responses and providing a more comprehensive view of the underlying stochastic structure. We employ stochastic sub-gradient descent to minimize the empirical check loss and analyze its statistical properties and regret behavior. Our analysis reveals a subtle interplay between updating iterates based on individual observations and on batches of observations, highlighting distinct regularity characteristics in each setting. The proposed method guarantees long-term optimal estimation performance regardless of the chosen update strategy. Our contributions extend existing literature by establishing exponential-type concentration inequalities and by achieving optimal regret and error rates that exhibit only short-term sensitivity to initialization. A key insight from our study lies in the refined statistical analysis showing that properly chosen stepsize schemes substantially mitigate the influence of initial errors on subsequent estimation and regret. This result underscores the robustness of stochastic sub-gradient descent in managing initial uncertainties and affirms its effectiveness in sequential learning settings with unknown horizons and data-dependent sample sizes. Furthermore, when the initial estimation error is well-controlled, our analysis reveals a trade-off between short-term error reduction and long-term optimality. For completeness, we also discuss the squared loss case and outline appropriate update schemes, whose analysis requires additional care. Extensive simulation studies corroborate our theoretical findings.
本論文では、観測数の増加に伴い特徴量数が増加する可能性があり、時間範囲が不明で、メモリリソースが限られている状況において、逐次的に到着するデータを分位点回帰フレームワークに統合するという課題に取り組む。最小二乗法やロバスト回帰法とは異なり、分位点回帰は条件付き分布の異なるセグメントをモデル化することで、予測変数と応答変数間の異質な関係を捉え、根底にある確率構造をより包括的に捉えることができます。我々は確率的劣勾配降下法を用いて経験的チェック損失を最小化し、その統計的特性とリグレット挙動を分析します。我々の分析は、個々の観測値に基づく更新反復と観測値のバッチに基づく更新反復の間に微妙な相互作用があることを明らかにし、それぞれの設定における明確な正則性特性を浮き彫りにしました。提案手法は、選択された更新戦略に関わらず、長期的な最適な推定性能を保証します。我々の貢献は、指数型集中不等式を確立し、初期化に対して短期的な感度のみを示す最適なリグレット率とエラー率を達成することで、既存の研究を拡張します。本研究の重要な知見は、適切に選択されたステップサイズスキームが、初期誤差が後続の推定とリグレット率に与える影響を大幅に軽減することを示す、洗練された統計分析にあります。この結果は、初期の不確実性を管理する上での確率的劣勾配降下法の堅牢性を強調し、未知のホライズンとデータ依存のサンプルサイズを持つ逐次学習設定におけるその有効性を裏付けています。さらに、初期推定誤差が適切に制御されている場合、我々の分析は、短期的な誤差低減と長期的な最適性の間にトレードオフがあることを明らかにしました。完全性を期すため、損失の二乗の場合についても議論し、分析には追加の注意が必要な適切な更新スキームの概要を示します。広範囲にわたるシミュレーション研究により、私たちの理論的発見が裏付けられています。
Statistical Inference of Random Graphs With a Surrogate Likelihood Function
代理尤度関数を用いたランダムグラフの統計的推論
Spectral estimators have been broadly applied to statistical network analysis, but they do not incorporate the likelihood information of the network sampling model. This paper proposes a novel surrogate likelihood function for statistical inference of a class of popular network models referred to as random dot product graphs. In contrast to the structurally complicated exact likelihood function, the surrogate likelihood function has a separable structure and is log-concave yet approximates the exact likelihood function well. From the frequentist perspective, we study the maximum surrogate likelihood estimator and establish the accompanying theory. We show its existence, uniqueness, large sample properties, and that it improves upon the baseline spectral estimator with a smaller sum of squared errors. Furthermore, we derive the second-order bias of the proposed estimator and gain insight into why it outperforms some of the existing estimators. A computationally convenient stochastic gradient descent algorithm is designed to find the maximum surrogate likelihood estimator in practice. From the Bayesian perspective, we establish the Bernstein–von Mises theorem of the posterior distribution with the surrogate likelihood function and show that the resulting credible sets have the correct frequentist coverage. The empirical performance of the proposed surrogate-likelihood-based methods is validated through the analyses of simulation examples and two real-world data sets.
スペクトル推定量は統計的ネットワーク解析に広く適用されているが、ネットワークサンプリングモデルの尤度情報は組み込まれていない。本稿では、ランダムドット積グラフと呼ばれる一般的なネットワークモデルの統計的推論のための、新たな代理尤度関数を提案します。構造的に複雑な厳密尤度関数とは対照的に、代理尤度関数は分離構造を持ち、対数凹関数でありながら厳密尤度関数をよく近似します。頻度主義の観点から、最大代理尤度推定量を研究し、付随する理論を確立します。その存在、一意性、大規模サンプル特性、そしてベースラインスペクトル推定量よりも小さい二乗誤差和で改善されることを示す。さらに、提案推定量の2次バイアスを導出し、既存の推定量のいくつかよりも優れた性能を示す理由を考察します。計算的に簡便な確率的勾配降下法アルゴリズムを用いて、実際に最大代理尤度推定量を求めることができます。ベイズの観点から、代理尤度関数を用いた事後分布のベルンシュタイン-フォン・ミーゼス定理を確立し、得られた信用集合が正しい頻度論的カバレッジを持つことを示す。提案された代理尤度に基づく手法の実証的性能は、シミュレーション例と2つの実世界データセットの分析によって検証されます。
On the Representation of Pairwise Causal Background Knowledge and Its Applications in Causal Inference
対比因果背景知識の表現と因果推論への応用について
Pairwise causal background knowledge about the existence or absence of causal edges and paths is frequently encountered in observational studies. Such constraints allow the shared directed and undirected edges in the constrained subclass of Markov equivalent DAGs to be represented as a causal maximally partially directed acyclic graph (MPDAG). In this paper, we first provide a sound and complete graphical characterization of causal MPDAGs and introduce a minimal representation of a causal MPDAG. Then, we give a unified representation for three types of pairwise causal background knowledge, including direct, ancestral and non-ancestral causal knowledge, by introducing a novel concept called direct causal clause (DCC). Using DCCs, we study the consistency and equivalence of pairwise causal background knowledge and show that any pairwise causal background knowledge set can be uniquely and equivalently decomposed into the causal MPDAG representing the refined Markov equivalence class and a minimal residual set of DCCs. Polynomial-time algorithms are also provided for checking consistency and equivalence, as well as for finding the decomposed MPDAG and the residual DCCs. Finally, with pairwise causal background knowledge, we prove a sufficient and necessary condition to identify causal effects and surprisingly find that the identifiability of causal effects only depends on the decomposed MPDAG. We also develop a local IDA-type algorithm to estimate the possible values of an unidentifiable effect. Simulations suggest that pairwise causal background knowledge can significantly improve the identifiability of causal effects.
因果的エッジとパスの存在の有無に関する対因果的背景知識は、観察研究において頻繁に遭遇します。このような制約により、マルコフ等価DAGの制約付きサブクラスにおける共有有向エッジと無向エッジを、因果的最大部分有向非巡回グラフ(MPDAG)として表現することができます。本稿では、まず因果的MPDAGの健全かつ完全なグラフィカルな特徴付けを提供し、因果的MPDAGの最小限の表現を導入します。次に、直接因果節(DCC)と呼ばれる新しい概念を導入することにより、直接因果知識、祖先因果知識、非祖先因果知識の3種類の対因果的背景知識を統一的に表現します。DCCを用いて、ペアワイズ因果背景知識の一貫性と同等性を調べ、任意のペアワイズ因果背景知識セットが、洗練されたマルコフ同値類を表す因果MPDAGとDCCの最小残差セットに一意かつ同等に分解できることを示します。一貫性と同等性の確認、および分解されたMPDAGと残差DCCを見つけるための多項式時間アルゴリズムも提供されています。最後に、ペアワイズ因果背景知識を用いて、因果効果を識別するための十分条件と必要条件を証明し、驚くべきことに因果効果の識別可能性は分解されたMPDAGのみに依存することを発見しました。また、識別できない効果の可能な値を推定するためのローカルIDA型アルゴリズムも開発しました。シミュレーションは、ペアワイズ因果背景知識が因果効果の識別可能性を大幅に向上できることを示唆しています。
An Augmentation Overlap Theory of Contrastive Learning
対照学習の拡張オーバーラップ理論
Recently, self-supervised contrastive learning has achieved great success on various tasks. However, its underlying working mechanism is yet unclear. In this paper, we first provide the tightest bounds based on the widely adopted assumption of conditional independence. Further, we relax the conditional independence assumption to a more practical assumption of augmentation overlap and derive the asymptotically closed bounds for the downstream performance. Our proposed augmentation overlap theory hinges on the insight that the support of different intra-class samples will become more overlapped under aggressive data augmentations, thus simply aligning the positive samples (augmented views of the same sample) could make contrastive learning cluster intra-class samples together. Moreover, from the newly derived augmentation overlap perspective, we develop an unsupervised metric for the representation evaluation of contrastive learning, which aligns well with the downstream performance almost without relying on additional modules. Code is available at https://github.com/PKU-ML/GARC.
近年、自己教師付き対照学習は様々なタスクで大きな成功を収めています。しかし、その根底にある動作メカニズムはまだ解明されていません。本稿では、まず、広く採用されている条件付き独立性の仮定に基づいて、最も厳密な境界値を提示します。さらに、条件付き独立性の仮定を、より実用的な拡張オーバーラップの仮定に緩和し、下流のパフォーマンスに対する漸近的に閉じた境界値を導出します。提案する拡張オーバーラップ理論は、積極的なデータ拡張によって異なるクラス内サンプルのサポートがよりオーバーラップするようになるという洞察に基づいています。そのため、単にポジティブサンプル(同じサンプルの拡張ビュー)を整列させるだけで、対照学習はクラス内サンプルをクラスター化できる可能性があります。さらに、新たに導出された拡張オーバーラップの観点から、対照学習の表現評価のための教師なし指標を開発しました。この指標は、追加モジュールにほとんど依存することなく、下流のパフォーマンスとよく一致します。コードはhttps://github.com/PKU-ML/GARCで入手できます。
Algorithms for ridge estimation with convergence guarantees
収束保証付きリッジ推定アルゴリズム
The extraction of filamentary structure from a point cloud is discussed. The filaments are modeled as ridge lines or higher dimensional ridges of an underlying density. We propose two novel algorithms, and provide theoretical guarantees for their convergences, by which we mean that the algorithms can asymptotically recover the full ridge set. We consider the new algorithms as alternatives to the Subspace Constrained Mean Shift (SCMS) algorithm for which no such theoretical guarantees are known.
点群からのフィラメント構造の抽出について議論します。フィラメントは、基礎密度の稜線、または高次元の稜線としてモデル化されます。本研究では2つの新しいアルゴリズムを提案し、それらの収束性について理論的保証を提供します。つまり、これらのアルゴリズムは漸近的に完全な稜線集合を復元できるということです。これらの新しいアルゴリズムは、そのような理論的保証が知られていない部分空間制約平均シフト(SCMS)アルゴリズムの代替として考えられます。
Talent: A Tabular Analytics and Learning Toolbox
Talent:表形式の分析と学習ツールボックス
Tabular data is a prevalent source in machine learning. While classical methods have proven effective, deep learning methods for tabular data are emerging as flexible alternatives due to their capacity to uncover hidden patterns and capture complex interactions. Considering that deep tabular methods exhibit diverse design philosophies, including the ways they handle features, design learning objectives, and construct model architectures, we introduce Talent (Tabular Analytics and Learning Toolbox), a versatile toolbox for utilizing, analyzing, and comparing these methods. Talent includes over 35 deep tabular prediction methods, offering various encoding and normalization modules, all within a unified, easily extensible interface. We demonstrate its design, application, and performance evaluation in case studies. The code is available at https://github.com/LAMDA-Tabular/TALENT.
表形式データは機械学習において広く用いられているデータソースです。従来の手法は有効性が実証されているが、表形式データに対する深層学習手法は、隠れたパターンを発見し、複雑な相互作用を捉える能力があるため、柔軟な代替手段として注目されています。深層表形式手法は、特徴量の処理方法、学習目標の設計、モデルアーキテクチャの構築方法など、多様な設計思想を示していることを考慮し、これらの手法を活用、分析、比較するための多用途ツールボックスであるTalent(Tabular Analytics and Learning Toolbox)を紹介します。Talentには35を超える深層表形式予測手法が含まれており、様々なエンコードおよび正規化モジュールを、統一された拡張性の高いインターフェースで提供します。ケーススタディを用いて、その設計、適用、および性能評価を示す。コードはhttps://github.com/LAMDA-Tabular/TALENTで入手可能です。
Inferring Change Points in High-Dimensional Regression via Approximate Message Passing
近似メッセージパッシングによる高次元回帰の変化点の推定
We consider the problem of localizing change points in a generalized linear model (GLM), a model that covers many widely studied problems in statistical learning including linear, logistic, and rectified linear regression. We propose a novel and computationally efficient approximate message passing (AMP) algorithm for estimating both the signals and the change point locations, and rigorously characterize its performance in the high-dimensional limit where the number of parameters $p$ is proportional to the number of samples $n$. This characterization is in terms of a state evolution recursion, which allows us to precisely compute performance measures such as the asymptotic Hausdorff error of our change point estimates, and allows us to tailor the algorithm to take advantage of any prior structural information of the signals and change points. Moreover, we show how our AMP iterates can be used to efficiently compute a Bayesian posterior distribution over the change point locations in the high-dimensional limit. We validate our theory via numerical experiments, and demonstrate the favorable performance of our estimators on both synthetic and real data in the settings of linear, logistic, and rectified linear regression.
一般化線型モデル(GLM)における変化点の局所化問題について考察します。GLMは、線型回帰、ロジスティック回帰、修正線型回帰など、統計学習において広く研究されている多くの問題を扱うモデルです。信号と変化点の位置の両方を推定するための、新しく計算効率の高い近似メッセージパッシング(AMP)アルゴリズムを提案し、パラメータ数pがサンプル数nに比例する高次元極限におけるその性能を厳密に評価します。この評価は状態進化再帰に基づくもので、これにより変化点推定値の漸近ハウスドルフ誤差などの性能指標を正確に計算できるほか、信号と変化点の事前構造情報を活用できるようにアルゴリズムを調整することができます。さらに、AMP反復処理を用いて、高次元極限における変化点の位置のベイズ事後分布を効率的に計算する方法を示す。数値実験により理論を検証し、線形回帰、ロジスティック回帰、および修正線形回帰の設定において、合成データと実データの両方で推定量の良好な性能を示す。
Universality of Kernel Random Matrices and Kernel Regression in the Quadratic Regime
二次形式におけるカーネルランダム行列とカーネル回帰の普遍性
Kernel ridge regression (KRR) is a popular class of machine learning models that has become an important tool for understanding deep learning. Much of the focus thus far has been on studying the proportional asymptotic regime, $n \asymp d$, where $n$ is the number of training samples and $d$ is the dimension of the dataset. In the proportional regime, under certain conditions on the data distribution, the kernel random matrix involved in KRR exhibits behavior akin to that of a linear kernel. In this work, we extend the study of kernel regression to the quadratic asymptotic regime, where $n \asymp d^2$. In this regime, we demonstrate that a broad class of inner-product kernels exhibits behavior similar to a quadratic kernel. Specifically, we establish an operator norm approximation bound for the difference between the original kernel random matrix and a quadratic kernel random matrix with additional correction terms compared to the Taylor expansion of the kernel functions. The approximation works for general data distributions under a Gaussian-moment-matching assumption with a covariance structure. This new approximation is utilized to obtain a limiting spectral distribution of the original kernel matrix and characterize the precise asymptotic training and test errors for KRR in the quadratic regime when $n/d^2$ converges to a non-zero constant. The generalization errors are obtained for (i) a random teacher model, (ii) a deterministic teacher model where the weights are perfectly aligned with the covariance of the data. Under the random teacher model setting, we also verify that the generalized cross-validation (GCV) estimator can consistently estimate the generalization error in the quadratic regime for anisotropic data. Our proof techniques combine moment methods, Wick’s formula, orthogonal polynomials, and resolvent analysis of random matrices with correlated entries.
カーネルリッジ回帰(KRR)は機械学習モデルの人気の高いクラスであり、ディープラーニングを理解するための重要なツールとなっています。これまでは、比例漸近領域$n \asymp d$の研究に多くの焦点が当てられてきました。ここで、$n$はトレーニングサンプルの数、$d$はデータセットの次元です。比例領域では、データ分布に関する特定の条件下で、KRRに含まれるカーネルランダム行列は線形カーネルに似た動作を示します。本研究では、カーネル回帰の研究を二次漸近領域$n \asymp d^2$に拡張します。この領域では、幅広いクラスの内積カーネルが二次カーネルに似た動作を示すことを示します。具体的には、カーネル関数のテイラー展開と比較して、元のカーネルランダム行列と追加の補正項を持つ二次カーネルランダム行列との差に対する演算子ノルム近似境界を確立します。この近似は、共分散構造を持つガウスモーメントマッチング仮定の下で、一般的なデータ分布に対して有効です。この新しい近似は、元のカーネル行列の極限スペクトル分布を取得し、$n/d^2$が非ゼロ定数に収束する場合の二次方程式領域におけるKRRの正確な漸近的学習および検定誤差を特徴付けるために利用されます。汎化誤差は、(i)ランダム教師モデル、(ii)重みがデータの共分散と完全に一致する決定論的教師モデルに対して得られます。ランダム教師モデル設定において、一般化クロスバリデーション(GCV)推定量が異方性データに対して二次方程式領域における汎化誤差を一貫して推定できることも検証します。我々の証明手法は、モーメント法、ウィックの公式、直交多項式、および相関成分を持つランダム行列のレゾルベント解析を組み合わせたものです。
Lexicographic Lipschitz Bandits: New Algorithms and a Lower Bound
辞書式リプシッツバンディット:新しいアルゴリズムと下限
This paper studies a multiobjective bandit problem under lexicographic ordering, wherein the learner aims to maximize $m$ objectives, each with different levels of importance. First, we introduce the local trade-off, $\lambda_*$, which depicts the trade-off between different objectives. For the case when an upper bound of $\lambda_*$ is known, i.e., $\lambda\geq\lambda_*$, we develop an algorithm that achieves a general regret bound of $\widetilde{O}(\Lambda^i(\lambda)T^{(d_z^i+1)/(d_z^i+2)})$ for the $i$-th objective, where $i\in\{1,2,\ldots,m\}$, $\Lambda^i(\lambda)=1+\lambda+\cdots+\lambda^{i-1}$, $d_z^i$ is the zooming dimension for the $i$-th objective, and $T$ is the time horizon. Next, we provide a matching lower bound for the lexicographic Lipschitz bandit problem, proving that our algorithm is optimal in terms of $\lambda_*$ and $T$. Finally, for the case where $m=2$, we remove the dependence on the knowledge about $\lambda_*$, albeit at the cost of increasing the regret bound to $\widetilde{O}(\Lambda^i(\lambda_*)T^{(3d_z^i+4)/(3d_z^i+6)})$, which remains optimal in terms of $\lambda_*$. Compared to existing work on lexicographic multi-armed bandits, our approach improves the current regret bound of $\widetilde{O}(T^{2/3})$ and extends the number of arms to infinity. Numerical experiments confirm the effectiveness of our algorithms.
本論文では、辞書式順序付けに基づく多目的バンディット問題を考察します。この問題では、学習者はそれぞれ異なる重要度を持つ$m$個の目的関数の最大化を目指す。まず、異なる目的関数間のトレードオフを表す局所トレードオフ$\lambda_*$を導入します。$\lambda_*$の上限が既知の場合、すなわち$\lambda\geq\lambda_*$の場合、$i$番目の目的関数に対して一般的な後悔境界$\widetilde{O}(\Lambda^i(\lambda)T^{(d_z^i+1)/(d_z^i+2)})$を達成するアルゴリズムを開発します。ここで、$i\in\{1,2,\ldots,m\}$、$\Lambda^i(\lambda)=1+\lambda+\cdots+\lambda^{i-1}$、$d_z^i$は$i$番目の目的関数のズーム次元、$T$は時間範囲です。次に、辞書式リプシッツバンディット問題に対応する下限値を与え、このアルゴリズムが$\lambda_*$と$T$に関して最適であることを証明した。最後に、$m=2$の場合、$\lambda_*$に関する知識への依存を排除しますが、その代償として、後悔限界が$\widetilde{O}(\Lambda^i(\lambda_*)T^{(3d_z^i+4)/(3d_z^i+6)})$に増加するという制約があります。これは$\lambda_*$の観点からは最適なままです。辞書式多腕バンディットに関する既存の研究と比較して、本手法は現在の後悔限界$\widetilde{O}(T^{2/3})$を改善し、腕の数を無限大まで拡張します。数値実験により、本アルゴリズムの有効性が確認されています。
On the Natural Gradient of the Evidence Lower Bound
証拠下限の自然勾配について
This article studies the Fisher-Rao gradient, also referred to as the natural gradient, of the evidence lower bound (ELBO) which plays a central role in generative machine learning. It reveals that the gap between the evidence and its lower bound, the ELBO, has essentially a vanishing natural gradient within unconstrained optimization. As a result, maximization of the ELBO is equivalent to minimization of the Kullback-Leibler divergence from a target distribution, the primary objective function of learning. Building on this insight, we derive a condition under which this equivalence persists even when optimization is constrained to a model. This condition yields a geometric characterization, which we formalize through the notion of a cylindrical model.
本稿では、生成機械学習において中心的な役割を果たす証拠下限値(ELBO)のFisher-Rao勾配(自然勾配とも呼ばれる)を研究します。本稿は、証拠とその下限値であるELBOの間のギャップは、制約なしの最適化において本質的に自然勾配が消失することを明らかにします。結果として、ELBOの最大化は、学習の主要な目的関数である目標分布からのカルバック・ライブラー・ダイバージェンスの最小化と等価です。この知見に基づき、最適化がモデルに制約されている場合でもこの等価性が維持される条件を導出します。この条件は幾何学的な特徴付けをもたらし、円筒形モデルの概念を用いて形式化します。
Geometry and Stability of Supervised Learning Problems
教師あり学習問題の幾何学と安定性
We introduce a notion of distance between supervised learning problems, which we call the Risk distance. This distance, inspired by optimal transport, facilitates stability results; one can quantify how seriously issues like sampling bias, noise, limited data, and approximations might change a given problem by bounding how much these modifications can move the problem under the Risk distance. With the distance established, we explore the geometry of the resulting space of supervised learning problems, providing explicit geodesics and proving that the set of classification problems is dense in a larger class of problems. We also provide two variants of the Risk distance: one that incorporates specified weights on a problem’s predictors, and one that is more sensitive to the contours of a problem’s risk landscape.
教師あり学習問題間の距離の概念を導入し、これをリスク距離と呼ぶ。最適輸送に着想を得たこの距離は、安定性の結果を容易にします。サンプリングバイアス、ノイズ、限られたデータ、近似といった問題が、与えられた問題にどれほど深刻な変化をもたらすかを定量化するために、これらの変更がリスク距離内で問題をどの程度変化させることができるかという境界を設定します。この距離が確立された上で、教師あり学習問題空間の幾何学を探求し、明示的な測地線を提示し、分類問題の集合がより大きなクラスの問題において稠密であることを証明した。また、リスク距離の2つの変種も提示します。1つは問題の予測変数に特定の重みを組み込むものであり、もう1つは問題のリスクランドスケープの輪郭に敏感なものです。
Understanding Deep Representation Learning via Layerwise Feature Compression and Discrimination
層別特徴量圧縮と識別による深層表現学習の理解
Over the past decade, deep learning has proven to be a highly effective tool for learning meaningful features from raw data. However, it remains an open question how deep networks perform hierarchical feature learning across layers. In this work, we attempt to unveil this mystery by investigating the structures of intermediate features. Motivated by our empirical findings that linear layers mimic the roles of deep layers in nonlinear networks for feature learning, we explore how deep linear networks transform input data into output by investigating the output (i.e., features) of each layer after training in the context of multi-class classification problems. Toward this goal, we first define metrics to measure within-class compression and between-class discrimination of intermediate features, respectively. Through theoretical analysis of these two metrics, we show that the evolution of features follows a simple and quantitative pattern from shallow to deep layers when the input data is nearly orthogonal and the network weights are minimum-norm, balanced, and approximately low-rank: each layer of the linear network progressively compresses within-class features at a geometric rate and discriminates between-class features at a linear rate with respect to the number of layers that data have passed through. To the best of our knowledge, this is the first quantitative characterization of feature evolution in hierarchical representations of deep linear networks. Moreover, our extensive experiments not only validate our theoretical results but also reveal a similar pattern in deep nonlinear networks, which aligns well with recent empirical studies. Finally, we demonstrate the practical value of our results in transfer learning.
過去10年間、深層学習は生データから意味のある特徴を学習する非常に効果的なツールであることが証明されてきました。しかしながら、深層ネットワークが階層的な特徴学習を層をまたいでどのように実行するのかは依然として未解決の問題です。本研究では、中間特徴の構造を調査することで、この謎を解明しようと試みます。線形層が特徴学習において非線形ネットワークの深層層の役割を模倣しているという経験的知見に基づき、多クラス分類問題における学習後の各層の出力(すなわち特徴)を調査することで、深層線形ネットワークが入力データをどのように出力に変換するかを探ります。この目標に向けて、まず中間特徴のクラス内圧縮とクラス間識別をそれぞれ測定する指標を定義します。これら2つの指標の理論的分析により、入力データがほぼ直交し、ネットワークの重みが最小ノルム、バランス、および低ランクに近い場合、特徴の進化は浅い層から深い層へと単純かつ定量的なパターンに従うことを示します。つまり、線形ネットワークの各層は、クラス内特徴を幾何級数的な速度で徐々に圧縮し、データが通過した層の数に対して線形な速度でクラス間特徴を識別します。私たちの知る限り、これは深層線形ネットワークの階層的表現における特徴の進化を定量的に特徴付けた最初の例です。さらに、大規模な実験により理論的結果が検証されるだけでなく、深層非線形ネットワークでも同様のパターンが明らかになりました。これは最近の実証研究とよく一致しています。最後に、転移学習における結果の実際的な価値を示します。
Optimal Rates of Kernel Ridge Regression under Source Condition in Large Dimensions
大規模次元におけるソース条件下におけるカーネルリッジ回帰の最適速度
Motivated by studies of neural networks, particularly the neural tangent kernel theory, we investigate the large-dimensional behavior of kernel ridge regression, where the sample size satisfies $n $ is proportion to $ d^{\gamma}$ for some $\gamma > 0$. Given a reproducing kernel Hilbert space $H$ associated with an inner product kernel defined on the unit sphere $S^{d}$, we assume that the true function $f_{\rho}^{*}$ belongs to the interpolation space $[H]^{s}$ for some $s>0$ (source condition). We first establish the exact order (both upper and lower bounds) of the generalization error of KRR for the optimally chosen regularization parameter $\lambda$. Furthermore, we show that KRR is minimax optimal when $01$, KRR fails to achieve minimax optimality, exhibiting the saturation effect. Our results illustrate that the convergence rate with respect to dimension $d$ varying along $\gamma$ exhibits a periodic plateau behavior, and the convergence rate with respect to sample size $n$ exhibits a multiple descent behavior. Interestingly, our work unifies several recent studies on kernel regression in the large-dimensional setting, which correspond to $s=0$ and $s=1$, respectively.
ニューラルネットワーク、特にニューラル接線カーネル理論の研究に着目し、サンプルサイズが$n$が$d^{\gamma}$に比例し、ある$\gamma > 0$を満たすカーネルリッジ回帰の大規模次元挙動を調査します。単位球面$S^{d}$上に定義された内積核に関連付けられた再生核ヒルベルト空間$H$が与えられたとき、真の関数$f_{\rho}^{*}$は、ある$s>0$(情報源条件)に対して補間空間$[H]^{s}$に属すると仮定します。まず、最適に選択された正則化パラメータ$\lambda$に対するKRRの一般化誤差の正確な順序(上限と下限の両方)を確立します。さらに、$01$のときKRRはミニマックス最適性を達成できず、飽和効果を示すことを示す。我々の結果は、$\gamma$に沿って変化する次元$d$に関する収束率が周期的なプラトー挙動を示し、サンプルサイズ$n$に関する収束率が多重降下挙動を示すことを示しています。興味深いことに、我々の研究は、それぞれ$s=0$および$s=1$に対応する、大次元設定におけるカーネル回帰に関する最近のいくつかの研究を統合するものです。
A Hybrid Weighted Nearest Neighbour Classifier for Semi-Supervised Learning
半教師あり学習のためのハイブリッド重み付き最近傍分類器
We propose a novel hybrid procedure for constructing a randomly weighted nearest neighbour classifier for semi-supervised learning. The procedure first uses the labelled learning set to predict a probability distribution of class labels for the unlabelled learning set. This turns the unlabelled set into a pseudo-labelled set, on which a sequentially weighted nearest neighbour classifier can be trained. The vote proportions calculated by this sequentially weighted nearest neighbour classifier and the standard weighted nearest neighbour classifier trained on the labelled set alone are then linearly combined to build a hybrid classifier. Our theory shows that, given a sufficiently large set of unlabelled data, the hybrid classifier has an optimal regret converging at a faster rate than that of the optimally weighted nearest neighbour classifier and hence of the optimal bagged or k-nearest neighbour classifier. We also show that the hybrid classifier can be revised by a dislabelling strategy to achieve the fastest possible rate of regret irrespective of the size of the unlabelled set, which may even be empty. Simulation studies and real data examples are presented to support our theoretical findings and illustrate the empirical performance of the hybrid classifiers constructed using uniform weights. We also explore the effects of pseudo-labelling by hypothesized class probabilities as a supplement to our main findings.
我々は、半教師あり学習のためのランダム重み付け最近傍分類器を構築するための、新たなハイブリッド手法を提案します。この手法では、まずラベル付き学習セットを用いて、ラベルなし学習セットのクラスラベルの確率分布を予測します。これにより、ラベルなしセットは疑似ラベル付きセットに変換され、これを用いて逐次重み付け最近傍分類器をトレーニングすることができます。次に、この逐次重み付け最近傍分類器と、ラベル付きセットのみを用いてトレーニングされた標準的な重み付け最近傍分類器によって計算された投票比率を線形結合し、ハイブリッド分類器を構築します。我々の理論によれば、十分に大きなラベルなしデータセットが与えられた場合、ハイブリッド分類器は最適重み付け最近傍分類器よりも、ひいては最適バギング分類器やk近傍分類器よりも、より速い速度で最適リグレット収束を示す。また、ハイブリッド分類器は、ラベルなしセットのサイズ(空セットも含む)に関わらず、可能な限り最速の後悔率を達成するために、ラベル付け解除戦略によって修正できることを示す。シミュレーション研究と実データ例を提示し、理論的発見を裏付け、均一な重みを用いて構築されたハイブリッド分類器の実証的性能を示す。また、主要な発見を補足するために、仮説クラス確率による疑似ラベル付けの効果についても検討します。
Scalable and Adaptive Variational Bayes Methods for Hawkes Processes
ホークス過程のためのスケーラブルで適応的な変分ベイズ法
Hawkes processes are often applied to model dependence and interaction phenomena in multivariate event data sets, such as neuronal spike trains, social interactions, and financial transactions. In the nonparametric setting, learning the temporal dependence structure of Hawkes processes is generally a computationally expensive task, all the more with Bayesian estimation methods. In particular, for multivariate nonlinear Hawkes processes, Monte-Carlo Markov Chain (MCMC) methods used to sample from the posterior distribution do not scale well to the dimension of the process. Recently, efficient algorithms targeting a mean-field variational approximation of the posterior distribution have been proposed, however, these methods do not allow to perform model selection on the graph of interactions of the Hawkes model. In this work, we propose a novel adaptive Bayesian variational method that performs model selection and can estimate a sparse graphical parameter. For the popular sigmoid Hawkes processes, we design a parallel algorithm which is scalable to high-dimensional point processes and large sequences of events. Furthermore, we unify existing variational Bayes approaches under a general nonparametric inference framework, and analyse the asymptotic properties of these methods under easily verifiable conditions on the prior, the variational class, and the nonlinear model. Finally, through an extensive set of numerical simulations, we demonstrate that our method is able to adapt to the dimensionality of the parameter of the Hawkes process, and is partially robust to certain types of model misspecification.
ホークス過程は、ニューロンのスパイク列、社会的相互作用、金融取引といった多変量イベントデータセットにおける依存性や相互作用現象をモデル化するためにしばしば適用されます。ノンパラメトリックな設定において、ホークス過程の時間的依存性構造の学習は一般に計算コストの高い作業であり、ベイズ推定法を用いるとなおさらです。特に、多変量非線形ホークス過程の場合、事後分布からサンプリングするモンテカルロ・マルコフ連鎖(MCMC)法は、過程の次元に対して十分にスケールしません。近年、事後分布の平均場変分近似を対象とする効率的なアルゴリズムが提案されていますが、これらの手法ではホークスモデルの相互作用グラフ上でモデル選択を行うことができません。本研究では、モデル選択を行い、スパースなグラフィカルパラメータを推定できる、新たな適応型ベイズ変分法を提案します。一般的なシグモイドHawkes過程に対し、高次元点過程や大規模イベントシーケンスに拡張可能な並列アルゴリズムを設計します。さらに、既存の変分ベイズ手法を汎用的なノンパラメトリック推論の枠組みに統合し、事前分布、変分クラス、非線形モデルに関する容易に検証可能な条件下で、これらの手法の漸近的特性を解析します。最後に、広範な数値シミュレーションを通じて、本手法がHawkes過程のパラメータの次元に適応可能であり、特定の種類のモデル誤指定に対して部分的に堅牢であることを実証します。
Biological Sequence Kernels with Guaranteed Flexibility
柔軟性が保証された生物学的配列カーネル
Applying machine learning to biological sequences—DNA, RNA and protein—has enormous potential to advance human health and environmental sustainability. To support such high-stakes applications, it is important to develop models and evaluations that not only capture underlying biology, but also have theoretical guarantees of reliability and performance. In this article, we analyze kernel methods for biological sequences, including both hand-crafted kernels and deep neural network-based kernels. We show that popular biological kernels can severely fail at learning functions or distinguishing distributions. We then develop modified kernels that (1) are universal, characteristic, and metrize the space of distributions, and (2) preserve the underlying biological inductive biases and domain knowledge embedded in the original kernel. Our results rest on novel proof techniques for kernels that handle the structure of biological sequence space–discrete, variable length sequences–and biological notions of sequence similarity. We illustrate our theoretical results in simulation and on real biological data sets.
機械学習を生物学的配列(DNA、RNA、タンパク質)に適用することは、人類の健康と環境の持続可能性を向上させる大きな可能性を秘めています。このようなハイステークスなアプリケーションをサポートするには、根底にある生物学的特性を捉えるだけでなく、信頼性と性能の理論的な保証を備えたモデルと評価を開発することが重要です。本稿では、手作業で作成されたカーネルとディープニューラルネットワークベースのカーネルの両方を含む、生物学的配列に対するカーネル法を分析します。一般的な生物学的カーネルは、関数の学習や分布の識別に重大な欠陥があることを示します。次に、(1)普遍的で特徴的であり、分布空間を計量化し、(2)元のカーネルに埋め込まれた根底にある生物学的帰納的バイアスとドメイン知識を保持する修正カーネルを開発します。我々の研究成果は、生物学的配列空間(離散的かつ可変長の配列)の構造と、生物学的な配列類似性の概念を扱うカーネルに対する新たな証明手法に基づいています。我々は、シミュレーションと実際の生物学的データセットを用いて、我々の理論的結果を示します。
Unified Discrete Diffusion for Categorical Data
カテゴリカルデータのための統合離散拡散法
Discrete diffusion models have attracted significant attention for their application to naturally discrete data, such as language and graphs. While discrete-time discrete diffusion has been established for some time, it was only recently that Campbell et al. (2022) introduced the first framework for continuous-time discrete diffusion. However, their training and backward sampling processes significantly differ from those of the discrete-time version, requiring nontrivial approximations for tractability. In this paper, we first introduce a series of generalizations and simplifications of the evidence lower bound (ELBO) that facilitate more accurate and easier optimization both discrete- and continuous-time discrete diffusion. We further establish a unification of discrete- and continuous-time discrete diffusion through shared forward process and backward parameterization. Thanks to this unification, the continuous-time diffusion can now utilize the exact and efficient backward process developed for the discrete-time case, avoiding the need for costly and inexact approximations. Similarly, the discrete-time diffusion now also employ the MCMC corrector, which was previously exclusive to the continuous-time case. Extensive experiments and ablations demonstrate the significant improvement, and we open-source our code at: https://github.com/LingxiaoShawn/USD3.
離散拡散モデルは、言語やグラフなどの自然に離散的なデータへの応用で大きな注目を集めています。離散時間離散拡散は以前から確立されていましたが、連続時間離散拡散の最初のフレームワークが導入されたのはごく最近のことです(2022)。しかし、そのトレーニングおよび後方サンプリング プロセスは離散時間バージョンのものと大きく異なり、扱いやすさのために非自明な近似が必要です。本稿では、まず、離散時間および連続時間の離散拡散の最適化をより正確かつ容易にする証拠下限値(ELBO)の一連の一般化と簡略化を紹介します。さらに、共有の順方向プロセスと逆方向パラメータ化を通じて、離散時間および連続時間の離散拡散の統一を確立します。この統一により、連続時間拡散は、離散時間の場合に開発された正確で効率的な後方プロセスを利用できるようになり、コストのかかる不正確な近似の必要性を回避できます。同様に、離散時間拡散では、これまで連続時間の場合のみに適用されていたMCMC補正器も採用されるようになりました。広範な実験とアブレーションにより大幅な改善が実証されており、コードをオープンソース化しています:https://github.com/LingxiaoShawn/USD3
Reinforcement Learning for Infinite-Dimensional Systems
無限次元システムのための強化学習
Interest in reinforcement learning (RL) for large-scale systems, comprising extensive populations of intelligent agents interacting with heterogeneous environments, has surged significantly across diverse scientific domains in recent years. However, the large-scale nature of these systems often leads to high computational costs or reduced performance for most state-of-the-art RL techniques. To address these challenges, we propose a novel RL architecture and derive effective algorithms to learn optimal policies for arbitrarily large systems of agents. In our formulation, we model such systems as parameterized control systems defined on an infinite-dimensional function space. We then develop a moment kernel transform that maps the parameterized system and the value function into a reproducing kernel Hilbert space. This transformation generates a sequence of finite-dimensional moment representations for the RL problem, organized into a filtrated structure. Leveraging this RL filtration, we develop a hierarchical algorithm for learning optimal policies for the infinite-dimensional parameterized system. To enhance the algorithm’s efficiency, we incorporate early stopping at each hierarchy, demonstrating the fast convergence property of the algorithm through the construction of a convergent spectral sequence. The performance and efficiency of the proposed algorithm are validated using practical examples in engineering and quantum systems.
近年、多様な科学分野において、異種環境と相互作用する大規模な知的エージェント集団からなる大規模システムに対する強化学習(RL)への関心が高まっています。しかし、これらのシステムの大規模性は、最先端のRL技術の多くにおいて、計算コストの増大や性能低下を招くことがよくあります。これらの課題に対処するため、本研究では新たなRLアーキテクチャを提案し、任意の規模のエージェントシステムに最適なポリシーを学習するための効果的なアルゴリズムを導出します。我々は、このようなシステムを無限次元関数空間上に定義されたパラメータ化制御システムとしてモデル化します。次に、パラメータ化システムと価値関数を再生カーネルヒルベルト空間に写像するモーメントカーネル変換を開発します。この変換は、強化学習問題に対する有限次元モーメント表現のシーケンスを生成し、フィルタリング構造に整理します。この強化学習フィルタリングを利用して、無限次元パラメータ化システムの最適ポリシーを学習するための階層型アルゴリズムを開発します。アルゴリズムの効率性を高めるため、各階層で早期停止を組み込み、収束スペクトルシーケンスの構築を通じてアルゴリズムの高速収束特性を実証します。提案アルゴリズムの性能と効率性は、工学および量子システムの実例を用いて検証されます。
Deep Neural Networks are Adaptive to Function Regularity and Data Distribution in Approximation and Estimation
ディープニューラルネットワークは関数の規則性とデータ分布に適応する近似と推定における
Deep learning has exhibited remarkable results across diverse areas. To understand its success, substantial research has been directed towards its theoretical foundations. Nevertheless, the majority of these studies examine how well deep neural networks can model functions with uniform regularities. In this paper, we explore a different angle: how deep neural networks can adapt to varying degrees of smoothness in functions and nonuniform data distributions across different locations and scales. More precisely, we focus on a broad class of functions defined by nonlinear tree-based approximation methods. This class encompasses a range of function types, such as functions with uniform regularities and discontinuous functions. We develop nonparametric approximation and estimation theories for this class using deep ReLU networks. Our results show that deep neural networks are adaptive to the nonuniform smoothness of functions and nonuniform data distributions at different locations and scales. We apply our results to several function classes, and derive the corresponding approximation and generalization errors. The validity of our results is demonstrated through numerical experiments.
ディープラーニングは、様々な分野で目覚ましい成果を上げています。その成功を理解するために、その理論的基礎に多大な研究が向けられてきた。しかしながら、これらの研究の大部分は、ディープニューラルネットワークが均一な規則性を持つ関数をどれだけうまくモデル化できるかを検証しています。本稿では、異なる視点、すなわちディープニューラルネットワークが関数の滑らかさの程度や、異なる場所やスケールにわたる不均一なデータ分布にどのように適応できるかを探求します。より正確には、非線形ツリーベース近似法によって定義される広範な関数クラスに焦点を当てる。このクラスには、一様規則性を持つ関数や不連続関数など、様々な関数型が含まれます。本研究では、ディープラーニングReLUネットワークを用いて、このクラスに対するノンパラメトリック近似・推定理論を開発しました。その結果、ディープラーニングネットワークは、関数の不均一な滑らかさや、異なる場所やスケールにおける不均一なデータ分布に適応できることがわかりました。本研究の結果を複数の関数クラスに適用し、対応する近似誤差と汎化誤差を導出しました。数値実験によって、本研究の結果の妥当性を実証しました。
Generation of Geodesics with Actor-Critic Reinforcement Learning to Predict Midpoints
Actor-Critic強化学習を用いた測地線生成による中間点予測
To find the shortest paths for all pairs on manifolds with infinitesimally defined metrics, we introduce a framework to generate them by predicting midpoints recursively. To learn midpoint prediction, we propose an actor-critic approach. We prove the soundness of our approach and show experimentally that the proposed method outperforms existing methods on several planning tasks, including path planning for agents with complex kinematics and motion planning for multi-degree-of-freedom robot arms.
無限小に定義された計量を持つ多様体上のすべてのペアの最短経路を見つけるために、中点を再帰的に予測することで最短経路を生成する枠組みを導入します。中点予測を学習するために、アクター・クリティック・アプローチを提案します。提案手法の妥当性を証明し、提案手法が複雑な運動学を持つエージェントの経路計画や多自由度ロボットアームの動作計画など、いくつかの計画タスクにおいて既存の手法よりも優れていることを実験的に示す。
Learning-to-Optimize with PAC-Bayesian Guarantees: Theoretical Considerations and Practical Implementation
PAC-ベイズ保証を用いた最適化学習:理論的考察と実用的実装
We use the PAC-Bayesian theory for the setting of learning-to-optimize. To the best of our knowledge, we present the first framework to learn optimization algorithms with provable generalization guarantees (PAC-Bayesian bounds) and explicit trade-off between convergence guarantees and convergence speed, which contrasts with the typical worst-case analysis. Our learned optimization algorithms provably outperform related ones derived from a worst-case analysis. The results rely on PAC-Bayesian bounds for general, possibly unbounded loss-functions based on exponential families. Further, we provide a concrete algorithmic realization of the framework and new methodologies for learning-to-optimize. Finally, we conduct four practically relevant experiments to support our theory. With this, we showcase that the provided learning framework yields optimization algorithms that provably outperform the state-of-the-art by orders of magnitude.
最適化学習の設定にはPACベイズ理論を用います。我々の知る限り、証明可能な一般化保証(PACベイズ境界)と、収束保証と収束速度の間の明示的なトレードオフを備えた最適化アルゴリズムを学習する初のフレームワークを提示します。これは、典型的な最悪ケース解析とは対照的です。学習した最適化アルゴリズムは、最悪ケース解析から導き出された関連アルゴリズムよりも性能が優れていることが証明されています。結果は、指数族に基づく一般的な、おそらく無限大の損失関数のPACベイズ境界に依存しています。さらに、フレームワークの具体的なアルゴリズム実現と、最適化学習のための新しい方法論を提供します。最後に、理論を裏付ける4つの実用的な実験を実施します。これにより、提供された学習フレームワークが、最先端のアルゴリズムを桁違いに上回る性能を発揮する最適化アルゴリズムを生み出すことを示します。
Sparse Semiparametric Discriminant Analysis for High-dimensional Zero-inflated Data
高次元ゼロインフレデータに対するスパースセミパラメトリック判別分析
Sequencing-based technologies provide an abundance of high-dimensional biological data sets with highly skewed and zero-inflated measurements. Despite the computational efficiency and high interpretability offered by linear classification methods, the violation of underlying distribution assumptions, driven by high skewness and zero inflation, results in invalid classification rules and interpretations. Furthermore, existing data transformation methods addressing these violations introduce ambiguity, rendering the final model and classification performance contingent on the specific transformation employed. To tackle these challenges, we propose a novel semiparametric framework for discriminant analysis based on the truncated latent Gaussian copula model. This model accommodates skewness and zero inflation, and its estimation procedure ensures robustness against data transformations. To facilitate model interpretability, we incorporate $\ell_1$ sparsity regularization and establish the consistency of the classification directions in high-dimensional settings. We validate our approach using human gut microbiome, breast cancer microRNA, and single-cell RNA sequencing data, highlighting its superior classification accuracy and robustness to data transformations.
シーケンシングベースの技術は、非常に歪んだゼロインフレ測定を含む高次元の生物学的データセットを豊富に提供します。線形分類法は計算効率と高い解釈可能性を提供するものの、高い歪度とゼロインフレーションによって引き起こされる分布の仮定違反により、無効な分類規則と解釈が生じる。さらに、これらの違反に対処する既存のデータ変換法は曖昧性をもたらし、最終的なモデルと分類性能が採用した特定の変換に依存することになります。これらの課題に対処するため、我々は、切断潜在ガウスコピュラモデルに基づく判別分析のための新たなセミパラメトリックフレームワークを提案します。このモデルは歪度とゼロインフレーションに対応し、推定手順はデータ変換に対する堅牢性を保証します。モデルの解釈可能性を高めるため、$\ell_1$スパース正則化を組み込み、高次元設定における分類方向の一貫性を確立します。我々は、ヒト腸内細菌叢、乳がんマイクロRNA、および単一細胞RNAシーケンスデータを用いてこの手法を検証し、その優れた分類精度とデータ変換に対する堅牢性を強調します。
Stochastic Interpolants: A Unifying Framework for Flows and Diffusions
確率的補間:フローと拡散のための統合フレームワーク
A class of generative models that unifies flow-based and diffusion-based methods is introduced. These models extend the framework proposed in Albergo and Vanden-Eijnden (2023), enabling the use of a broad class of continuous-time stochastic processes called stochastic interpolants to bridge any two probability density functions exactly in finite time. These interpolants are built by combining data from the two prescribed densities with an additional latent variable that shapes the bridge in a flexible way. The time-dependent density function of the interpolant is shown to satisfy a transport equation as well as a family of forward and backward Fokker-Planck equations with tunable diffusion coefficient. Upon consideration of the time evolution of an individual sample, this viewpoint leads to both deterministic and stochastic generative models based on probability flow equations or stochastic differential equations with an adjustable level of noise. The drift coefficients entering these models are time-dependent velocity fields characterized as the unique minimizers of simple quadratic objective functions, one of which is a new objective for the score. We show that minimization of these quadratic objectives leads to control of the likelihood for generative models built upon stochastic dynamics, while likelihood control for deterministic dynamics is more stringent. We also construct estimators for the likelihood and the cross entropy of interpolant-based generative models, and we discuss connections with other methods such as score-based diffusion models, stochastic localization, probabilistic denoising, and rectifying flows. In addition, we demonstrate that stochastic interpolants recover the Schrödinger bridge between the two target densities when explicitly optimizing over the interpolant. Finally, algorithmic aspects are discussed and the approach is illustrated on numerical examples.
フローベースと拡散ベースの手法を統合する生成モデルのクラスが導入されています。これらのモデルは、AlbergoとVanden-Eijnden (2023)で提案されたフレームワークを拡張し、確率的補間式と呼ばれる広範な連続時間確率過程を使用して、任意の2つの確率密度関数を有限時間内に正確に橋渡しすることを可能にします。これらの補間式は、2つの規定された密度からのデータと、橋渡しを柔軟に形作る追加の潜在変数を組み合わせることで構築されます。補間式の時間依存密度関数は、輸送方程式と、調整可能な拡散係数を持つ順方向および逆方向のフォッカー・プランク方程式の族を満たすことが示されています。個々のサンプルの時間発展を考慮すると、この観点は、確率フロー方程式または調整可能なレベルのノイズを持つ確率微分方程式に基づく決定論的および確率的な生成モデルの両方につながります。これらのモデルに入力されるドリフト係数は、単純な二次目的関数の唯一の最小化として特徴付けられる時間依存速度場であり、そのうちの1つはスコアの新しい目的関数です。これらの二次目的関数の最小化は、確率的ダイナミクスに基づく生成モデルの尤度制御につながるが、決定論的ダイナミクスの尤度制御はより厳密であることを示す。また、補間型生成モデルの尤度とクロスエントロピーの推定量を構築し、スコアベース拡散モデル、確率的局所化、確率的ノイズ除去、整流フローなどの他の手法との関連について議論します。さらに、確率的補間型は、補間型を明示的に最適化する際に、2つのターゲット密度間のシュレーディンガー橋を回復することを示す。最後に、アルゴリズムの側面について議論し、数値例を用いてアプローチを説明します。
Efficient Methods for Non-stationary Online Learning
非定常オンライン学習のための効率的な手法
Non-stationary online learning has drawn much attention in recent years. In particular, dynamic regret and adaptive regret are proposed as two principled performance measures for online convex optimization in non-stationary environments. To optimize them, a two-layer online ensemble is usually deployed due to the inherent uncertainty of non-stationarity, in which multiple base-learners are maintained and a meta-algorithm is employed to track the best one on the fly. However, the two-layer structure raises concerns about computational complexity — such methods typically maintain $O(\log T)$ base-learners simultaneously for a $T$-round online game and thus perform multiple projections onto the feasible domain per round, which becomes the computational bottleneck when the domain is complicated. In this paper, we present efficient methods for optimizing dynamic regret and adaptive regret that reduce the number of projections per round from $O(\log T)$ to $1$. The proposed algorithms require only one gradient query and one function evaluation at each round. Our technique hinges on the reduction mechanism developed in parameter-free online learning and requires non-trivial modifications for non-stationary online methods. Furthermore, we study an even stronger measure, namely “interval dynamic regret”, and reduce the number of projections per round from $O(\log^2 T)$ to $1$ for minimizing it. Our reduction demonstrates broad generality and applies to two important applications: online stochastic control and online principal component analysis, resulting in methods that are both efficient and optimal. Finally, empirical studies verify our theoretical findings.
近年、非定常オンライン学習は大きな注目を集めています。特に、動的リグレットと適応型リグレットは、非定常環境におけるオンライン凸最適化のための2つの原理的な性能指標として提案されています。これらを最適化するために、非定常性に固有の不確実性のため、通常は2層オンラインアンサンブルが用いられます。このアンサンブルでは、複数のベース学習器が維持され、メタアルゴリズムを用いて最適なものをオンザフライで追跡します。しかし、この2層構造は計算量に関する懸念を引き起こす。このような手法では通常、$T$ラウンドのオンラインゲームで$O(\log T)$個のベース学習器を同時に維持し、ラウンドごとに実行可能領域への複数の射影を行うため、領域が複雑な場合には計算上のボトルネックとなります。本論文では、動的リグレットと適応的リグレットを最適化する効率的な手法を提示し、ラウンドあたりの投影回数を$O(\log T)$から$1$に削減します。提案するアルゴリズムは、各ラウンドで1回の勾配クエリと1回の関数評価のみを必要とします。この手法は、パラメータフリーオンライン学習で開発された削減メカニズムに基づいており、非定常オンライン手法に対しては大きな変更が必要となります。さらに、より強力な尺度である「区間動的リグレット」を研究し、これを最小化することでラウンドあたりの投影回数を$O(\log^2 T)$から$1$に削減します。この削減は幅広い一般性を示し、オンライン確率制御とオンライン主成分分析という2つの重要なアプリケーションに適用でき、効率的かつ最適な手法となります。最後に、実証研究によって理論的知見を検証します。
Decentralized Asynchronous Optimization with DADAO allows Decoupling and Acceleration
DADAOを用いた分散非同期最適化による分離と高速化
DADAO is the first decentralized, accelerated, asynchronous, primal, first-order algorithm to minimize a sum of $L$-smooth and $\mu$-strongly convex functions distributed over a network of size $n$. Modeling the gradient updates and gossip communication procedures with separate independent Poisson Point Processes allows us to decouple the computation and communication steps, which can be run in parallel, while making the whole approach completely asynchronous. This leads to communication acceleration compared to synchronous approaches. Our method employs primal gradients and avoids using a multi-consensus inner loop and other ad-hoc mechanisms. By relating the smallest positive eigenvalue $1/\chi_1$ of the Laplacian matrix $\Lambda$ and the maximal resistance $\chi_2\leq \chi_1$ of the graph to a sufficient minimal communication rate, we show that DADAO requires $\mathcal{O}(n\sqrt{\frac{L}{\mu}}\log(\frac{1}{\epsilon}))$ local gradients and only $\mathcal{O}(\sqrt{\chi_1\chi_2}\operatorname{Tr}\Lambda\sqrt{\frac{L}{\mu}}\log(\frac{1}{\epsilon}))$ communications to reach $\epsilon$-precision, up to logarithmic terms. Thus, we simultaneously obtain an accelerated rate for computations and communications, leading to an improvement over state-of-the-art works, our simulations further validating the strength of our relatively unconstrained method. Moreover, we propose a SDP relaxation to find the gossip rate of each edge minimizing the total number of communications for a given graph, resulting in faster convergence compared to standard approaches relying on uniform communication weights.
DADAOは、サイズ$n$のネットワークに分散された$L$-滑らかな$\mu$-強凸関数の和を最小化する、初めての分散型、高速化、非同期、プライマル、一次アルゴリズムです。勾配更新とゴシップ通信手順をそれぞれ独立したポアソン点過程を用いてモデル化することで、計算ステップと通信ステップを分離し、並列実行しながら、アプローチ全体を完全に非同期化することができます。これにより、同期アプローチと比較して通信速度が向上します。本手法ではプライマル勾配を採用し、マルチコンセンサス内部ループやその他のアドホックメカニズムの使用を回避します。ラプラシアン行列$\Lambda$の最小の正の固有値$1/\chi_1$とグラフの最大抵抗$\chi_2\leq \chi_1$を十分な最小通信速度に関連付けることで、DADAOでは、対数項まで$\epsilon$精度に到達するために、$\mathcal{O}(n\sqrt{\frac{L}{\mu}}\log(\frac{1}{\epsilon}))$個の局所勾配と、$\mathcal{O}(\sqrt{\chi_1\chi_2}\operatorname{Tr}\Lambda\sqrt{\frac{L}{\mu}}\log(\frac{1}{\epsilon}))$個の通信のみが必要であることを示します。したがって、計算と通信の加速速度が同時に得られ、最先端の研究よりも改善され、シミュレーションにより、比較的制約のないこの方法の強みがさらに検証されます。さらに、我々は与えられたグラフの総通信回数を最小化する各辺のゴシップレートを求めるSDP緩和法を提案します。これにより、均一な通信重みに依存する標準的な手法と比較して収束が速くなります。
Mixtures of Gaussian Process Experts with SMC^2
SMC^2を用いたガウス過程エキスパートの混合モデル
Gaussian processes are a key component of many flexible statistical and machine learning models. However, they exhibit cubic computational complexity and high memory constraints due to the need of inverting and storing a full covariance matrix. To circumvent this, mixtures of Gaussian process experts have been considered where data points are assigned to independent experts, reducing the complexity by allowing inference based on smaller, local covariance matrices. Moreover, mixtures of Gaussian process experts substantially enrich the model’s flexibility, allowing for behaviors such as non-stationarity, heteroscedasticity, and discontinuities. In this work, we construct a novel inference approach based on nested sequential Monte Carlo samplers to simultaneously infer both the gating network and Gaussian process expert parameters. This greatly improves inference compared to importance sampling, particularly in settings when a stationary Gaussian process is inappropriate, while still being thoroughly parallelizable.
ガウス過程は、多くの柔軟な統計モデルや機械学習モデルの重要な構成要素です。しかし、完全な共分散行列を反転して保存する必要があるため、計算量が3次的に増加し、メモリの制約も大きくなります。これを回避するため、データ ポイントを独立したエキスパートに割り当てるガウス過程エキスパートの混合が検討され、より小さな局所的な共分散行列に基づく推論が可能になるため、計算量が削減されます。さらに、ガウス過程エキスパートの混合によりモデルの柔軟性が大幅に向上し、非定常性、異分散性、不連続性などの動作が可能になります。本研究では、ネストされた逐次モンテ カルロ サンプラーに基づく新しい推論手法を構築し、ゲーティング ネットワークとガウス過程エキスパートのパラメーターを同時に推論します。これにより、特に定常ガウス過程が不適切な設定において、重要度サンプリングと比較して推論が大幅に改善されます。しかも、完全に並列化可能です。
Robust Point Matching with Distance Profiles
距離プロファイルを用いたロバストなポイントマッチング
Computational difficulty of quadratic matching and the Gromov-Wasserstein distance has led to various approximation and relaxation schemes. One of such methods, relying on the notion of distance profiles, has been widely used in practice, but its theoretical understanding is limited. By delving into the statistical complexity of the previously proposed method based on distance profiles, we show that it suffers from the curse of dimensionality unless we make certain assumptions on the underlying metric measure spaces. Building on this insight, we propose and analyze a modified matching procedure that can be used to robustly match points under a certain probabilistic setting. We demonstrate the performance of the proposed methods using simulations and real data applications to complement the theoretical findings. As a result, we contribute to the literature by providing theoretical underpinnings of the matching procedures based on distance invariants like distance profiles, which have been widely used in practice but rarely analyzed theoretically.
二次マッチングとグロモフ・ワッサーシュタイン距離の計算上の難しさから、様々な近似法や緩和法が考案されてきた。距離プロファイルの概念に基づく手法は実用化されてはいるものの、その理論的理解は限られています。距離プロファイルに基づく従来提案された手法の統計的複雑性を詳細に検討した結果、基礎となる計量測度空間について一定の仮定を置かない限り、次元の呪いに悩まされることが明らかになった。この知見に基づき、一定の確率設定下で点をロバストにマッチングするために使用できる、修正されたマッチング手順を提案し、解析します。提案手法の性能は、シミュレーションと実データ適用を用いて実証し、理論的知見を補完します。その結果、実用化されてはいるものの理論的に解析されることの少ない、距離プロファイルのような距離不変量に基づくマッチング手順の理論的根拠を提供することで、文献への貢献となります。
BoFire: Bayesian Optimization Framework Intended for Real Experiments
BoFire:実実験向けのベイズ最適化フレームワーク
Our open-source Python package BoFire combines Bayesian Optimization (BO) with other design of experiments (DoE) strategies focusing on developing and optimizing new chemistry. Previous BO implementations, for example as they exist in the literature or software, require substantial adaptation for effective real-world deployment in chemical industry. BoFire provides a rich feature-set with extensive configurability and realizes our vision of fast-tracking research contributions into industrial use via maintainable open-source software. Owing to quality-of-life features like JSON-serializability of problem formulations, BoFire enables seamless integration of BO into RESTful APIs, a common architecture component for both self-driving laboratories and human-in-the-loop setups. This paper discusses the differences between BoFire and other BO implementations and outlines ways that BO research needs to be adapted for real-world use in a chemistry setting.
オープンソースのPythonパッケージBoFireは、ベイズ最適化(BO)と他の実験計画法(DoE)戦略を組み合わせ、新しい化学反応の開発と最適化に焦点を当てています。文献やソフトウェアに存在する従来のBO実装は、化学業界で効果的に実世界に展開するためには大幅な適応が必要です。BoFireは、広範な設定可能性を備えた豊富な機能セットを提供し、保守可能なオープンソースソフトウェアを通じて研究成果を産業利用に迅速に移行させるという私たちのビジョンを実現します。問題の定式化をJSONシリアル化できるなどの利便性の高い機能により、BoFireは、自動運転ラボと人間参加型セットアップの両方に共通するアーキテクチャコンポーネントであるRESTful APIへのBOのシームレスな統合を可能にします。本稿では、BoFireと他のBO実装の違いについて説明し、化学の現場での実世界での使用に向けてBO研究を適応させる方法を概説します。
Reliever: Relieving the Burden of Costly Model Fits for Changepoint Detection
Reliever:変化点検出における高コストなモデル適合の負担軽減
Changepoint detection typically relies on a grid-search strategy for optimal data segmentation. When model fitting itself is expensive, repeatedly fitting a model on every candidate segment dominates the computation. Existing approaches mitigate this by pruning the grid, thus reducing the number of segments (and model fits). We propose Reliever, which instead cuts the number of model fits directly and nests seamlessly within standard grid-search routines. Reliever fits a small, deterministic collection of proxy models and reuses them wherever they apply, making it compatible with a wide range of existing algorithms. For high-dimensional regression with changepoints, coupling Reliever with an optimal grid-search method yields changepoint and coefficient estimators that are rate-optimal up to a logarithmic factor. Extensive numerical experiments demonstrate that Reliever rapidly and accurately detects changepoints across a wide range of high-dimensional and nonparametric models.
変化点検出は通常、最適なデータ分割のためのグリッドサーチ戦略に依存します。モデルフィッティング自体がコスト高である場合、すべての候補セグメントにモデルを繰り返しフィッティングすると、計算の大部分が消費されます。既存のアプローチでは、グリッドを刈り込むことでこの問題を軽減し、セグメント数(およびモデルフィッティング)を削減しています。本研究では、モデルフィッティングの数を直接削減し、標準的なグリッドサーチルーチン内にシームレスにネストするRelieverを提案します。Relieverは、小規模で決定論的なプロキシモデルのコレクションをフィッティングし、適用場所を問わず再利用するため、既存のさまざまなアルゴリズムと互換性があります。変化点を含む高次元回帰の場合、Relieverを最適なグリッドサーチ法と組み合わせると、対数係数まで速度最適な変化点推定値と係数推定値が得られます。広範な数値実験により、Relieverはさまざまな高次元およびノンパラメトリックモデルにわたって変化点を迅速かつ正確に検出することが実証されています。
Variational Inference for Uncertainty Quantification: an Analysis of Trade-offs
不確実性定量化のための変分推論:トレードオフの分析
Given an intractable distribution $p$, the problem of variational inference (VI) is to find the best approximation from some more tractable family $Q$. Commonly, one chooses $Q$ to be a family of factorized distributions (i.e., the mean-field assumption), even though $p$ itself does not factorize. We show that this mismatch leads to an impossibility theorem: if $p$ does not factorize, then any factorized approximation $q\!\in\!Q$ can correctly estimate at most one of the following three measures of uncertainty: (i) the marginal variances, (ii) the marginal precisions, or (iii) the generalized variance (which for elliptical distributions is closely related to the entropy). In practice, the best variational approximation in $Q$ is found by minimizing some divergence $D(q,p)$ between distributions, and so we ask: how does the choice of divergence determine which measure of uncertainty, if any, is correctly estimated by VI? We consider the classic Kullback-Leibler divergences, the more general $\alpha$-divergences, and a score-based divergence which compares $\nabla \log p$ and $\nabla \log q$. We thoroughly analyze the case where $p$ is a Gaussian and $q$ is a (factorized) Gaussian. In this setting, we show that all the considered divergences can be ordered based on the estimates of uncertainty they yield as objective functions for VI. Finally, we empirically evaluate the validity of this ordering when the target distribution $p$ is not Gaussian.
変分推論問題(VI)は、扱いにくい分布$p$が与えられた場合、より扱いやすい族$Q$から最良近似値を求めることです。一般的に、$p$自体は因数分解されないにもかかわらず、$Q$は因数分解された分布の族として選択される(すなわち平均場仮定)。我々は、この不一致が不可能定理につながることを示す。すなわち、$p$が因数分解されない場合、任意の因数分解された近似値$q\!\in\!Q$は、以下の3つの不確実性の尺度のうち最大で1つを正しく推定できる:(i)周辺分散、(ii)周辺精度、(iii)一般化分散(楕円分布の場合、エントロピーと密接に関連)。実際には、分布間の何らかのダイバージェンス$D(q,p)$を最小化することで、$Q$における最良の変分近似が見つかる。そこで、ダイバージェンスの選択によって、VIによって正しく推定される不確実性の尺度(もしあれば)がどのように決定されるのか、という問いを立てる。我々は、古典的なKullback-Leiblerダイバージェンス、より一般的な$\alpha$ダイバージェンス、そして$\nabla \log p$と$\nabla \log q$を比較するスコアベースのダイバージェンスを検討します。$p$がガウス分布で、$q$が(因数分解された)ガウス分布である場合を徹底的に解析します。この設定において、検討対象のすべてのダイバージェンスは、VIの目的関数として得られる不確実性の推定値に基づいて順序付けできることを示す。最後に、対象分布$p$がガウス分布でない場合のこの順序付けの妥当性を経験的に評価します。
Are Ensembles Getting Better All the Time?
アンサンブルは常に改善されているのか?
Ensemble methods combine the predictions of several base models. We study whether or not including more models always improves their average performance. This question depends on the kind of ensemble considered, as well as the predictive metric chosen. We focus on situations where all members of the ensemble are a priori expected to perform equally well, which is the case of several popular methods such as random forests or deep ensembles. In this setting, we show that ensembles are getting better all the time if, and only if, the considered loss function is convex. More precisely, in that case, the loss of the ensemble is a decreasing function of the number of models. When the loss function is nonconvex, we show a series of results that can be summarised as: ensembles of good models keep getting better, and ensembles of bad models keep getting worse. To this end, we prove a new result on the monotonicity of tail probabilities that may be of independent interest. We illustrate our results on a medical problem (diagnosing melanomas using neural nets) and a “wisdom of crowds” experiment (guessing the ratings of upcoming movies).
アンサンブル法は、複数の基本モデルの予測値を組み合わせます。本研究では、モデルを増やすことで平均性能が必ず向上するかどうかを検討します。この問いは、検討するアンサンブルの種類と、選択した予測指標によって異なります。本研究では、ランダムフォレストやディープアンサンブルなど、アンサンブルのすべてのメンバーが事前に同等の性能を発揮すると予想される状況に焦点を当てます。この設定では、検討する損失関数が凸関数である場合に限り、アンサンブルが常に向上していることを示します。より正確には、その場合、アンサンブルの損失はモデル数の減少関数です。損失関数が非凸関数の場合、優れたモデルのアンサンブルは向上し続け、劣悪なモデルのアンサンブルは低下し続ける、と要約できる一連の結果を示します。この目的のために、独立して関心対象となる可能性のある裾の確率の単調性に関する新しい結果を証明します。我々は、医療問題(ニューラルネットを用いた悪性黒色腫の診断)と「群衆の知恵」実験(近日公開予定の映画の視聴率予測)における結果を示す。
An Adaptive Parameter-free and Projection-free Restarting Level Set Method for Constrained Convex Optimization Under the Error Bound Condition
誤差境界条件下における制約付き凸最適化のための適応型パラメータフリー・射影フリー再始動レベルセット法
Recent efforts to accelerate first-order methods have focused on convex optimization problems that satisfy a geometric property known as error-bound condition, which covers a broad class of problems, including piece-wise linear programs and strongly convex programs. Parameter-free first-order methods that employ projection-free updates have the potential to broaden the benefit of acceleration. Such a method has been developed for unconstrained convex optimization but is lacking for general constrained convex optimization. We propose a parameter-free level-set method for the latter constrained case based on projection-free subgradient method that exhibits accelerated convergence for problems that satisfy an error-bound condition. Our method maintains a separate copy of the level-set sub-problem for each level parameter value and restarts the computation of these copies based on objective function progress. Applying such a restarting scheme in a level-set context is novel and results in an algorithm that dynamically adapts the precision of each copy. This property is key to extending prior restarting methods based on static precision that have been proposed for unconstrained convex optimization to handle constraints. We report promising numerical performance relative to benchmark methods.
近年の一次解法の高速化に向けた取り組みは、区分線形計画問題や強凸計画問題を含む広範な問題群をカバーする、誤差限界条件と呼ばれる幾何学的性質を満たす凸最適化問題に焦点を当てています。射影フリー更新を用いるパラメータフリー一次解法は、高速化のメリットを拡大する可能性を秘めています。このような手法は制約なし凸最適化問題向けに開発されているが、一般的な制約付き凸最適化問題には未だ存在しない。我々は、誤差限界条件を満たす問題に対して高速収束を示す射影フリー劣勾配法に基づく、後者の制約付きケース向けのパラメータフリーレベルセット法を提案します。本手法は、レベルセット問題の各レベルパラメータ値に対して、レベルセット問題のコピーを個別に保持し、目的関数の進行状況に基づいてこれらのコピーの計算を再開します。レベルセット問題にこのような再開手法を適用することは斬新であり、各コピーの精度を動的に調整するアルゴリズムを実現します。この特性は、制約なし凸最適化のために提案されている静的精度に基づく事前再開法を、制約付き問題にも適用できるように拡張する鍵となります。本稿では、ベンチマーク手法と比較して有望な数値性能を示したことを報告します。
Operator Learning for Hyperbolic PDEs
双曲型偏微分方程式の演算子学習
We construct the first rigorously justified probabilistic algorithm for recovering the solution operator of a hyperbolic partial differential equation (PDE) in two variables from input-output training pairs. The primary challenge of recovering the solution operator of hyperbolic PDEs is the presence of characteristics, along which the associated Green’s function is discontinuous. Therefore, a central component of our algorithm is a rank detection scheme that identifies the approximate location of the characteristics. By combining the randomized singular value decomposition with an adaptive hierarchical partition of the domain, we construct an approximant to the solution operator using $O(\Psi_\epsilon^{-1}\epsilon^{-7}\log(\Xi_\epsilon^{-1}\epsilon^{-1}))$ input-output pairs with relative error $O(\Xi_\epsilon^{-1}\epsilon)$ in the operator norm as $\epsilon\to0$, with high probability. Here, $\Psi_\epsilon$ represents the existence of degenerate singular values of the solution operator, and $\Xi_\epsilon$ measures the quality of the training data. Our assumptions on the regularity of the coefficients of the hyperbolic PDE are relatively weak given that hyperbolic PDEs do not have the “instantaneous smoothing effect” of elliptic and parabolic PDEs, and our recovery rate improves as the regularity of the coefficients increases. We also include numerical experiments which corroborate our theoretical findings.
入力-出力トレーニングペアから2変数の双曲型偏微分方程式(PDE)の解演算子を復元するための、厳密に正当化された初の確率アルゴリズムを構築しました。双曲型PDEの解演算子を復元する際の主な課題は、関連するグリーン関数が不連続となる特性の存在です。そのため、本アルゴリズムの中心的な要素は、特性のおおよその位置を特定するランク検出スキームです。ランダム化特異値分解と適応型階層的ドメイン分割を組み合わせることで、$O(\Psi_\epsilon^{-1}\epsilon^{-7}\log(\Xi_\epsilon^{-1}\epsilon^{-1}))$個の入出力ペアを用いて、高い確率で演算子ノルムの相対誤差$O(\Xi_\epsilon^{-1}\epsilon)$を持つ解演算子の近似値を構築します。$\epsilon\to0$として、$\Psi_\epsilon$は解演算子の退化した特異値の存在を表し、$\Xi_\epsilon$はトレーニングデータの品質を測る尺度となります。双曲型偏微分方程式の係数の正則性に関する我々の仮定は、双曲型偏微分方程式が楕円型偏微分方程式や放物型偏微分方程式のような「瞬間的な平滑化効果」を持たないことを考慮すると比較的弱く、係数の正則性が高まるにつれて収束率が向上します。また、理論的発見を裏付ける数値実験も示す。
Optimal subsampling for high-dimensional partially linear models via machine learning methods
機械学習手法による高次元部分線形モデルの最適サブサンプリング
In this paper, we explore optimal subsampling strategies for estimating the parametric regression coefficients in partially linear models with unknown nuisance functions involving high-dimensional and potentially endogenous covariates. To address model misspecifications and the curse of dimensionality, we leverage flexible machine learning (ML) techniques to estimate the unknown nuisance functions. By constructing an unbiased subsampling Neyman-orthogonal score function, we eliminate regularization bias. A two-step algorithm is then used to obtain appropriate ML estimators of the nuisance functions, mitigating the risk of over-fitting. Using martingale techniques, we establish the unconditional consistency and asymptotic normality of the subsample estimators. Furthermore, we derive optimal subsampling probabilities, including A-optimal and L-optimal probabilities as special cases. The proposed optimal subsampling approach is extended to partially linear instrumental variable models to account for potential endogeneity through instrumental variables. Simulation studies and an empirical analysis of the Physicochemical Properties of Protein Tertiary Structure dataset demonstrate the superior performance of our subsample estimators.
本稿では、高次元かつ潜在的に内生的な共変量を含む未知のニューサンス関数を持つ部分線形モデルにおけるパラメトリック回帰係数の推定に最適なサブサンプリング戦略を探求します。モデルの誤指定と次元の呪いに対処するため、柔軟な機械学習(ML)技術を活用して未知のニューサンス関数を推定します。不偏サブサンプリング・ネイマン直交スコア関数を構築することで、正則化バイアスを排除します。次に、2段階アルゴリズムを用いてニューサンス関数の適切なML推定値を取得し、過剰適合のリスクを軽減します。マルチンゲール法を用いて、サブサンプル推定値の無条件整合性と漸近正規性を確立します。さらに、特別なケースとしてA最適確率とL最適確率を含む最適なサブサンプリング確率を導出します。提案された最適なサブサンプリング手法は、部分線形操作変数モデルに拡張され、操作変数を通じた潜在的な内生性を考慮します。シミュレーション研究とタンパク質三次構造の物理化学的特性データセットを用いた実証分析により、本サブサンプル推定値の優れた性能が実証されました。
Decentralized Sparse Linear Regression via Gradient-Tracking
勾配追跡法による分散型スパース線形回帰
We study sparse linear regression over a network of agents, modeled as an undirected graph without a center node. The estimation of the $s$-sparse parameter is formulated as a constrained LASSO problem wherein each agent owns a subset of the $N$ total observations. We analyze the convergence rate and statistical guarantees of a distributed projected gradient tracking-based algorithm under high-dimensional scaling, allowing the ambient dimension $d$ to grow with (and possibly exceed) the sample size $N$. Our theory shows that, under standard notions of restricted strong convexity and smoothness of the average loss functions, suitable conditions on the network connectivity and algorithm tuning, the distributed algorithm converges globally at a linear rate to an estimate that is within the centralized statistical precision of the model, $O(s\log d/N)$. When $s\log d/N=o(1)$, a condition necessary for statistical consistency, an $\varepsilon$-optimal solution is attained after ${O}(\kappa \log (1/\varepsilon))$ gradient computations and $O(\kappa/(1-\rho) \log (1/\varepsilon))$ communication rounds,where $\kappa$ is the restricted condition number of the loss function and $\rho$ measures the network connectivity. The computation cost matches that of the centralized projected gradient algorithm despite having data distributed; whereas the communication rounds reduce as the network connectivity improves. Overall, our study reveals interesting connections between statistical efficiency, network connectivity and topology, and convergence rate in the high dimensional setting.
中心ノードを持たない無向グラフとしてモデル化されたエージェントネットワーク上のスパース線形回帰を研究します。$s$-スパースパラメータの推定は、各エージェントが合計$N$個の観測値のサブセットを所有する制約付きLASSO問題として定式化されます。高次元スケーリングの下で、環境次元$d$がサンプルサイズ$N$とともに(場合によってはそれを超える)増加することを許容する分散投影勾配追跡アルゴリズムの収束速度と統計的保証を解析します。我々の理論は、制限された強凸性と平均損失関数の滑らかさ、ネットワーク接続性に関する適切な条件、およびアルゴリズムのチューニングという標準的な概念の下で、分散アルゴリズムがモデルの集中統計精度$O(s\log d/N)$の範囲内の推定値に線形速度で大域的に収束することを示しています。統計的整合性に必要な条件である$s\log d/N=o(1)$のとき、${O}(\kappa \log (1/\varepsilon))$回の勾配計算と$O(\kappa/(1-\rho) \log (1/\varepsilon))$回の通信ラウンドで$\varepsilon$最適解が得られます。ここで、$\kappa$は損失関数の制約条件数、$\rho$はネットワークの接続性を表す。計算コストは、データが分散されているにもかかわらず、集中型の射影勾配アルゴリズムのコストと同等です。一方、通信ラウンドはネットワークの接続性が向上するにつれて減少します。全体として、本研究は、高次元設定における統計的効率、ネットワークの接続性とトポロジー、収束速度の間に興味深い関連性があることを明らかにしています。
Calibrated Inference: Statistical Inference that Accounts for Both Sampling Uncertainty and Distributional Uncertainty
キャリブレーション推論:サンプリング不確実性と分布不確実性の両方を考慮した統計的推論
How can we draw trustworthy scientific conclusions? One criterion is that a study can be replicated by independent teams. While replication is critically important, it is arguably insufficient. If a study is biased for some reason and other studies recapitulate the approach then findings might be consistently incorrect. It has been argued that trustworthy scientific conclusions require disparate sources of evidence. However, different methods might have shared biases, making it difficult to judge the trustworthiness of a result. We formalize this issue by introducing a “distributional uncertainty model”, wherein dense distributional shifts emerge as the superposition of numerous small random changes. The distributional perturbation model arises under a symmetry assumption on distributional shifts and is strictly weaker than assuming that the data is i.i.d. from the target distribution. We show that a stability analysis on a single data set allows us to construct confidence intervals that account for both sampling uncertainty and distributional uncertainty.
信頼できる科学的結論をどのように導き出せるでしょうか?一つの基準は、研究が独立したチームによって再現可能であることです。再現は非常に重要ですが、それだけでは不十分であると言えるでしょう。ある研究が何らかの理由でバイアスを持ち、他の研究がそのアプローチを再現している場合、結果は一貫して誤っている可能性があります。信頼できる科学的結論を得るには、異なる証拠源が必要であると主張されてきました。しかし、異なる手法が共通のバイアスを持つ場合があり、結果の信頼性を判断することが困難になります。私たちはこの問題を「分布不確実性モデル」を導入することで定式化します。このモデルでは、密な分布シフトが多数の小さなランダム変化の重ね合わせとして現れます。分布摂動モデルは、分布シフトに関する対称性の仮定の下で生じ、データが目標分布から独立独立であると仮定するよりも厳密に弱いモデルです。単一のデータセットに対する安定性分析により、サンプリング不確実性と分布不確実性の両方を考慮した信頼区間を構築できることを示します。
Relaxed Gaussian Process Interpolation: a Goal-Oriented Approach to Bayesian Optimization
緩和ガウス過程補間:ベイズ最適化への目標指向アプローチ
This work presents a new procedure for obtaining predictive distributions in the context of Gaussian process (GP) modeling, with a relaxation of the interpolation constraints outside ranges of interest: the mean of the predictive distribution no longer necessarily interpolates the observed values when they are outside ranges of interest, but is simply constrained to remain outside. This method called relaxed Gaussian process (reGP) interpolation provides better predictive distributions in ranges of interest, especially in cases where a stationarity assumption for the GP model is not appropriate. It can be viewed as a goal-oriented method and becomes particularly interesting in Bayesian optimization, for example, for the minimization of an objective function, where good predictive distributions for low function values are important. When the expected improvement criterion and reGP are used for sequentially choosing evaluation points, the convergence of the resulting optimization algorithm is theoretically guaranteed (provided that the function to be optimized lies in the reproducing kernel Hilbert space attached to the known covariance of the underlying Gaussian process). Experiments indicate that using reGP instead of stationary GP models in Bayesian optimization is beneficial.
本研究では、ガウス過程(GP)モデリングの文脈において予測分布を得るための新たな手法を提示します。この手法では、対象範囲外における補間制約を緩和します。予測分布の平均は、観測値が対象範囲外にある場合でも必ずしも補間する必要はなく、単に範囲外にとどまるように制約されます。緩和ガウス過程(reGP)補間と呼ばれるこの手法は、特にGPモデルの定常性仮定が適切でない場合に、対象範囲においてより優れた予測分布を提供します。これは目標指向手法とみなすことができ、例えばベイズ最適化において特に興味深いものとなります。ベイズ最適化では、低い関数値に対する良好な予測分布が重要となる目的関数の最小化などが挙げられます。期待改善基準とreGPを用いて評価点を順次選択する場合、得られる最適化アルゴリズムの収束は理論的に保証される(最適化対象関数が、基礎となるガウス過程の既知の共分散に付随する再生核ヒルベルト空間内にあることを条件とする)。実験は、ベイズ最適化において定常GPモデルではなくreGPモデルを使用することが有益であることを示しています。
Linear Separation Capacity of Self-Supervised Representation Learning
自己教師あり表現学習の線形分離能力
Recent advances in self-supervised learning have highlighted the efficacy of data augmentation in learning data representation from unlabeled data. Training a linear model atop these enhanced representations can yield an adept classifier. Despite the remarkable empirical performance, the underlying mechanisms that enable data augmentation to unravel nonlinear data structures into linearly separable representations remain elusive. This paper seeks to bridge this gap by investigating under what conditions learned representations can linearly separate manifolds when data is drawn from a multi-manifold model. Our investigation reveals that data augmentation offers additional information beyond observed data and can thus improve the information-theoretic optimal rate of linear separation capacity. In particular, we show that self-supervised learning can linearly separate manifolds with a smaller distance than unsupervised learning, underscoring the additional benefits of data augmentation. Our theoretical analysis further underscores that the performance of downstream linear classifiers primarily hinges on the linear separability of data representations rather than the size of the labeled data set, reaffirming the viability of constructing efficient classifiers with limited labeled data amid an expansive unlabeled data set.
自己教師あり学習における近年の進歩は、ラベルなしデータからデータ表現を学習する際のデータ拡張の有効性を浮き彫りにしています。これらの強化された表現に基づいて線形モデルをトレーニングすることで、優れた分類器を生成できます。驚くべき実験的性能にもかかわらず、データ拡張によって非線形データ構造を線形に分離可能な表現に解き明かす基礎メカニズムは依然として不明です。本論文では、マルチマニホールドモデルからデータを抽出した場合、どのような条件下で学習した表現がマニホールドを線形に分離できるかを調査することで、このギャップを埋めようとしています。調査の結果、データ拡張によって観測データを超えた追加情報が得られ、線形分離能力の情報理論的最適速度が向上することが明らかになった。特に、自己教師あり学習では教師なし学習よりも短い距離でマニホールドを線形に分離できることを示し、データ拡張のさらなる利点を強調します。私たちの理論分析ではさらに、下流の線形分類器のパフォーマンスは、ラベル付きデータセットのサイズではなく、データ表現の線形分離可能性に主に左右されることが強調され、広大なラベルなしデータセットの中で、限られたラベル付きデータを使用して効率的な分類器を構築することが実現可能であることが再確認されました。
On the Convergence of Projected Policy Gradient for Any Constant Step Sizes
任意の定数ステップサイズにおける射影方策勾配の収束について
Projected policy gradient (PPG) is a basic policy optimization method in reinforcement learning. Given access to exact policy evaluations, previous studies have established the sublinear convergence of PPG for sufficiently small step sizes based on the smoothness and the gradient domination properties of the value function. However, as the step size goes to infinity, PPG reduces to the classic policy iteration method, which suggests the convergence of PPG even for large step sizes. In this paper, we fill this gap and show that PPG admits a sublinear convergence for any constant step sizes. Due to the existence of the state-wise visitation measure in the expression of policy gradient, the existing optimization-based analysis framework for a preconditioned version of PPG (i.e., projected Q-ascent) is not applicable, to the best of our knowledge. Instead, we proceed the proof by computing the state-wise improvement lower bound of PPG based on its inherent structure. In addition, the finite iteration convergence of PPG for any constant step size is further established, which is also new.
投影方策勾配(PPG)は、強化学習における基本的な方策最適化手法です。これまでの研究では、正確な方策評価が利用可能であることから、十分に小さなステップサイズにおいて、価値関数の滑らかさと勾配支配特性に基づき、PPGが亜線形収束することが確立されています。しかし、ステップサイズが無限大に近づくと、PPGは古典的な方策反復法に帰着し、大きなステップサイズにおいてもPPGが収束することを示唆します。本稿では、このギャップを埋め、PPGが任意の定数ステップサイズにおいて亜線形収束を許容することを示す。方策勾配の表現に状態ごとの訪問測度が存在するため、我々の知る限り、PPGの前処理版(すなわち、投影Q上昇法)に対する既存の最適化に基づく解析フレームワークは適用できない。代わりに、PPGの固有の構造に基づき、状態ごとの改善下限を計算することで証明を進める。さらに、任意の定数ステップサイズにおいてPPGが有限反復収束することも新たに確立した。
Learning with Linear Function Approximations in Mean-Field Control
線形学習平均場制御における関数近似
The paper focuses on mean-field type multi-agent control problems with finite state and action spaces where the dynamics and cost structures are symmetric and homogeneous, and are affected by the distribution of the agents. A standard solution method for these problems is to consider the infinite population limit as an approximation and use symmetric solutions of the limit problem to achieve near optimality. The control policies, and in particular the dynamics, depend on the population distribution in the finite population setting, or the marginal distribution of the state variable of a representative agent for the infinite population setting. Hence, learning and planning for these control problems generally require estimating the reaction of the system to all possible state distributions of the agents. To overcome this issue, we consider linear function approximation for the control problem and provide coordinated and independent learning methods. We rigorously establish error upper bounds for the performance of learned solutions. The performance gap stems from (i) the mismatch due to estimating the true model with a linear one, and (ii) using the infinite population solution in the finite population problem as an approximate control. The provided upper bounds quantify the impact of these error sources on the overall performance.
本論文は、ダイナミクスとコスト構造が対称かつ均質であり、エージェントの分布の影響を受ける、有限状態空間および行動空間を持つ平均場型マルチエージェント制御問題に焦点を当てる。これらの問題の標準的な解法は、無限個体群極限を近似として考え、極限問題の対称解を用いて近似最適性を達成することです。制御方策、特にダイナミクスは、有限個体群設定における個体群分布、または無限個体群設定における代表エージェントの状態変数の周辺分布に依存します。したがって、これらの制御問題の学習と計画には、一般的に、エージェントのあらゆる可能な状態分布に対するシステムの反応を推定する必要があります。この問題を克服するために、本論文では制御問題に対する線形関数近似を考慮し、協調学習法と独立学習法を提供します。学習された解の性能に対する誤差の上限を厳密に設定します。性能ギャップは、(i)真のモデルを線形モデルで推定することによる不一致、および(ii)有限集団問題において無限集団解を近似制御として用いることに起因するものです。提示された上限は、これらの誤差源が全体的な性能に与える影響を定量化します。
A New Random Reshuffling Method for Nonsmooth Nonconvex Finite-sum Optimization
非平滑非凸有限和最適化のための新しいランダムリシャッフル法
Random reshuffling techniques are prevalent in large-scale applications, such as training neural networks. While the convergence and acceleration effects of random reshuffling-type methods are fairly well understood in the smooth setting, much less studies seem available in the nonsmooth case. In this work, we design a new normal map-based proximal random reshuffling (norm-PRR) method for nonsmooth nonconvex finite-sum problems. We show that norm-PRR achieves the iteration complexity ${\cal O}(n^{-1/3}T^{-2/3})$ where $n$ denotes the number of component functions $f(\cdot,i)$ and $T$ counts the total number of iterations. This improves the currently known complexity bounds for this class of problems by a factor of $n^{-1/3}$ in terms of the number of gradient evaluations. Additionally, we prove that norm-PRR converges linearly under the (global) Polyak-Łojasiewicz condition and in the interpolation setting. We further complement these non-asymptotic results and provide an in-depth analysis of the asymptotic properties of norm-PRR. Specifically, under the (local) Kurdyka-Łojasiewicz inequality, the whole sequence of iterates generated by norm-PRR is shown to converge to a single stationary point. Moreover, we derive last-iterate convergence rates that can match those in the smooth, strongly convex setting. Finally, numerical experiments are performed on nonconvex classification tasks to illustrate the efficiency of the proposed approach.
ランダムリシャッフル手法は、ニューラルネットワークの学習など、大規模アプリケーションで広く用いられています。ランダムリシャッフル型手法の収束および加速効果は、滑らかな設定ではかなりよく理解されているものの、滑らかでない設定での研究ははるかに少ないようです。本研究では、滑らかでない非凸有限和問題に対する、新しい正規マップベースの近位ランダムリシャッフル(norm-PRR)法を設計します。ノルムPRRが反復計算量${\cal O}(n^{-1/3}T^{-2/3})$を達成することを示します。ここで、$n$はコンポーネント関数$f(\cdot,i)$の数、$T$は反復回数の合計を表します。これにより、このクラスの問題に対する現在知られている計算量の範囲が、勾配評価回数の観点から$n^{-1/3}$倍改善されます。さらに、ノルムPRRは(グローバル)Polyak-Łojasiewicz条件および補間設定の下で線形収束することを証明します。さらに、これらの非漸近的な結果を補完し、ノルムPRRの漸近的特性の詳細な分析を提供します。具体的には、(ローカル)Kurdyka-Łojasiewicz不等式の下で、ノルムPRRによって生成される反復処理のシーケンス全体が、単一の定常点に収束することが示されます。さらに、平滑で強凸な設定における収束速度と一致する最終反復収束速度を導出します。最後に、提案手法の効率性を示すため、非凸分類タスクに対する数値実験を行う。
Model-free Change-Point Detection Using AUC of a Classifier
分類器のAUCを用いたモデルフリー変化点検出
In contemporary data analysis, it is increasingly common to work with non-stationary complex data sets. These data sets typically extend beyond the classical low-dimensional Euclidean space, making it challenging to detect shifts in their distribution without relying on strong structural assumptions. This paper proposes a novel offline change-point detection method that leverages classifiers developed in the statistics and machine learning community. With suitable data splitting, the test statistic is constructed through sequential computation of the Area Under the Curve (AUC) of a classifier, which is trained on data segments on both ends of the sequence. It is shown that the resulting AUC process attains its maxima at the true change-point location, which facilitates the change-point estimation. The proposed method is characterized by its complete nonparametric nature, high versatility, considerable flexibility, and absence of stringent assumptions on the underlying data or any distributional shifts. Theoretically, we derive the limiting pivotal distribution of the proposed test statistic under null, as well as the asymptotic behaviors under both local and fixed alternatives. The localization rate of the change-point estimator is also provided. Extensive simulation studies and the analysis of two real-world data sets illustrate the superior performance of our approach compared to existing model-free change-point detection methods.
現代のデータ分析では、非定常で複雑なデータセットを扱うことがますます一般的になっています。これらのデータセットは通常、古典的な低次元ユークリッド空間を超えて拡張されるため、強力な構造的仮定に依存せずに分布のシフトを検出することは困難です。本論文では、統計学および機械学習コミュニティで開発された分類器を活用する、新しいオフライン変化点検出法を提案します。適切なデータ分割により、シーケンスの両端のデータセグメントでトレーニングされた分類器の曲線下面積(AUC)を順次計算することで、検定統計量を構築します。結果として得られるAUCプロセスは、真の変化点の位置で最大値に達し、変化点の推定を容易にすることが示されています。提案された手法は、完全なノンパラメトリック性、高い汎用性、かなりの柔軟性、そして基礎データや分布シフトに関する厳格な仮定がないことを特徴としています。理論的には、提案検定統計量の帰無仮説下における極限ピボット分布、ならびに局所的および固定的代替仮説下における漸近的挙動を導出します。変化点推定量の局所化率も提供します。広範なシミュレーション研究と2つの実世界データセットの分析により、既存のモデルフリー変化点検出法と比較して、本手法の優れた性能が実証されています。
EF21 with Bells & Whistles: Six Algorithmic Extensions of Modern Error Feedback
EF21 with Bells & Whistles:現代のエラーフィードバックの6つのアルゴリズム拡張
First proposed by Seide (2014) as a heuristic, error feedback (EF) is a very popular mechanism for enforcing convergence of distributed gradient-based optimization methods enhanced with communication compression strategies based on the application of contractive compression operators. However, existing theory of EF relies on very strong assumptions (e.g., bounded gradients), and provides pessimistic convergence rates (e.g., while the best known rate for EF in the smooth nonconvex regime, and when full gradients are compressed, is $O(1/T^{2/3})$, the rate of gradient descent in the same regime is $O(1/T)$). Recently, Richtàrik et al. (2021) proposed a new error feedback mechanism, EF21, based on the construction of a Markov compressor induced by a contractive compressor. EF21 removes the aforementioned theoretical deficiencies of EF and at the same time works better in practice. In this work we propose six practical extensions of EF21, all supported by strong convergence theory: partial participation, stochastic approximation, variance reduction, proximal setting, momentum, and bidirectional compression. To the best of our knowledge, several of these techniques have not been previously analyzed in combination with EF, and in cases where prior analysis exists—such as for bidirectional compression—our theoretical convergence guarantees significantly improve upon existing results.
Seide (2014)によってヒューリスティックとして初めて提案されたエラーフィードバック(EF)は、収縮圧縮演算子の適用に基づく通信圧縮戦略を強化した、分散勾配ベースの最適化手法の収束を強制するための非常に一般的なメカニズムです。しかし、EFの既存の理論は非常に強力な仮定(例:有界勾配)に依存しており、悲観的な収束率を提供します(例:滑らかな非凸領域で完全な勾配が圧縮されている場合のEFの最もよく知られている率は$O(1/T^{2/3})$ですが、同じ領域での勾配降下法の率は$O(1/T)$です)。最近、Richtàrikら(2021)は、収縮コンプレッサーによって誘導されるマルコフコンプレッサーの構築に基づく新しいエラーフィードバックメカニズムEF21を提案しました。EF21は、前述したEFの理論的欠陥を排除すると同時に、実際にはより適切に機能します。本研究では、部分参加、確率的近似、分散削減、近位設定、モメンタム、双方向圧縮という、すべて強力な収束理論でサポートされているEF21の6つの実際的な拡張を提案します。私たちの知る限りでは、これらの技術のいくつかはこれまでEFと組み合わせて分析されたことがなく、双方向圧縮などの事前分析が存在する場合、私たちの理論的な収束保証により、既存の結果が大幅に改善されます。
Multiple Instance Verification
多重インスタンス検証
We explore multiple instance verification, a problem setting in which a query instance is verified against a bag of target instances with heterogeneous, unknown relevancy. We show that naive adaptations of attention-based multiple instance learning (MIL) methods and standard verification methods like Siamese neural networks are unsuitable for this setting: directly combining state-of-the-art (SOTA) MIL methods and Siamese networks is shown to be no better, and sometimes significantly worse, than a simple baseline model. Postulating that this may be caused by the failure of the representation of the target bag to incorporate the query instance, we introduce a new pooling approach named “cross-attention pooling” (CAP). Under the CAP framework, we propose two novel attention functions to address the challenge of distinguishing between highly similar instances in a target bag. Through empirical studies on three different verification tasks, we demonstrate that CAP outperforms adaptations of SOTA MIL methods and the baseline by substantial margins, in terms of both classification accuracy and the ability to detect key instances. The superior ability to identify key instances is attributed to the new attention functions by ablation studies.
クエリインスタンスを、異種かつ関連性が不明なターゲットインスタンスのバッグに対して検証する問題設定である、複数インスタンス検証を検討します。注意に基づく複数インスタンス学習(MIL)法とSiameseニューラルネットワークなどの標準的な検証手法の単純な適応は、この設定には適さないことを示す。最先端(SOTA)MIL法とSiameseネットワークを直接組み合わせても、単純なベースラインモデルと比較して優れているわけではなく、場合によっては著しく劣ることがわかる。これは、ターゲットバッグの表現がクエリインスタンスを組み込むことができないことが原因である可能性があると仮定し、「cross-attention pooling」(CAP)と呼ばれる新しいプーリング手法を導入します。CAPフレームワークに基づき、ターゲットバッグ内の非常に類似したインスタンスを区別するという課題に対処するための2つの新しいアテンション関数を提案します。3つの異なる検証タスクにおける実証的研究を通じて、CAPは分類精度とキーインスタンスの検出能力の両方において、SOTA MIL法の適応およびベースラインを大幅に上回ることを実証した。アブレーション研究によると、キーインスタンスを識別する優れた能力は、新しいアテンション関数によるものです。
Learning from Similar Linear Representations: Adaptivity, Minimaxity, and Robustness
類似線形表現からの学習:適応性、ミニマキシティ、ロバスト性
Representation multi-task learning (MTL) has achieved tremendous success in practice. However, the theoretical understanding of these methods is still lacking. Most existing theoretical works focus on cases where all tasks share the same representation, and claim that MTL almost always improves performance. Nevertheless, as the number of tasks grows, assuming all tasks share the same representation is unrealistic. Furthermore, empirical findings often indicate that a shared representation does not necessarily improve single-task learning performance. In this paper, we aim to understand how to learn from tasks with similar but not exactly the same linear representations, while dealing with outlier tasks. Assuming a known intrinsic dimension, we propose a penalized empirical risk minimization method and a spectral method that are adaptive to the similarity structure and robust to outlier tasks. Both algorithms outperform single-task learning when representations across tasks are sufficiently similar and the proportion of outlier tasks is small. Moreover, they always perform at least as well as single-task learning, even when the representations are dissimilar. We provide information-theoretic lower bounds to demonstrate that both methods are nearly minimax optimal in a large regime, with the spectral method being optimal in the absence of outlier tasks. Additionally, we introduce a thresholding algorithm to adapt to an unknown intrinsic dimension. We conduct extensive numerical experiments to validate our theoretical findings.
表現型マルチタスク学習(MTL)は、実践において大きな成功を収めてきました。しかしながら、これらの手法の理論的理解は未だ不足しています。既存の理論的研究の多くは、すべてのタスクが同一の表現を共有するケースに焦点を当てており、MTLはほぼ常にパフォーマンスを向上させると主張しています。しかしながら、タスク数が増えるにつれて、すべてのタスクが同一の表現を共有すると仮定することは非現実的です。さらに、経験的知見は、表現の共有が必ずしも単一タスク学習のパフォーマンスを向上させるわけではないことをしばしば示唆しています。本稿では、類似しているが完全に同一ではない線形表現を持つタスクから、外れ値タスクを扱いながら学習する方法を理解することを目指します。既知の固有次元を仮定し、類似性構造に適応し、外れ値タスクに対して堅牢な、ペナルティ付き経験的リスク最小化法とスペクトル法を提案します。どちらのアルゴリズムも、タスク間の表現が十分に類似しており、外れ値タスクの割合が小さい場合、単一タスク学習よりも優れたパフォーマンスを発揮します。さらに、表現が異なる場合でも、常に単一タスク学習と同等以上のパフォーマンスを発揮します。情報理論的な下限値を提示し、両手法が大規模領域においてほぼミニマックス最適であり、外れ値タスクがない場合にはスペクトル法が最適であることを示す。さらに、未知の固有次元に適応するための閾値アルゴリズムを導入します。理論的知見を検証するために、広範な数値実験を実施します。
Exponential Family Graphical Models: Correlated Replicates and Unmeasured Confounders, with Applications to fMRI Data
指数族グラフィカルモデル:相関のある反復と測定されていない交絡因子、fMRIデータへの応用
Graphical models have been used extensively for modeling brain connectivity networks. However, unmeasured confounders and correlations among measurements are often overlooked during model fitting, which may lead to spurious scientific discoveries. Motivated by functional magnetic resonance imaging (fMRI) studies, we propose a novel method for constructing brain connectivity networks with correlated replicates and latent effects. In a typical fMRI study, each participant is scanned and fMRI measurements are collected across a period of time. In many cases, subjects may have different states of mind that cannot be measured during the brain scan: for instance, some subjects may be awake during the first half of the brain scan, and may fall asleep during the second half of the brain scan. To model the correlation among replicates and latent effects induced by the different states of mind, we assume that the correlated replicates within each independent subject follow a one-lag vector autoregressive model, and that the latent effects induced by the unmeasured confounders are piecewise constant. Theoretical guarantees are established for parameter estimation. We demonstrate via extensive numerical studies that our method is able to estimate latent variable graphical models with correlated replicates more accurately than existing methods.
グラフィカルモデルは、脳接続ネットワークのモデリングに広く使用されています。しかし、測定されていない交絡因子や測定値間の相関は、モデルのフィッティング中に見落とされることが多く、誤った科学的発見につながる可能性があります。機能的磁気共鳴画像法(fMRI)研究に着目し、相関のある複製と潜在効果を持つ脳接続ネットワークを構築するための新しい方法を提案します。典型的なfMRI研究では、各参加者がスキャンされ、一定期間にわたってfMRI測定値が収集されます。多くの場合、被験者は脳スキャン中に測定できない異なる精神状態を持つ可能性があります。たとえば、一部の被験者は脳スキャンの前半は覚醒しているかもしれませんが、後半は眠りに落ちる可能性があります。反復間の相関と、異なる精神状態によって誘発される潜在効果をモデル化するために、各独立被験者における相関のある反復は1ラグベクトル自己回帰モデルに従うものとし、測定されていない交絡因子によって誘発される潜在効果は区分的に一定であると仮定します。パラメータ推定については理論的な保証が確立されています。広範な数値解析により、本手法は相関のある反復を含む潜在変数グラフィカルモデルを既存の手法よりも正確に推定できることを実証します。
Optimizing Return Distributions with Distributional Dynamic Programming
分布動的計画法によるリターン分布の最適化
We introduce distributional dynamic programming (DP) methods for optimizing statistical functionals of the return distribution, with standard reinforcement learning as a special case. Previous distributional DP methods could optimize the same class of expected utilities as classic DP. To go beyond, we combine distributional DP with stock augmentation, a technique previously introduced for classic DP in the context of risk-sensitive RL, where the MDP state is augmented with a statistic of the rewards obtained since the first time step. We find that a number of recently studied problems can be formulated as stock-augmented return distribution optimization, and we show that we can use distributional DP to solve them. We analyze distributional value and policy iteration, with bounds and a study of what objectives these distributional DP methods can or cannot optimize. We describe a number of applications outlining how to use distributional DP to solve different stock-augmented return distribution optimization problems, for example maximizing conditional value-at-risk, and homeostatic regulation. To highlight the practical potential of stock-augmented return distribution optimization and distributional DP, we introduce an agent that combines DQN and the core ideas of distributional DP, and empirically evaluate it for solving instances of the applications discussed.
我々は、標準的な強化学習を特別なケースとして、収益分布の統計的関数を最適化するための分布動的計画法(DP)を紹介します。従来の分布DP法は、従来のDPと同じクラスの期待効用を最適化できました。さらに、リスクに配慮した強化学習のコンテキストで従来のDPに以前に導入された手法である株式増加と分布DPを組み合わせます。株式増加では、MDP状態が最初の時間ステップ以降に得られた報酬の統計で増加します。最近研究されている多くの問題が株式増加収益分布最適化として定式化できることがわかり、分布DPを使用してそれらを解決できることを示します。分布価値とポリシー反復を分析し、境界と、これらの分布DP法が最適化できる目的とできない目的を検討します。条件付きリスク値の最大化や恒常性制御など、さまざまな株式増加収益分布最適化問題を分布DPを使用して解決する方法を概説するいくつかのアプリケーションについて説明します。株式拡張収益分配最適化と分配DPの実用的な可能性を強調するために、DQNと分配DPの中核となるアイデアを組み合わせたエージェントを導入し、議論されたアプリケーションのインスタンスを解決するためにそれを経験的に評価します。
Imprecise Multi-Armed Bandits: Representing Irreducible Uncertainty as a Zero-Sum Game
不正確な多腕バンディット:削減不可能な不確実性をゼロサムゲームとして表現する
We introduce a novel multi-armed bandit framework, where each arm is associated with a fixed unknown credal set over the space of outcomes (which can be richer than just the reward). The arm-to-credal-set correspondence comes from a known class of hypotheses. We then define a notion of regret corresponding to the lower prevision defined by these credal sets. Equivalently, the setting can be regarded as a two-player zero-sum game, where, on each round, the agent chooses an arm and the adversary chooses the distribution over outcomes from a set of options associated with this arm. The regret is defined with respect to the value of game. For certain natural hypothesis classes, loosely analogous to stochastic linear bandits (which are a special case of the resulting setting), we propose an algorithm and prove a corresponding upper bound on regret.
我々は、新しい多腕バンディットフレームワークを導入します。このフレームワークでは、各腕は、結果の空間(報酬だけよりも豊富になる可能性がある)上の固定された未知の信条セットに関連付けられています。腕と信条セットの対応は、既知の仮説クラスから得られます。次に、これらの信条セットによって定義される下限予測に対応する後悔の概念を定義します。同様に、この設定は2人のプレイヤーによるゼロサムゲームと見なすことができ、各ラウンドで、エージェントは腕を選択し、敵対者はこの腕に関連付けられた一連のオプションから結果の分布を選択します。後悔はゲームの価値に関して定義されます。確率的線形バンディット(結果として得られる設定の特殊なケース)に大まかに類似した特定の自然な仮説クラスについて、アルゴリズムを提案し、後悔の対応する上限を証明します。
Early Alignment in Two-Layer Networks Training is a Two-Edged Sword
2層ネットワークにおける早期アライメント:学習は諸刃の剣
Training neural networks with first order optimisation methods is at the core of the empirical success of deep learning. The scale of initialisation is a crucial factor, as small initialisations are generally associated to a feature learning regime, for which gradient descent is implicitly biased towards simple solutions. This work provides a general and quantitative description of the early alignment phase, originally introduced by Maennel et al. (2018). For small initialisation and one hidden ReLU layer networks, the early stage of the training dynamics leads to an alignment of the neurons towards key directions. This alignment induces a sparse representation of the network, which is directly related to the implicit bias of gradient flow at convergence. This sparsity inducing alignment however comes at the expense of difficulties in minimising the training objective: we also provide a simple data example for which overparameterised networks fail to converge towards global minima and only converge to a spurious stationary point instead.
ニューラルネットワークを一次最適化手法で学習させることは、深層学習の実証的成功の核心です。初期化の規模は重要な要素です。なぜなら、小さな初期化は一般的に特徴学習レジームと関連しており、勾配降下法は暗黙的に単純な解へと偏向するからです。本研究は、Maennelら(2018)によって最初に導入された初期アライメント段階の一般論的かつ定量的な記述を提供します。小さな初期化と1つの隠れReLU層を持つネットワークの場合、学習ダイナミクスの初期段階でニューロンが主要な方向へアライメントされます。このアライメントはネットワークのスパース表現を誘発し、これは収束時の勾配フローの暗黙的な偏向に直接関連しています。しかし、このスパース性によってアライメントが誘発されることにより、学習目標の最小化が困難になります。過パラメータ化されたネットワークが大域的最小値への収束に失敗し、代わりに疑似的な定常点にのみ収束する単純なデータ例も示します。
Hierarchical Decision Making Based on Structural Information Principles
構造情報原理に基づく階層的意思決定
Hierarchical Reinforcement Learning (HRL) is a promising approach for managing task complexity across multiple levels of abstraction and accelerating long-horizon agent exploration. However, the effectiveness of hierarchical policies heavily depends on prior knowledge and manual assumptions about skill definitions and task decomposition. In this paper, we propose a novel Structural Information principles-based framework, namely SIDM, for hierarchical Decision Making in both single-agent and multi-agent scenarios. Central to our work is the utilization of structural information embedded in the decision-making process to adaptively and dynamically discover and learn hierarchical policies through environmental abstractions. Specifically, we present an abstraction mechanism that processes historical state-action trajectories to construct abstract representations of states and actions. We define and optimize directed structural entropy—a metric quantifying the uncertainty in transition dynamics between abstract states—to discover skills that capture key transition patterns in RL environments. Building on these findings, we develop a skill-based learning method for single-agent scenarios and a role-based collaboration method for multi-agent scenarios, both of which can flexibly integrate various underlying algorithms for enhanced performance. Extensive evaluations on challenging benchmarks demonstrate that our framework significantly and consistently outperforms state-of-the-art baselines, improving the effectiveness, efficiency, and stability of policy learning by up to 32.70%, 64.86%, and 88.26%, respectively, as measured by average rewards, convergence timesteps, and standard deviations.
階層的強化学習(HRL)は、複数の抽象化レベルにまたがるタスクの複雑さを管理し、長期的なエージェント探索を加速するための有望なアプローチです。しかし、階層的ポリシーの有効性は、スキル定義とタスク分解に関する事前知識と手動の仮定に大きく依存します。本稿では、シングルエージェントとマルチエージェントの両方のシナリオにおける階層的意思決定のための、新しい構造情報原理ベースのフレームワーク、すなわちSIDMを提案します。本研究の中心となるのは、意思決定プロセスに埋め込まれた構造情報を利用し、環境の抽象化を通して階層的ポリシーを適応的かつ動的に発見・学習することです。具体的には、過去の状態-行動軌跡を処理して状態と行動の抽象表現を構築する抽象化メカニズムを提示します。抽象状態間の遷移ダイナミクスにおける不確実性を定量化する指標である有向構造エントロピーを定義・最適化し、RL環境における主要な遷移パターンを捉えるスキルを発見します。これらの知見に基づき、シングルエージェントシナリオ向けのスキルベース学習法とマルチエージェントシナリオ向けのロールベースコラボレーション法を開発します。どちらも、パフォーマンス向上のためにさまざまな基礎アルゴリズムを柔軟に統合できます。厳しいベンチマークでの広範な評価により、当社のフレームワークは最先端のベースラインを大幅に一貫して上回り、平均報酬、収束タイムステップ、標準偏差で測定すると、ポリシー学習の有効性、効率、安定性がそれぞれ最大32.70%、64.86%、88.26%向上することが実証されています。
Generative Adversarial Networks: Dynamics
生成的敵対ネットワーク:ダイナミクス
We study quantitatively the overparametrization limit of the original Wasserstein-GAN algorithm. Effectively, we show that the algorithm is a stochastic discretization of a system of continuity equations for the parameter distributions of the generator and discriminator. We show that parameter clipping to satisfy the Lipschitz condition in the algorithm induces a discontinuous vector field in the mean field dynamics, which gives rise to blow-up in finite time of the mean field dynamics. We look into a specific toy example that shows that all solutions to the mean field equations converge in the long time limit to time periodic solutions, this helps explain the failure to converge of the algorithm.
オリジナルのWasserstein-GANアルゴリズムの過剰パラメータ化限界を定量的に研究します。実質的に、このアルゴリズムは、生成器と識別器のパラメータ分布に関する連続方程式系の確率的離散化であることを示します。アルゴリズムにおいてリプシッツ条件を満たすためのパラメータクリッピングは、平均場ダイナミクスに不連続ベクトル場を誘導し、有限時間内で平均場ダイナミクスの爆発を引き起こすことを示します。平均場方程式のすべての解が時間周期解の長時間限界内で収束することを示す具体的な例を検討し、これがアルゴリズムの収束失敗を説明するのに役立ちます。
“What is Different Between These Datasets?” A Framework for Explaining Data Distribution Shifts
「これらのデータセットの違いは何ですか?」データ分布の変化を説明する枠組み
The performance of machine learning models relies heavily on the quality of input data, yet real-world applications often face significant data-related challenges. A common issue arises when curating training data or deploying models: two datasets from the same domain may exhibit differing distributions. While many techniques exist for detecting such distribution shifts, there is a lack of comprehensive methods to explain these differences in a human-understandable way beyond opaque quantitative metrics. To bridge this gap, we propose a versatile framework of interpretable methods for comparing datasets. Using a variety of case studies, we demonstrate the effectiveness of our approach across diverse data modalities—including tabular data, text data, images, time-series signals – in both low and high-dimensional settings. These methods complement existing techniques by providing actionable and interpretable insights to better understand and address distribution shifts.
機械学習モデルのパフォーマンスは入力データの品質に大きく依存しますが、実際のアプリケーションではデータに関する重大な課題に直面することがよくあります。トレーニングデータのキュレーションやモデルの展開時に共通の問題が発生します。同じドメインからの2つのデータセットが異なる分布を示す可能性があります。このような分布の変化を検出するための手法は多数存在しますが、不透明な定量的指標を超えて人間が理解できる方法でこれらの違いを説明する包括的な方法が不足しています。このギャップを埋めるために、データセットを比較するための解釈可能な手法の汎用的なフレームワークを提案します。さまざまなケーススタディを使用して、低次元と高次元の両方の設定で、表形式データ、テキストデータ、画像、時系列信号などの多様なデータ形式にわたるアプローチの有効性を実証します。これらの手法は、分布の変化をよりよく理解して対処するための実用的な洞察を提供することで、既存の手法を補完します。
Assumption-lean and data-adaptive post-prediction inference
仮定重視型かつデータ適応型の予測後推論
A primary challenge facing modern scientific research is the limited availability of gold-standard data, which can be costly, labor-intensive, or invasive to obtain. With the rapid development of machine learning (ML), scientists can now employ ML algorithms to predict gold-standard outcomes using variables that are easier to obtain. However, these predicted outcomes are often used directly in subsequent statistical analyses, ignoring imprecision and heterogeneity introduced by the prediction procedure. This will likely result in false positive findings and invalid scientific conclusions. In this work, we introduce PoSt-Prediction Adaptive inference (PSPA) that allows valid and powerful inference based on ML-predicted data. Its “assumption-lean” property guarantees reliable statistical inference without assumptions on the ML prediction. Its “data-adaptive” feature guarantees an efficiency gain over existing methods, regardless of the accuracy of ML prediction. We demonstrate the statistical superiority and broad applicability of our method through simulations and real-data applications.
現代の科学研究が直面している主な課題は、ゴールドスタンダードデータの入手が限られていることです。ゴールドスタンダードデータは、入手にコストがかかり、労働集約的、または侵襲的になる場合があります。機械学習(ML)の急速な発展により、科学者はMLアルゴリズムを使用して、入手しやすい変数を用いてゴールドスタンダードの結果を予測できるようになりました。しかし、これらの予測結果は、予測手順によってもたらされる不正確さと異質性を無視して、その後の統計分析で直接使用されることがよくあります。これは、偽陽性の結果や無効な科学的結論につながる可能性があります。本研究では、ML予測データに基づく有効かつ強力な推論を可能にするPost-Prediction Adaptive inference(PSPA)を紹介します。PSPAの「仮定依存型」特性は、ML予測に関する仮定を必要とせずに信頼性の高い統計的推論を保証します。また、「データ適応型」特性は、ML予測の精度に関わらず、既存手法に対する効率性の向上を保証します。シミュレーションと実データへの適用を通して、本手法の統計的優位性と幅広い適用性を実証します。
Bagged Regularized k-Distances for Anomaly Detection
異常検出のためのバッグド正則化k距離
We consider the paradigm of unsupervised anomaly detection, which involves the identification of anomalies within a dataset in the absence of labeled examples. Though distance-based methods are top-performing for unsupervised anomaly detection, they suffer heavily from the sensitivity to the choice of the number of the nearest neighbors. In this paper, we propose a new distance-based algorithm called bagged regularized $k$-distances for anomaly detection (BRDAD), converting the unsupervised anomaly detection problem into a convex optimization problem. Our BRDAD algorithm selects the weights by minimizing the surrogate risk, i.e., the finite sample bound of the empirical risk of the bagged weighted $k$-distances for density estimation (BWDDE). This approach enables us to successfully address the sensitivity challenge of the hyperparameter choice in distance-based algorithms. Moreover, when dealing with large-scale datasets, the efficiency issues can be addressed by the incorporated bagging technique in our BRDAD algorithm. On the theoretical side, we establish fast convergence rates of the AUC regret of our algorithm and demonstrate that the bagging technique significantly reduces the computational complexity. On the practical side, we conduct numerical experiments to illustrate the insensitivity of the parameter selection of our algorithm compared with other state-of-the-art distance-based methods. Furthermore, our method achieves superior performance on real-world datasets with the introduced bagging technique compared to other approaches.
本稿では、ラベル付きサンプルが存在しないデータセット内の異常を特定する、教師なし異常検出のパラダイムについて考察します。距離ベースの手法は教師なし異常検出において最高の性能を示すものの、近傍点の数の選択に対する感度が極めて高いという問題があります。本稿では、教師なし異常検出問題を凸最適化問題に変換する、異常検出のためのバギング正規化k距離(BRDAD)と呼ばれる新しい距離ベースアルゴリズムを提案します。BRDADアルゴリズムは、代理リスク、すなわち密度推定のためのバギング重み付きk距離(BWDDE)の経験的リスクの有限サンプル境界を最小化するように重みを選択します。このアプローチにより、距離ベースアルゴリズムにおけるハイパーパラメータ選択の感度課題にうまく対処することができます。さらに、大規模データセットを扱う場合、BRDADアルゴリズムに組み込まれたバギング手法によって効率性の問題に対処できます。理論面では、本アルゴリズムのAUCリグレットの収束速度が速いことを確立し、バギング手法によって計算量が大幅に削減されることを実証しました。実践面では、他の最先端の距離ベースの手法と比較して、本アルゴリズムのパラメータ選択が鈍感であることを示す数値実験を行いました。さらに、本手法は、導入したバギング手法を用いることで、他のアプローチと比較して、実世界のデータセットで優れたパフォーマンスを発揮しました。
Four Axiomatic Characterizations of the Integrated Gradients Attribution Method
統合勾配帰属法の4つの公理的特徴付け
Deep neural networks have produced significant progress among machine learning models in terms of accuracy and functionality, but their inner workings are still largely unknown. Attribution methods seek to shine a light on these “black box” models by indicating how much each input contributed to a model’s outputs. The Integrated Gradients (IG) method is a state of the art baseline attribution method in the axiomatic vein, meaning it is designed to conform to particular principles of attributions. We present four axiomatic characterizations of IG, establishing IG as the unique method satisfying four different sets of axioms.
ディープニューラルネットワークは、機械学習モデルの中で精度と機能性の面で大きな進歩をもたらしましたが、その内部の仕組みは未だにほとんど解明されていません。アトリビューション手法は、各入力がモデルの出力にどの程度寄与したかを示すことで、これらの「ブラックボックス」モデルに光を当てようとします。統合勾配法(IG法)は、公理的な帰属手法として最先端のベースライン帰属手法であり、特定の帰属原理に準拠するように設計されています。本稿ではIGの4つの公理的特徴付けを提示し、IGが4つの異なる公理集合を満たす唯一の手法であることを確立します。
Fast Algorithm for Constrained Linear Inverse Problems
制約付き線形逆問題のための高速アルゴリズム
We consider the constrained Linear Inverse Problem (LIP), where a certain atomic norm (like the $\ell_1 $ norm) is minimized subject to a quadratic constraint. Typically, such cost functions are non-differentiable, which makes them not amenable to the fast optimization methods existing in practice. We propose two equivalent reformulations of the constrained LIP with improved convex regularity: (i) a smooth convex minimization problem, and (ii) a strongly convex min-max problem. These problems could be solved by applying existing acceleration-based convex optimization methods which provide better $ O \left( \frac{1}{k^2} \right)$ theoretical convergence guarantee, improving upon the current best rate of $O \left( \frac{1}{k} \right)$. We also provide a novel algorithm named the Fast Linear Inverse Problem Solver (FLIPS), which is tailored to maximally exploit the structure of the reformulations. We demonstrate the performance of FLIPS on the classical problems of Binary Selection, Compressed Sensing, and Image Denoising. We also provide open source \texttt{MATLAB} and \texttt{PYTHON} packages for these three examples, which can be easily adapted to other LIPs.
制約付き線形逆問題(LIP)を検討します。これは、特定の原子ノルム($\ell_1 $ノルムなど)が2次制約の下で最小化される問題です。通常、このようなコスト関数は微分不可能であるため、実際に存在する高速最適化手法には対応できません。私たちは、凸正則性を改善した制約付きLIPの2つの同等な再定式化を提案します。(i)滑らかな凸最小化問題、および(ii)強く凸な最小最大問題です。これらの問題は、既存の加速ベースの凸最適化手法を適用することで解決できます。この手法は、現在の最高収束率である$O \left( \frac{1}{k} \right)$よりも優れた$O \left( \frac{1}{k} \right)$の理論的収束保証を提供します。また、本稿では、この再定式化の構造を最大限に活用するように設計された、高速線形逆問題ソルバー(FLIPS)という新しいアルゴリズムを提供します。バイナリ選択、圧縮センシング、画像ノイズ除去といった古典的な問題におけるFLIPSの性能を示します。さらに、これら3つの例に対して、他のLIPにも簡単に適応できるオープンソースの\texttt{MATLAB}および\texttt{PYTHON}パッケージも提供しています。
High-Rank Irreducible Cartesian Tensor Decomposition and Bases of Equivariant Spaces
高階既約デカルトテンソル分解と同変空間の基底
Irreducible Cartesian tensors (ICTs) play a crucial role in the design of equivariant graph neural networks, as well as in theoretical chemistry and chemical physics. Meanwhile, the design space of available linear operations on tensors that preserve symmetry presents a significant challenge. The ICT decomposition and a basis of this equivariant space are difficult to obtain for high-rank tensors. After decades of research, Bonvicini (2024) has recently achieved an explicit ICT decomposition for $n=5$ with factorial time/space complexity. In this work we, for the first time, obtain decomposition matrices for ICTs up to rank $n=9$ with reduced and affordable complexity, by constructing what we call path matrices. The path matrices are obtained via performing chain-like contractions with Clebsch-Gordan matrices following the parentage scheme. We prove and leverage that the concatenation of path matrices is an orthonormal change-of-basis matrix between the Cartesian tensor product space and the spherical direct sum spaces. Furthermore, we identify a complete orthogonal basis for the equivariant space, rather than a spanning set (Pearce-Crump, 2023b), through this path matrices technique. Our method avoids the RREF algorithm and maintains a fully analytical derivation of each ICT decomposition matrix, thereby significantly improving the algorithm’s speed to obtain arbitrary rank orthogonal ICT decomposition matrices and orthogonal equivariant bases. We further extend our result to the arbitrary tensor product and direct sum spaces, enabling free design between different spaces while keeping symmetry. The Python code is available at https://github.com/ShihaoShao-GH/ICT-decomposition-and-equivariant-bases, where the $n=6,\dots,9$ ICT decomposition matrices are obtained in 1s, 3s, 11s, and 4m32s on 28-core Intel Xeon Gold 6330 CPU @ 2.00GHz, respectively.
既約デカルトテンソル(ICT)は、同変グラフニューラルネットワークの設計のほか、理論化学および化学物理学において重要な役割を果たします。一方、対称性を保つテンソル上で利用可能な線形演算の設計空間は、大きな課題です。ICT分解とこの同変空間の基底は、高ランクテンソルに対しては取得が困難です。数十年の研究を経て、Bonvicini (2024)は最近、階乗時間/空間計算量で$n=5$の明示的なICT分解を達成しました。この研究では、パス行列と呼ばれるものを構築することで、ランク$n=9$までのICTの分解行列を、計算量を削減して許容範囲内に抑えて初めて取得しました。パス行列は、親子関係スキームに従ってClebsch-Gordan行列との連鎖状の縮約を実行することで取得されます。パス行列の連結が、直交テンソル積空間と球面直和空間との間の直交基底変換行列であることを証明し、これを活用します。さらに、このパス行列手法を用いて、同変空間の全域集合(Pearce-Crump, 2023b)ではなく、完全な直交基底を特定します。本手法はRREFアルゴリズムを回避し、各ICT分解行列の完全な解析的導出を維持するため、任意階数の直交ICT分解行列と直交同変基底を得るアルゴリズムの速度を大幅に向上させる。さらに、本結果を任意のテンソル積空間と直和空間に拡張することで、対称性を維持しながら異なる空間間の自由な設計を可能にします。Pythonコードはhttps://github.com/ShihaoShao-GH/ICT-decomposition-and-equivariant-basesで入手できます。ここで、$n=6,\dots,9$ ICT分解行列は、28コアのIntel Xeon Gold 6330 CPU @ 2.00GHzで、それぞれ1秒、3秒、11秒、4分32秒で得られます。
Best Linear Unbiased Estimate from Privatized Contingency Tables
プライベート分割表からの最良線形不偏推定値
In differential privacy (DP) mechanisms, it can be beneficial to release “redundant” outputs, where some quantities can be estimated in multiple ways by combining different privatized values. Indeed, the DP 2020 Decennial Census products published by the U.S. Census Bureau consist of such redundant noisy counts. When redundancy is present, the DP output can be improved by enforcing self-consistency (i.e., estimators obtained using different noisy counts result in the same value), and we show that the minimum variance processing is a linear projection. However, standard projection algorithms require excessive computation and memory, making them impractical for large-scale applications such as the Decennial Census. We propose the Scalable Efficient Algorithm for Best Linear Unbiased Estimate (SEA BLUE), based on a two-step process of aggregation and differencing that 1) enforces self-consistency through a linear and unbiased procedure, 2) is computationally and memory efficient, 3) achieves the minimum variance solution under certain structural assumptions, and 4) is empirically shown to be robust to violations of these structural assumptions. We propose three methods of calculating confidence intervals from our estimates, under various assumptions. Finally, we apply SEA BLUE to two 2010 Census demonstration products, illustrating its scalability and validity.
差分プライバシー(DP)メカニズムでは、「冗長」な出力を公開することが有益な場合があります。冗長な出力とは、異なるプライバシー化された値を組み合わせることで、いくつかの量を複数の方法で推定できるものです。実際、米国国勢調査局が公開した2020年10年ごとの国勢調査のDP製品は、このような冗長なノイズカウントで構成されています。冗長性がある場合、自己一貫性(つまり、異なるノイズカウントを用いて得られた推定値が同じ値になる)を強制することでDP出力を改善でき、最小分散処理は線形射影であることを示します。しかし、標準的な射影アルゴリズムは過剰な計算とメモリを必要とするため、10年ごとの国勢調査のような大規模なアプリケーションには実用的ではありません。本稿では、2段階の集約と差分処理に基づく、最良線形不偏推定のためのスケーラブルで効率的なアルゴリズム(SEA BLUE)を提案します。このアルゴリズムは、1)線形かつ不偏な手順によって自己一貫性を確保し、2)計算効率とメモリ効率に優れ、3)特定の構造的仮定の下で最小分散解を実現し、4)これらの構造的仮定に違反しても堅牢であることが経験的に証明されています。本稿では、様々な仮定の下で推定値から信頼区間を計算する3つの手法を提案します。最後に、2010年国勢調査の2つのデモンストレーション製品にSEA BLUEを適用し、そのスケーラビリティと妥当性を示す。
Interpretable Global Minima of Deep ReLU Neural Networks on Sequentially Separable Data
シーケンシャルセパレートデータにおけるDeep ReLUニューラルネットワークの解釈可能な大域的最小値
We explicitly construct zero loss neural network classifiers. We write the weight matrices and bias vectors in terms of cumulative parameters, which determine truncation maps acting recursively on input space. The configurations for the training data considered are $(i)$ sufficiently small, well separated clusters corresponding to each class, and $(ii)$ equivalence classes which are sequentially linearly separable. In the best case, for $Q$ classes of data in $\mathbb{R}^{M}$, global minimizers can be described with $Q(M+2)$ parameters.
我々はゼロ損失ニューラルネットワーク分類器を明示的に構築します。重み行列とバイアスベクトルを累積パラメータで表し、入力空間に再帰的に作用する打ち切りマップを決定します。検討する訓練データの構成は、各クラスに対応する$(i)$十分に小さく十分に分離されたクラスターと、$(ii)$順次線形分離可能な同値クラスです。最良の場合、$\mathbb{R}^{M}$内の$Q$クラスのデータに対して、大域的最小化器は$Q(M+2)$パラメータで記述できます。
Enhanced Feature Learning via Regularisation: Integrating Neural Networks and Kernel Methods
正則化による強化された特徴学習:ニューラルネットワークとカーネル法の統合
We propose a new method for feature learning and function estimation in supervised learning via regularised empirical risk minimisation. Our approach considers functions as expectations of Sobolev functions over all possible one-dimensional projections of the data. This framework is similar to kernel ridge regression, where the kernel is E_w(k(B)(wx, wx’)), with k(B)(a, b) := min(|a|, |b|)1_{ab>0} the Brownian kernel, and the distribution of the projections w is learnt. This can also be viewed as an infinite-width one-hidden layer neural network, optimising the first layer’s weights through gradient descent and explicitly adjusting the non-linearity and weights of the second layer. We introduce a gradient-based computational method for the estimator, called Brownian Kernel Neural Network (BKerNN), using particles to approximate the expectation, where the positive homogeneity of the Brownian kernel leads to improved robustness to local minima. Using Rademacher complexity, we show that BKerNN’s expected risk converges to the minimal risk with explicit high-probability rates of O(min((d/n)^1/2, n^−1/6)) (up to logarithmic factors). Numerical experiments confirm our optimisation intuitions, and BKerNN outperforms kernel ridge regression, and favourably compares to a one-hidden layer neural network with ReLU activations in various settings and real datasets.
正則化経験的リスク最小化を用いた教師あり学習における特徴学習と関数推定のための新たな手法を提案します。本手法では、関数を、データのあらゆる可能な1次元射影に対するソボレフ関数の期待値とみなす。この枠組みはカーネルリッジ回帰に類似しており、カーネルはE_w(k(B)(wx, wx’))であり、k(B)(a, b) := min(|a|, |b|)1_{ab>0}をブラウン核とし、射影wの分布を学習します。これは、無限幅の1層隠れ層ニューラルネットワークとみなすこともできます。このネットワークは、勾配降下法によって第1層の重みを最適化し、第2層の非線形性と重みを明示的に調整します。本研究では、粒子を用いて期待値を近似するブラウン核ニューラルネットワーク(BKerNN)と呼ばれる勾配ベースの計算手法を導入します。この手法では、ブラウン核の正の同次性により、局所最小値に対する堅牢性が向上します。Rademacher複雑度を用いて、BKerNNの期待リスクは、明示的にO(min((d/n)^1/2, n^−1/6))(対数係数まで)の高確率で最小リスクに収束することを示す。数値実験は最適化の直感を確認し、BKerNNはカーネルリッジ回帰よりも性能が高く、様々な設定と実際のデータセットにおいて、ReLU活性化を用いた1隠れ層ニューラルネットワークと比較しても遜色ない。
Data-Driven Performance Guarantees for Classical and Learned Optimizers
古典的および学習済み最適化器のデータ駆動型性能保証
We introduce a data-driven approach to analyze the performance of continuous optimization algorithms using generalization guarantees from statistical learning theory. We study classical and learned optimizers to solve families of parametric optimization problems. We build generalization guarantees for classical optimizers, using a sample convergence bound, and for learned optimizers, using the Probably Approximately Correct (PAC)-Bayes framework. To train learned optimizers, we use a gradient-based algorithm to directly minimize the PAC-Bayes upper bound. Numerical experiments in signal processing, control, and meta-learning showcase the ability of our framework to provide strong generalization guarantees for both classical and learned optimizers given a fixed budget of iterations. For classical optimizers, our bounds which hold with high probability are much tighter than those that worst-case guarantees provide. For learned optimizers, our bounds outperform the empirical outcomes observed in their non-learned counterparts.
統計学習理論の一般化保証を用いて、連続最適化アルゴリズムの性能を分析するためのデータ駆動型アプローチを紹介します。我々は、パラメトリック最適化問題のファミリーを解決するために、古典的最適化装置と学習済み最適化装置を研究します。我々は、標本収束境界を用いて古典的最適化装置に対して、またおそらく近似的に正しい(PAC)-ベイズフレームワークを用いて学習済み最適化装置に対して、一般化保証を構築します。学習済み最適化装置を訓練するために、我々は勾配ベースのアルゴリズムを用いてPAC-ベイズ上限を直接最小化します。信号処理、制御、およびメタ学習における数値実験は、反復回数が固定された条件下で、我々のフレームワークが古典的最適化装置と学習済み最適化装置の両方に対して強力な一般化保証を提供できることを実証します。古典的最適化装置の場合、高い確率で成立する我々の境界は、最悪のケースの保証が提供する境界よりもはるかに厳密です。学習済み最適化装置の場合、我々の境界は、学習されていない最適化装置で観測された実験結果よりも優れています。
Contextual Bandits with Stage-wise Constraints
段階的制約を伴うコンテキストバンディット
We study contextual bandits in the presence of a stage-wise constraint when the constraint must be satisfied both with high probability and in expectation. We start with the linear case where both the reward function and the stage-wise constraint (cost function) are linear. In each of the high probability and in expectation settings, we propose an upper-confidence bound algorithm for the problem and prove a $T$-round regret bound for it. We also prove a lower-bound for this constrained problem, show how our algorithms and analyses can be extended to multiple constraints, and provide simulations to validate our theoretical results. In the high probability setting, we describe the minimum requirements for the action set for our algorithm to be tractable. In the setting that the constraint is in expectation, we specialize our results to multi-armed bandits and propose a computationally efficient algorithm for this setting with regret analysis. Finally, we extend our results to the case where the reward and cost functions are both non-linear. We propose an algorithm for this case and prove a regret bound for it that characterize the function class complexity by the eluder dimension.
我々は、高い確率と期待値の両方で制約を満たす必要があるステージごとの制約が存在する状況下でのコンテキストバンディットを研究します。まず、報酬関数と段階的制約(コスト関数)の両方が線形である線形ケースから始める。高確率および期待値設定のそれぞれにおいて、問題に対する信頼度上限アルゴリズムを提案し、それに対する$T$ラウンドの後悔境界を証明します。また、この制約付き問題の下限を証明し、アルゴリズムと解析を複数の制約に拡張する方法を示し、理論的結果を検証するためのシミュレーションを提供します。高確率設定において、アルゴリズムが扱いやすくなるための行動セットの最小要件を説明します。制約が期待値にある設定では、結果を多腕バンディットに特化し、後悔分析を用いたこの設定に対する計算効率の高いアルゴリズムを提案します。最後に、報酬関数とコスト関数の両方が非線形である場合に結果を拡張します。この場合のアルゴリズムを提案し、関数クラスの複雑さをエルーダー次元によって特徴付ける後悔境界を証明します。
Boosting Causal Additive Models
因果加法モデルのブースティング
We present a boosting-based method to learn additive Structural Equation Models (SEMs) from observational data, with a focus on the theoretical aspects of determining the causal order among variables. We introduce a family of score functions based on arbitrary regression techniques, for which we establish sufficient conditions that guarantee consistent identification of the true causal ordering. Our analysis reveals that boosting with early stopping meets these criteria and thus offers a consistent score function for causal orderings. To address the challenges posed by high-dimensional data sets, we adapt our approach through a component-wise gradient descent in the space of additive SEMs. Our simulation study supports the theoretical findings in low-dimensional settings and demonstrates that our high-dimensional adaptation is competitive with state-of-the-art methods. In addition, it exhibits robustness with respect to the choice of hyperparameters, thereby simplifying the tuning process.
我々は、変数間の因果順序を決定する理論的側面に焦点を当て、観測データから加法的な構造方程式モデル(SEM)を学習するためのブースティングベースの手法を提示します。任意の回帰手法に基づくスコア関数群を導入し、真の因果順序を一貫して識別することを保証する十分な条件を確立します。我々の分析は、早期停止を伴うブースティングがこれらの基準を満たし、因果順序に対して一貫したスコア関数を提供することを示す。高次元データセットによってもたらされる課題に対処するため、我々は加法SEM空間における成分ごとの勾配降下法を通して我々のアプローチを適応させる。我々のシミュレーション研究は、低次元設定における理論的知見を裏付け、我々の高次元適応が最先端の方法と競合可能であることを実証します。さらに、それはハイパーパラメータの選択に関して堅牢性を示し、それによってチューニングプロセスを簡素化します。
Frequentist Guarantees of Distributed (Non)-Bayesian Inference
分散の頻度主義的保証(非)ベイズ推論
We establish frequentist properties, i.e., posterior consistency, asymptotic normality, and posterior contraction rates, for the distributed (non-)Bayesian inference problem for a set of agents connected over a network. These results are motivated by the need to analyze large, decentralized datasets, where distributed (non)-Bayesian inference has become a critical research area across multiple fields, including statistics, machine learning, and economics. Our results show that, under appropriate assumptions on the communication graph, distributed (non)-Bayesian inference retains parametric efficiency while enhancing robustness in uncertainty quantification. We also explore the trade-off between statistical efficiency and communication efficiency by examining how the design and size of the communication graph impact the posterior contraction rate. Furthermore, we extend our analysis to time-varying graphs and apply our results to exponential family models, distributed logistic regression, and decentralized detection models.
ネットワークで接続されたエージェント集合に対する分散(非)ベイズ推論問題において、事後一貫性、漸近正規性、事後収縮率といった頻度主義的特性を確立した。これらの結果は、統計学、機械学習、経済学など複数の分野において分散(非)ベイズ推論が重要な研究分野となっている、大規模で分散化されたデータセットを分析する必要性に着目したものです。我々の結果は、通信グラフに関する適切な仮定の下で、分散(非)ベイズ推論がパラメトリック効率を維持しながら、不確実性定量化における堅牢性を向上させることを示しています。また、通信グラフの設計とサイズが事後収縮率にどのような影響を与えるかを検討することにより、統計的効率と通信効率のトレードオフについても考察します。さらに、時間変動グラフに分析を拡張し、得られた結果を指数族モデル、分散ロジスティック回帰、分散検出モデルに適用します。
Asymptotic Inference for Multi-Stage Stationary Treatment Policy with Variable Selection
変数選択を伴う多段階定常処理方策の漸近推論
Dynamic treatment regimes or policies are a sequence of decision functions over multiple stages that are tailored to individual features. One important class of treatment policies in practice, namely multi-stage stationary treatment policies, prescribes treatment assignment probabilities using the same decision function across stages, where the decision is based on the same set of features consisting of time-evolving variables (e.g., routinely collected disease biomarkers). Although there has been extensive literature on constructing valid inference for the value function associated with dynamic treatment policies, little work has focused on the policies themselves, especially in the presence of high-dimensional features. We aim to fill the gap in this work. Specifically, we first obtain the multi-stage stationary treatment policy by minimizing the negative augmented inverse probability weighted estimator of the value function to increase asymptotic efficiency. An $L_1$ penalty is applied on the policy parameters to select important features. We then construct one-step improvements of the policy parameter estimators for valid inference. Theoretically, we show that the improved estimators are asymptotically normal, even if nuisance parameters are estimated at a slow convergence rate and the dimension of the features increases with the sample size. Our numerical studies demonstrate that the proposed method estimates a sparse policy with a near-optimal value function and conducts valid inference for the policy parameters.
動的な治療レジームまたはポリシーは、個々の特徴に合わせて調整された、複数の段階にわたる一連の決定関数です。実際のところ治療方針の重要なクラスの1つである多段階定常治療方針では、段階全体で同じ決定関数を使用して治療割り当て確率を規定し、その決定は時間とともに変化する変数(定期的に収集される疾患バイオマーカーなど)で構成される同じ特徴セットに基づいています。動的治療方針に関連付けられた価値関数の有効な推論の構築については広範な文献がありますが、特に高次元の特徴がある場合の方針自体に焦点を当てた研究はほとんどありません。本研究では、このギャップを埋めることを目指します。具体的には、まず、漸近効率を高めるために価値関数の負の拡張逆確率重み付け推定値を最小化することにより、多段階定常治療方針を取得します。重要な特徴を選択するために、方針パラメータに$L_1$ペナルティが適用されます。次に、有効な推論のために方針パラメータ推定値の1段階改善を構築します。理論的には、たとえニューサンスパラメータの推定収束速度が遅く、特徴量の次元がサンプルサイズとともに増加したとしても、改善された推定値は漸近的に正規分布に従うことを示す。数値的研究では、提案手法がほぼ最適な価値関数を持つスパースポリシーを推定し、ポリシーパラメータに対して有効な推論を行うことを実証した。
EMaP: Explainable AI with Manifold-based Perturbations
EmaP: 多様体ベースの摂動を用いた説明可能なAI
In the last few years, many explanation methods based on the perturbations of input data have been introduced to shed light on the predictions generated by black-box models. The goal of this work is to introduce a novel perturbation scheme so that more faithful and robust explanations can be obtained. Our study focuses on the impact of perturbing directions on the data topology. We show that perturbing along the orthogonal directions of the input manifold better preserves the data topology, both in the worst-case analysis of the discrete Gromov-Hausdorff distance and in the average-case analysis via persistent homology. From those results, we introduce EMaP algorithm, realizing the orthogonal perturbation scheme. Our experiments show that EMaP not only improves the explainers’ performance but also helps them overcome a recently developed attack against perturbation-based explanation methods.
ここ数年、ブラックボックスモデルによって生成された予測を明らかにするために、入力データの摂動に基づく多くの説明手法が導入されてきました。本研究の目的は、より忠実で堅牢な説明が得られるように、新しい摂動スキームを導入することです。私たちの研究は、摂動方向がデータトポロジーに与える影響に焦点を当てています。離散グロモフ-ハウスドルフ距離の最悪ケース解析と永続ホモロジーによる平均ケース解析の両方において、入力多様体の直交方向に沿った摂動がデータトポロジーをよりよく保存することを示します。これらの結果から、直交摂動スキームを実現するEMaPアルゴリズムを導入します。私たちの実験は、EMaPが説明者のパフォーマンスを向上させるだけでなく、摂動ベースの説明手法に対する最近開発された攻撃を克服するのにも役立つことを示しています。
Autoencoders in Function Space
関数空間におけるオートエンコーダ
Autoencoders have found widespread application in both their original deterministic form and in their variational formulation (VAEs). In scientific applications and in image processing it is often of interest to consider data that are viewed as functions; while discretisation (of differential equations arising in the sciences) or pixellation (of images) renders problems finite dimensional in practice, conceiving first of algorithms that operate on functions, and only then discretising or pixellating, leads to better algorithms that smoothly operate between resolutions. In this paper function-space versions of the autoencoder (FAE) and variational autoencoder (FVAE) are introduced, analysed, and deployed. Well-definedness of the objective governing VAEs is a subtle issue, particularly in function space, limiting applicability. For the FVAE objective to be well defined requires compatibility of the data distribution with the chosen generative model; this can be achieved, for example, when the data arise from a stochastic differential equation, but is generally restrictive. The FAE objective, on the other hand, is well defined in many situations where FVAE fails to be. Pairing the FVAE and FAE objectives with neural operator architectures that can be evaluated on any mesh enables new applications of autoencoders to inpainting, superresolution, and generative modelling of scientific data.
オートエンコーダは、元の決定論的形式と変分定式化(VAE)の両方で広く応用されています。科学応用や画像処理においては、データを関数として扱うことがしばしば重要です。離散化(科学で生じる微分方程式)やピクセル化(画像)は実際には問題を有限次元化するが、関数を操作するアルゴリズムを最初に考案し、その後に離散化またはピクセル化することで、解像度間でスムーズに動作するより優れたアルゴリズムが得られます。この論文では、オートエンコーダ(FAE)と変分オートエンコーダ(FVAE)の関数空間バージョンが紹介、分析、展開されます。VAEを支配する目的の明確さは、特に関数空間では微妙な問題であり、適用範囲が制限されます。FVAEの目的が明確であるためには、データ分布と選択した生成モデルとの互換性が必要です。これは、たとえばデータが確率微分方程式から生じる場合は達成できるが、一般に制限的です。一方、FAEの目的は、FVAEが明確に定義されない多くの状況で明確に定義されています。FVAEおよびFAEの目標を、任意のメッシュで評価できるニューラル オペレーター アーキテクチャと組み合わせると、オートエンコーダーを科学的データのインペインティング、超解像、生成モデリングに新たに応用できるようになります。
Nonparametric Regression on Random Geometric Graphs Sampled from Submanifolds
部分多様体からサンプリングされたランダム幾何グラフ上のノンパラメトリック回帰
We consider the nonparametric regression problem when the covariates are located on an unknown compact submanifold of a Euclidean space. Under defining a random geometric graph structure over the covariates we analyse the asymptotic frequentist behaviour of the posterior distribution arising from Bayesian priors designed through random basis expansion in the graph Laplacian eigenbasis. Under Hölder smoothness assumption on the regression function and the density of the covariates over the submanifold, we prove that the posterior contraction rates of such methods are minimax optimal (up to logarithmic factors) for any positive smoothness index.
我々は、共変量がユークリッド空間の未知のコンパクト部分多様体上に位置する場合のノンパラメトリック回帰問題を考察します。共変量上にランダムな幾何学的グラフ構造を定義し、グラフラプラシアン固有基底におけるランダム基底拡張を通して設計されたベイズ事前分布から生じる事後分布の漸近的頻度主義的挙動を解析します。回帰関数および部分多様体上の共変量の密度に関するヘルダー平滑性仮定の下で、このような手法の事後収縮率は、任意の正の平滑性指数に対して(対数係数まで)ミニマックス最適となることを証明します。
System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning
システムニューラル多様性:マルチエージェント学習における行動の異質性の測定
Evolutionary science provides evidence that diversity confers resilience in natural systems. Yet, traditional multi-agent reinforcement learning techniques commonly enforce homogeneity to increase training sample efficiency. When a system of learning agents is not constrained to homogeneous policies, individuals may develop diverse behaviors, resulting in emergent complementarity that benefits the system. Despite this, there is a surprising lack of tools that quantify behavioral diversity. Such techniques would pave the way towards understanding the impact of diversity in collective artificial intelligence and enabling its control. In this paper, we introduce System Neural Diversity (SND): a measure of behavioral heterogeneity in multi-agent systems. We discuss and prove its theoretical properties, and compare it with alternate, state-of-the-art behavioral diversity metrics used in the robotics domain. Through simulations of a variety of cooperative multi-robot tasks, we show how our metric constitutes an important tool that enables measurement and control of behavioral heterogeneity. In dynamic tasks, where the problem is affected by repeated disturbances during training, we show that SND allows us to measure latent resilience skills acquired by the agents, while other proxies, such as task performance (reward), fail to. Finally, we show how the metric can be employed to control diversity, allowing us to enforce a desired heterogeneity set-point or range. We demonstrate how this paradigm can be used to bootstrap the exploration phase, finding optimal policies faster, thus enabling novel and more efficient MARL paradigms.
進化科学は、多様性が自然システムに回復力をもたらすという証拠を示しています。しかしながら、従来のマルチエージェント強化学習手法では、一般的に均一性を強制することでトレーニングサンプルの効率性を高めています。学習エージェントのシステムが均一なポリシーに制約されていない場合、個体は多様な行動を展開し、結果としてシステムに利益をもたらす相補性が創発される可能性があります。それにもかかわらず、行動の多様性を定量化するツールは驚くほど不足しています。このような手法は、集合的人工知能における多様性の影響を理解し、その制御を可能にするための道を開くでしょう。本稿では、マルチエージェントシステムにおける行動の異質性を測る指標であるシステムニューラル多様性(SND)を紹介します。我々はその理論的特性について議論・証明し、ロボット分野で使用されている最先端の行動多様性メトリクスと比較します。さまざまな協調型マルチロボットタスクのシミュレーションを通じて、このメトリクスが行動の異質性の測定と制御を可能にする重要なツールとなることを示す。訓練中に繰り返し外乱が問題に影響を及ぼす動的タスクでは、SNDによりエージェントが獲得した潜在的な回復力スキルを測定できるが、タスクパフォーマンス(報酬)などの他のプロキシでは測定できないことを示す。最後に、このメトリクスを使用して多様性を制御し、望ましい異質性の設定点または範囲を強制できるようにする方法を示す。このパラダイムを使用して探索フェーズをブートストラップし、最適なポリシーをより速く見つけ、新しいより効率的なMARLパラダイムを可能にする方法を示す。
Distribution Estimation under the Infinity Norm
無限大ノルムの下での分布推定
We present novel bounds for estimating discrete probability distributions under the $\ell_\infty$ norm. These are nearly optimal in various precise senses, including a kind of instance-optimality. Our data-dependent convergence guarantees for the maximum likelihood estimator significantly improve upon the currently known results. A variety of techniques are utilized and innovated upon, including Chernoff-type inequalities and empirical Bernstein bounds. We illustrate our results in synthetic and real-world experiments. Finally, we apply our proposed framework to a basic selective inference problem, where we estimate the most frequent probabilities in a sample.
$\ell_\infty$ノルムの下で離散確率分布を推定するための新たな境界値を提示します。これは、ある種のインスタンス最適化を含む、様々な意味でほぼ最適です。本手法による最大尤度推定量のデータ依存収束保証は、現在知られている結果を大幅に改善します。チェルノフ型不等式や経験的バーンスタイン限界など、様々な手法が活用され、革新されています。合成実験と実世界実験の結果を示します。最後に、提案するフレームワークを基本的な選択的推論問題に適用し、サンプル内の最頻確率を推定します。
Extending Temperature Scaling with Homogenizing Maps
均質化マップを用いた温度スケーリングの拡張
As machine learning models continue to grow more complex, poor calibration significantly limits the reliability of their predictions. Temperature scaling learns a single temperature parameter to scale the output logits, and despite its simplicity, remains one of the most effective post-hoc recalibration methods. We identify one of temperature scaling’s defining attributes, that it increases the uncertainty of the predictions in a manner that we term homogenization, and propose to learn the optimal recalibration mapping from a larger class of functions that satisfies this property. We demonstrate the advantage of our method over temperature scaling in both calibration and out-of-distribution detection. Additionally, we extend our methodology and experimental evaluation to recalibration in the Bayesian setting.
機械学習モデルがますます複雑になるにつれ、キャリブレーションが不十分だと予測の信頼性が著しく低下します。温度スケーリングは、出力ロジットをスケーリングするために単一の温度パラメータを学習しますが、その単純さにもかかわらず、事後再キャリブレーション法として最も効果的な手法の一つです。温度スケーリングの特徴の一つとして、均質化と呼ばれる方法で予測の不確実性を増加させることを挙げ、この性質を満たすより広範な関数群から最適な再キャリブレーション写像を学習することを提案します。キャリブレーションと分布外検出の両方において、本手法が温度スケーリングよりも優れていることを示します。さらに、本手法と実験的評価をベイズ統計設定における再キャリブレーションに拡張します。
Density Estimation Using the Perceptron
パーセプトロンを用いた密度推定
We propose a new density estimation algorithm. Given$n$ i.i.d. observations from a distribution belonging to a classof densities on $\mathbb{R}^d$, our estimator outputs any density in the class whose “perceptrondiscrepancy” with the empirical distribution is at most $O(\sqrt{d/n})$.The perceptron discrepancy is defined as the largestdifference in mass two distribution place on any halfspace. It is shown thatthis estimator achieves the expected total variation distance to the truth that is almostminimax optimal over the class of densities with bounded Sobolev norm and Gaussianmixtures. This suggests that the regularity of the prior distribution could be anexplanation for the efficiency of the ubiquitous step in machine learning that replaces optimization over large function spaces with simpler parametricclasses (such as discriminators of GANs).We also show that replacing the perceptron discrepancy withthe generalized energy distance of Székely and Rizzo (2013) further improvestotal variation loss. The generalized energy distance between empiricaldistributions is easily computable anddifferentiable, which makes it especially useful for fitting generative models.To the best of our knowledge, it is the first “simple” distance with suchproperties that yields minimax optimal statistical guarantees. In addition, we shed light on the ubiquitous method of representing discrete data in domain $[k]$ via embedding vectors on a unit ball in $\mathbb{R}^d$. We show that taking $d \asymp \log(k)$ allows one to use simple linear probing to evaluate and estimate total variation distance, as well as recovering minimax optimal sample complexity for the class of discrete distributions on $[k]$.
新しい密度推定アルゴリズムを提案します。$\mathbb{R}^d$上の密度クラスに属する分布から$n$個の独立同値観測値が与えられた場合、我々の推定器は、経験分布との「パーセプトロン不一致」が最大でも$O(\sqrt{d/n})$となるような、そのクラスの任意の密度を出力します。パーセプトロン不一致は、任意の半空間における2つの分布場所の質量の最大差として定義されます。この推定器は、ソボレフノルムが制限されガウス混合を持つ密度クラスにおいて、ほぼミニマックス最適となる真の値への期待総変動距離を達成することが示されます。これは、事前分布の正則性が、大規模な関数空間の最適化をより単純なパラメトリッククラス(GANの識別器など)に置き換えるという機械学習の普遍的なステップの効率を説明できることを示唆しています。また、パーセプトロンの乖離をSzékelyとRizzo(2013)の一般化エネルギー距離に置き換えることで、総変動損失がさらに改善されることも示しています。経験分布間の一般化エネルギー距離は容易に計算可能で微分可能であるため、生成モデルのフィッティングに特に有用です。我々の知る限り、このような特性を持ち、ミニマックス最適な統計的保証をもたらす「単純な」距離はこれが初めてです。さらに、$\mathbb{R}^d$内の単位球にベクトルを埋め込むことにより、領域$[k]$内の離散データを表現する普遍的な手法についても明らかにします。$d \asymp \log(k)$を取ることで、単純な線形プローブを使用して総変動距離を評価および推定できるだけでなく、$[k]$上の離散分布のクラスのミニマックス最適サンプル複雑度を回復できることを示します。
Simplex Constrained Sparse Optimization via Tail Screening
テールスクリーニングによる単体制約スパース最適化
We consider the probabilistic simplex-constrained sparse recovery problem. The commonly used Lasso-type penalty for promoting sparsity is ineffective in this context since it is a constant within the simplex. Despite this challenge, fortunately, simplex constraint itself brings a self-regularization property, i.e., the empirical risk minimizer without any sparsity-promoting procedure obtains the usual Lasso-type estimation error. Moreover, we analyze the iterates of a projected gradient descent method and show its convergence to the ground truth sparse solution in the geometric rate until a satisfied statistical precision is attained. Although the estimation error is statistically optimal, the resulting solution is usually more dense than the sparse ground truth. To further sparsify the iterates, we propose a method called PERMITS via embedding a tail screening procedure, i.e., identifying negligible components and discarding them during iterations, into the projected gradient descent method. Furthermore, we combine tail screening and the special information criterion to balance the trade-off between fitness and complexity. Theoretically, the proposed PERMITS method can exactly recover the ground truth support set under mild conditions and thus obtain the oracle property. We demonstrate the statistical and computational efficiency of PERMITS with both synthetic and real data. The implementation of the proposed method can be found in https://github.com/abess-team/PERMITS.
確率的単体制約付きスパース回復問題を考察します。スパース性を促進するために一般的に用いられるLasso型ペナルティは、単体内の定数であるため、この文脈では効果がない。この課題にもかかわらず、幸いなことに単体制約自体は自己正則化特性をもたらす。すなわち、スパース性促進手順を全く用いない経験的リスク最小化器は、通常のLasso型推定誤差を得る。さらに、投影勾配降下法の反復を分析し、満足のいく統計精度が達成されるまで、幾何速度で真のスパース解に収束することを示します。推定誤差は統計的に最適ですが、結果として得られる解は通常、スパースな真の解よりも密度が高くなります。反復をさらにスパース化するために、投影勾配降下法にテールスクリーニング手順(反復中に無視できるコンポーネントを識別して破棄する手順)を埋め込むことにより、PERMITSと呼ばれる手法を提案します。さらに、テールスクリーニングと特殊情報基準を組み合わせて、適合性と複雑さのトレードオフのバランスをとります。理論的には、提案されたPERMITS法は、穏やかな条件下で真のサポートセットを正確に回復できるため、オラクル特性を得ることができます。合成データと実際のデータの両方を使用して、PERMITSの統計的および計算効率を実証します。提案された方法の実装は、https://github.com/abess-team/PERMITSにあります。
Score-Based Diffusion Models in Function Space
関数空間におけるスコアベース拡散モデル
Diffusion models have recently emerged as a powerful framework for generative modeling. They consist of a forward process that perturbs input data with Gaussian white noise and a reverse process that learns a score function to generate samples by denoising. Despite their tremendous success, they are mostly formulated on finite-dimensional spaces, e.g., Euclidean, limiting their applications to many domains where the data has a functional form, such as in scientific computing and 3D geometric data analysis. This work introduces a mathematically rigorous framework called Denoising Diffusion Operators (DDOs) for training diffusion models in function space. In DDOs, the forward process perturbs input functions gradually using a Gaussian process. The generative process is formulated by a function-valued annealed Langevin dynamic. Our approach requires an appropriate notion of the score for the perturbed data distribution, which we obtain by generalizing denoising score matching to function spaces that can be infinite-dimensional. We show that the corresponding discretized algorithm generates accurate samples at a fixed cost independent of the data resolution. We theoretically and numerically verify the applicability of our approach on a set of function-valued problems, including generating solutions to the Navier-Stokes equation viewed as the push-forward distribution of forcings from a Gaussian Random Field (GRF), as well as volcano InSAR and MNIST-SDF.
拡散モデルは近年、生成モデリングのための強力なフレームワークとして注目されています。拡散モデルは、入力データにガウス白色ノイズを摂動させる順方向プロセスと、ノイズ除去によってサンプルを生成するスコア関数を学習する逆方向プロセスから構成されます。これらのモデルは大きな成功を収めているにもかかわらず、ユークリッド空間などの有限次元空間上で定式化されることがほとんどで、科学計算や3次元幾何学データ解析など、データが関数形式を持つ多くの分野にしか適用できません。本研究では、関数空間で拡散モデルを学習するための、数学的に厳密なフレームワークであるノイズ除去拡散演算子(DDO)を紹介します。DDOでは、順方向プロセスで入力関数をガウス過程を用いて徐々に摂動させます。生成プロセスは、関数値アニールランジュバン力学によって定式化されます。本アプローチでは、摂動されたデータ分布のスコアという適切な概念が必要です。これは、ノイズ除去スコアマッチングを無限次元になり得る関数空間に一般化することで得られます。対応する離散化アルゴリズムは、データ解像度に依存しない固定コストで正確なサンプルを生成することを示す。ガウス確率場(GRF)からの強制力のプッシュフォワード分布として見たナビエ・ストークス方程式の解生成、火山InSAR、MNIST-SDFなど、一連の関数値問題に対する本手法の適用可能性を理論的かつ数値的に検証します。
Regularized Rényi Divergence Minimization through Bregman Proximal Gradient Algorithms
ブレグマン近似勾配アルゴリズムによる正則化レーニイ・ダイバージェンス最小化
We study the variational inference problem of minimizing a regularized Rényi divergence over an exponential family. We propose to solve this problem with a Bregman proximal gradient algorithm. We propose a sampling-based algorithm to cover the black-box setting, corresponding to a stochastic Bregman proximal gradient algorithm with biased gradient estimator. We show that the resulting algorithms can be seen as relaxed moment-matching algorithms with an additional proximal step. Using Bregman updates instead of Euclidean ones allows us to exploit the geometry of our approximate model. We prove strong convergence guarantees for both our deterministic and stochastic algorithms using this viewpoint, including monotonic decrease of the objective, convergence to a stationary point or to the minimizer, and geometric convergence rates. These new theoretical insights lead to a versatile, robust, and competitive method, as illustrated by numerical experiments
指数族上の正規化Rényi情報量を最小化する変分推論問題を研究します。この問題をBregman近位勾配アルゴリズムで解くことを提案します。ブラックボックス設定をカバーするサンプリングベースのアルゴリズムを提案します。これは、バイアス付き勾配推定値を使用した確率的Bregman近位勾配アルゴリズムに対応します。結果として得られるアルゴリズムは、追加の近位ステップを備えた緩和されたモーメントマッチング アルゴリズムと見なせることを示します。ユークリッド更新の代わりにBregman更新を使用することで、近似モデルの幾何学を活用できます。この観点から、目的関数の単調減少、定常点または最小値への収束、そして幾何収束率など、決定論的アルゴリズムと確率的アルゴリズムの両方において強力な収束保証が証明されます。これらの新しい理論的知見は、数値実験によって示されるように、汎用性、堅牢性、そして競争力のある手法につながる。
WEFE: A Python Library for Measuring and Mitigating Bias in Word Embeddings
WEFE: 単語埋め込みにおけるバイアスの測定と軽減のためのPythonライブラリ
Word embeddings, which are a mapping of words into continuous vectors, are widely used in modern Natural Language Processing (NLP) systems. However, they are prone to inherit stereotypical social biases from the corpus on which they are built. The research community has focused on two main tasks to address this problem: 1) how to measure these biases, and 2) how to mitigate them.Word Embedding Fairness Evaluation (WEFE) is an open source library that implements many fairness metrics and mitigation methods in a unified framework. It also provides a standard interface for designing new ones. The software follows the object-oriented paradigm with a strong focus on extensibility. Each of its methods is appropriately documented, verified and tested.WEFE is not limited to just a library: it also contains several replications of previous studies as well as tutorials that serve as educational material for newcomers to the field.It is licensed under BSD-3 and can be easily installed through pip and conda package managers.
単語埋め込みは、単語を連続ベクトルにマッピングするもので、現代の自然言語処理(NLP)システムで広く使用されています。しかし、単語埋め込みは、それが構築されているコーパスからステレオタイプの社会的バイアスを受け継ぐ傾向があります。研究コミュニティは、この問題に対処するために、1)これらのバイアスを測定する方法、2)それらを軽減する方法という2つの主要な課題に焦点を当ててきました。Word Embedding Fairness Evaluation(WEFE)は、多くの公平性メトリクスと軽減手法を統一されたフレームワークに実装したオープンソースライブラリです。また、新しいメトリクスを設計するための標準インターフェースも提供しています。このソフトウェアは、拡張性を重視したオブジェクト指向パラダイムに従っています。各メソッドは適切に文書化、検証、テストされています。WEFEは単なるライブラリではありません。以前の研究の複製がいくつか含まれているほか、この分野の初心者向けの教材として役立つチュートリアルも含まれています。BSD-3ライセンスで提供されており、pipおよびcondaパッケージ マネージャーを使用して簡単にインストールできます。
Frontiers to the learning of nonparametric hidden Markov models
ノンパラメトリック隠れマルコフモデル学習の最前線
Hidden Markov models (HMMs) are flexible tools for clustering dependent data coming from unknown populations, allowing nonparametric modelling of the population densities. Identifiability fails when the data is in fact independent and identically distributed (i.i.d.), and we study the frontier between learnable and unlearnable two-state nonparametric HMMs. Learning the parameters of the HMM requires solving a nonlinear inverse problem whose difficulty depends not only on the smoothnesses of the populations but also on the distance to the i.i.d. boundary of the parameter set. The latter difficulty is mostly ignored in the literature in favour of assumptions precluding nearly independent data. This is the first work conducting a precise nonasymptotic, nonparametric analysis of the minimax risk taking into account all aspects of the hardness of the problem, in the case of two populations. Our analysis reveals an unexpected interplay between the distance to the i.i.d. boundary and the relative smoothnesses of the two populations: a surprising and intriguing transition occurs in the rate when the two densities have differing smoothnesses. We obtain upper and lower bounds revealing that, close to the i.i.d. boundary, it is possible to “borrow strength” from the estimator of the smoother density to improve the risk of the other.
隠れマルコフモデル(HMM)は、未知の母集団から得られる従属データをクラスタリングするための柔軟なツールであり、母集団密度のノンパラメトリック モデル化を可能にします。データが実際に独立かつ同一に分布している(i.i.d.)場合、識別可能性は失敗します。そこで、学習可能な2状態ノンパラメトリックHMMと学習不可能な2状態ノンパラメトリックHMMの境界を調べます。HMMのパラメータを学習するには、非線形逆問題を解く必要があります。この逆問題の難しさは、母集団の滑らかさだけでなく、パラメータ セットのi.i.d.境界までの距離にも依存します。後者の難しさは、ほぼ独立したデータを排除するという仮定を優先し、文献ではほとんど無視されています。本研究は、2つの母集団の場合に、問題の難しさに関するすべての側面を考慮に入れた、ミニマックス リスクの正確な非漸近的ノンパラメトリック解析を行った最初の研究です。本解析により、i.i.d.までの距離と、母集団の滑らかさの間に予期せぬ相互作用があることが明らかになりました。境界と2つの集団の相対的な滑らかさ:2つの密度が異なる滑らかさを持つ場合、レートに驚くべき興味深い遷移が発生します。上限と下限が得られ、i.i.d.境界に近づくと、より滑らかな密度の推定値から「強度を借りる」ことで、もう一方の集団のリスクを改善できることが明らかになりました。
On Non-asymptotic Theory of Recurrent Neural Networks in Temporal Point Processes
時系列点過程におけるリカレントニューラルネットワークの非漸近理論について
Temporal point process (TPP) is an important tool for modeling and predicting irregularly timed events across various domains. Recently, the recurrent neural network (RNN)-based TPPs have shown practical advantages over traditional parametric TPP models. However, in the current literature, it remains nascent in understanding neural TPPs from theoretical viewpoints. In this paper, we establish the excess risk bounds of RNN-TPPs under many well-known TPP settings. We especially show that an RNN-TPP with no more than four layers can achieve vanishing generalization errors. Our technical contributions include the characterization of the complexity of the multi-layer RNN class, the construction of $\tanh$ neural networks for approximating dynamic event intensity functions, and the truncation technique for alleviating the issue of unbounded event sequences. Our results bridge the gap between TPP’s application and neural network theory.
時系列点過程(TPP)は、様々な分野において不規則なタイミングで発生するイベントをモデル化・予測するための重要なツールです。近年、リカレントニューラルネットワーク(RNN)ベースのTPPは、従来のパラメトリックTPPモデルよりも実用的な利点があることが示されています。しかしながら、現在の文献においては、ニューラルTPPを理論的観点から理解する上で、まだ初期段階にあります。本稿では、多くの既知のTPP設定下におけるRNN-TPPの過剰リスク境界を確立します。特に、4層以下のRNN-TPPで汎化誤差をゼロにできることを示します。私たちの技術的貢献には、多層RNNクラスの複雑さの特性評価、動的イベント強度関数を近似するための$\tanh$ニューラルネットワークの構築、および無制限のイベントシーケンスの問題を軽減するための切り捨て手法が含まれます。私たちの成果は、TPPの応用とニューラルネットワーク理論の間のギャップを埋めるものです。
Classification in the high dimensional Anisotropic mixture framework: A new take on Robust Interpolation
高次元異方性混合フレームワークにおける分類:ロバスト補間の新たな解釈
We study the classification problem under the two-component anisotropic sub-Gaussian mixture model in high dimensions and in the non-asymptotic setting. First, we derive lower bounds and matching upper bounds for the minimax risk of classification in this framework. We also show that in the high-dimensional regime, the linear discriminant analysis classifier turns out to be sub-optimal in the minimax sense. Next, we give precise characterization of the risk of classifiers based on solutions of $\ell_2$-regularized least squares problem. We deduce that the interpolating solutions may outperform the regularized classifiers under mild assumptions on the covariance structure of the noise, and present concrete examples of this phenomenon. Our analysis also demonstrates robustness of interpolation to certain models of corruption. To the best of our knowledge, this peculiar fact has not yet been investigated in the rapidly growing literature related to interpolation. We conclude that interpolation is not only benign but can also be optimal, and in some cases robust.
高次元かつ非漸近的な設定における2成分異方性サブガウス混合モデルを用いた分類問題を考察します。まず、この枠組みにおける分類のミニマックスリスクの下限値とそれに対応する上限値を導出します。また、高次元領域においては、線形判別分析分類器がミニマックスの意味で準最適となることを示す。次に、$\ell_2$-正則化最小二乗問題の解に基づいて、分類器のリスクを精密に評価します。ノイズの共分散構造に関する緩やかな仮定の下では、補間解が正則化分類器よりも優れた性能を示す可能性があることを導き出し、この現象の具体的な例を提示します。また、本解析は、特定の破損モデルに対する補間の堅牢性も示す。我々の知る限り、この特異な事実は、補間に関する急速に増加している文献においてまだ調査されていない。我々は、補間は無害であるだけでなく、最適であり、場合によっては堅牢であると結論付ける。
Universal Online Convex Optimization Meets Second-order Bounds
普遍的オンライン凸最適化は2次の境界を満たす
Recently, several universal methods have been proposed for online convex optimization, and attain minimax rates for multiple types of convex functions simultaneously. However, they need to design and optimize one surrogate loss for each type of functions, making it difficult to exploit the structure of the problem and utilize existing algorithms. In this paper, we propose a simple strategy for universal online convex optimization, which avoids these limitations. The key idea is to construct a set of experts to process the original online functions, and deploy a meta-algorithm over the linearized losses to aggregate predictions from experts. Specifically, the meta-algorithm is required to yield a second-order bound with excess losses, so that it can leverage strong convexity and exponential concavity to control the meta-regret. In this way, our strategy inherits the theoretical guarantee of any expert designed for strongly convex functions and exponentially concave functions, up to a double logarithmic factor. As a result, we can plug in off-the-shelf online solvers as black-box experts to deliver problem-dependent regret bounds. For general convex functions, it maintains the minimax optimality and also achieves a small-loss bound. Furthermore, we extend our universal strategy to online composite optimization, where the loss function comprises a time-varying function and a fixed regularizer. To deal with the composite loss functions, we employ a meta-algorithm based on the optimistic online learning framework, which not only enjoys a second-order bound, but also can utilize estimations for upcoming loss functions. With suitable configurations, we show that the additional regularizer does not contribute to the meta-regret, thus ensuring the universality in the composite setting.
最近、オンライン凸最適化のためのいくつかの普遍的な手法が提案されており、複数の種類の凸関数に対して同時にミニマックスレートを達成します。しかし、それらは関数の種類ごとに1つの代理損失を設計および最適化する必要があり、問題の構造を活用して既存のアルゴリズムを利用することが困難です。本稿では、これらの制限を回避する、普遍的なオンライン凸最適化のためのシンプルな戦略を提案します。鍵となるアイデアは、元のオンライン関数を処理するエキスパートセットを構築し、線形化された損失に対してメタアルゴリズムを適用してエキスパートからの予測値を集約することです。具体的には、メタアルゴリズムは過剰損失を伴う2次の境界を生成することが求められ、これにより強い凸性と指数的凹性を利用してメタリグレットを制御できます。このようにして、本戦略は、強い凸関数および指数的凹関数向けに設計されたあらゆるエキスパートの理論的保証を、2倍対数係数まで継承します。その結果、既製のオンラインソルバーをブラックボックスエキスパートとしてプラグインすることで、問題依存のリグレット境界を生成できます。一般的な凸関数に対しては、ミニマックス最適性を維持しながら、損失が小さい境界も実現します。さらに、本戦略をオンライン複合最適化に拡張し、損失関数を時変関数と固定正則化器で構成します。複合損失関数を扱うために、楽観的オンライン学習フレームワークに基づくメタアルゴリズムを採用しました。このアルゴリズムは、2次の境界値を持つだけでなく、将来の損失関数の推定値も利用できます。適切な設定を用いることで、追加の正則化がメタ後悔に寄与しないことを示し、複合設定における普遍性を保証します。
Sample Complexity of the Linear Quadratic Regulator: A Reinforcement Learning Lens
線形二次レギュレータのサンプル複雑度:強化学習レンズ
We provide the first known algorithm that provably achieves $\varepsilon$-optimality within $\widetilde{O}(1/\varepsilon)$ function evaluations for the discounted discrete-time linear quadratic regulator problem with unknown parameters, without relying on two-point gradient estimates. These estimates are known to be unrealistic in many settings, as they depend on using the exact same initialization, which is to be selected randomly, for two different policies. Our results substantially improve upon the existing literature outside the realm of two-point gradient estimates, which either leads to $\widetilde{O}(1/\varepsilon^2)$ rates or heavily relies on stability assumptions.
我々は、2点勾配推定に依存せずに、未知のパラメータを持つ割引離散時間線形二次レギュレータ問題に対して、$\widetilde{O}(1/\varepsilon)$回の関数評価で$\varepsilon$最適性を証明的に達成する、初めての既知のアルゴリズムを提供します。これらの推定は、2つの異なるポリシーに対してランダムに選択される全く同じ初期化を使用することに依存するため、多くの設定において非現実的であることが知られています。我々の結果は、$\widetilde{O}(1/\varepsilon^2)$のレートにつながるか、安定性の仮定に大きく依存する2点勾配推定の領域外において、既存の文献を大幅に改善します。
Randomization Can Reduce Both Bias and Variance: A Case Study in Random Forests
ランダム化はバイアスと分散の両方を低減できる:ランダムフォレストのケーススタディ
We study the often overlooked phenomenon, first noted in Breiman (2001), that random forests appear to reduce bias compared to bagging. Motivated by an interesting paper by Mentch and Zhou (2020), where the authors explain the success of random forests in low signal-to-noise ratio (SNR) settings through regularization, we explore how random forests can capture patterns in the data that bagging ensembles fail to capture. We empirically demonstrate that in the presence of such patterns, random forests reduce bias along with variance and can increasingly outperform bagging ensembles when SNR is high. Our observations offer insights into the real-world success of random forests across a range of SNRs and enhance our understanding of the difference between random forests and bagging ensembles. Our investigations also yield practical insights into the importance of tuning $mtry$ in random forests.
我々は、Breiman (2001)によって初めて指摘された、ランダムフォレストはバギングに比べてバイアスを減らすように見えるという、見過ごされがちな現象を研究します。MentchとZhou (2020)による興味深い論文で、著者らは低信号対雑音比(SNR)設定でのランダムフォレストの成功を正則化によって説明しているが、これに触発されて、ランダムフォレストがバギングアンサンブルでは捕捉できないデータ内のパターンをどのように捕捉できるかを調査します。我々は、そのようなパターンが存在する場合、ランダムフォレストは分散とともにバイアスを減らし、SNRが高いときにはバギングアンサンブルよりもますます優れたパフォーマンスを発揮できることを経験的に実証します。我々の観察は、さまざまなSNRでのランダムフォレストの実際の成功についての洞察を提供し、ランダムフォレストとバギングアンサンブルの違いについての理解を深める。また、我々の調査は、ランダムフォレストで$mtry$を調整することの重要性についての実用的な洞察ももたらす。
skglm: Improving scikit-learn for Regularized Generalized Linear Models
skglm:正規化一般化線形モデルのためのscikit-learnの改良
We introduce skglm, an open-source Python package for regularized Generalized Linear Models. Thanks to its composable nature, it supports combining datafits, penalties, and solvers to fit a wide range of models, many of them not included in scikit-learn (e.g. Group Lasso and variants). It uses state-of-the-art algorithms to solve problems involving high-dimensional datasets, providing large speed-ups compared to existing implementations. It is fully compliant with the scikit-learn API and acts as a drop-in replacement for its estimators. Finally, it abides by the standards of open source development and is integrated in the scikit-learn-contrib GitHub organization.
正規化一般化線形モデル用のオープンソースPythonパッケージであるskglmを紹介します。その構成可能な性質により、データフィット、ペナルティ、ソルバーを組み合わせて、scikit-learnに含まれていない多くのモデル(Group Lassoとそのバリアント)を適合させることができます。skglmは最先端のアルゴリズムを使用して高次元データセットを含む問題を解決し、既存の実装と比較して大幅な高速化を実現します。scikit-learn APIに完全準拠しており、scikit-learnの推定器の代替として機能。最後に、オープンソース開発の標準に準拠しており、scikit-learn-contrib GitHub組織に統合されています。
Losing Momentum in Continuous-time Stochastic Optimisation
連続時間確率最適化における勢いの喪失
The training of modern machine learning models often consists in solving high-dimensional non-convex optimisation problems that are subject to large-scale data. In this context, momentum-based stochastic optimisation algorithms have become particularly widespread. The stochasticity arises from data subsampling which reduces computational cost. Both, momentum and stochasticity help the algorithm to converge globally. In this work, we propose and analyse a continuous-time model for stochastic gradient descent with momentum. This model is a piecewise-deterministic Markov process that represents the optimiser by an underdamped dynamical system and the data subsampling through a stochastic switching. We investigate longtime limits, the subsampling-to-no-subsampling limit, and the momentum-to-no-momentum limit. We are particularly interested in the case of reducing the momentum over time. Under convexity assumptions, we show convergence of our dynamical system to the global minimiser when reducing momentum over time and letting the subsampling rate go to infinity. We then propose a stable, symplectic discretisation scheme to construct an algorithm from our continuous-time dynamical system. In experiments, we study our scheme in convex and non-convex test problems. Additionally, we train a convolutional neural network in an image classification problem. Our algorithm attains competitive results compared to stochastic gradient descent with momentum.
現代の機械学習モデルの学習は、多くの場合、大規模データを扱う高次元非凸最適化問題を解くことで構成されます。このような状況において、運動量に基づく確率的最適化アルゴリズムが特に普及しています。確率性は、計算コストを削減するデータのサブサンプリングから生じる。運動量と確率性はどちらも、アルゴリズムが大域的に収束するのに役立ちます。本研究では、運動量を用いた確率的勾配降下法の連続時間モデルを提案し、解析します。このモデルは、最適化装置を減衰不足の動的システムで表し、データのサブサンプリングを確率的スイッチングで表す、区分決定論的マルコフ過程です。長時間極限、サブサンプリングからサブサンプリングなしへの極限、運動量から運動量なしへの極限を調べる。特に、時間の経過と共に運動量を減らすケースに注目します。凸性仮定の下で、時間の経過と共に運動量を減らし、サブサンプリング率を無限大にすると、動的システムが大域的最小化装置に収束することを示す。次に、連続時間力学系からアルゴリズムを構築するための、安定したシンプレクティック離散化スキームを提案します。実験では、凸および非凸テスト問題においてこのスキームを検証します。さらに、画像分類問題において畳み込みニューラルネットワークを訓練します。このアルゴリズムは、モメンタム付き確率的勾配降下法と比較して競争力のある結果を達成します。
Latent Process Models for Functional Network Data
機能ネットワークデータのための潜在過程モデル
Network data are often sampled with auxiliary information or collected through the observation of a complex system over time, leading to multiple network snapshots indexed by a continuous variable. Many methods in statistical network analysis are traditionally designed for a single network, and can be applied to an aggregated network in this setting, but that approach can miss important functional structure. Here we develop an approach to estimating the expected network explicitly as a function of a continuous index, be it time or another indexing variable. We parameterize the network expectation through low dimensional latent processes, whose components we represent with a fixed, finite-dimensional functional basis. We derive a gradient descent estimation algorithm, establish theoretical guarantees for recovery of the low dimensional structure, compare our method to competitors, and apply it to a data set of international political interactions over time, showing our proposed method to adapt well to data, outperform competitors, and provide interpretable and meaningful results.
ネットワークデータは、補助情報とともにサンプリングされたり、複雑なシステムの経時的な観測を通じて収集されたりすることが多く、連続変数でインデックス付けされた複数のネットワークスナップショットが生成されます。統計的ネットワーク分析における多くの手法は、従来、単一のネットワーク向けに設計されており、この設定であれば集約されたネットワークにも適用できますが、このアプローチでは重要な機能構造を見逃してしまう可能性があります。本稿では、時間やその他のインデックス変数など、連続的なインデックスの関数として、期待されるネットワークを明示的に推定する手法を開発します。ネットワークの期待値を低次元潜在プロセスによってパラメータ化し、その構成要素を固定された有限次元の関数基底で表します。勾配降下法による推定アルゴリズムを導出し、低次元構造の復元に対する理論的保証を確立し、本手法を競合手法と比較します。さらに、本手法を経時的な国際政治交流のデータセットに適用し、提案手法がデータに適応しやすく、競合手法を凌駕し、解釈可能で有意義な結果をもたらすことを示します。
Dynamic Bayesian Learning for Spatiotemporal Mechanistic Models
時空間メカニズムモデルのための動的ベイズ学習
We develop an approach for Bayesian learning of spatiotemporal dynamical mechanistic models. Such learning consists of statistical emulation of the mechanistic system that can efficiently interpolate the output of the system from arbitrary inputs. The emulated learner can then be used to train the system from noisy data achieved by melding information from observed data with the emulated mechanistic system. This joint melding of mechanistic systems employ hierarchical state-space models with Gaussian process regression. Assuming the dynamical system is controlled by a finite collection of inputs, Gaussian process regression learns the effect of these parameters through a number of training runs, driving the stochastic innovations of the spatiotemporal state-space component. This enables efficient modeling of the dynamics over space and time. This article details exact inference with analytically accessible posterior distributions in hierarchical matrix-variate Normal and Wishart models in designing the emulator. This step obviates expensive iterative algorithms such as Markov chain Monte Carlo or variational approximations. We also show how emulation is applicable to large-scale emulation by designing a dynamic Bayesian transfer learning framework. Inference on mechanistic model parameters proceeds using Markov chain Monte Carlo as a post-emulation step using the emulator as a regression component. We demonstrate this framework through solving inverse problems arising in the analysis of ordinary and partial nonlinear differential equations and, in addition, to a black-box computer model generating spatiotemporal dynamics across a graphical model.
私たちは、時空間動的メカニズム モデルのベイズ学習のためのアプローチを開発します。このような学習は、任意の入力からシステムの出力を効率的に補間できるメカニズム システムの統計的エミュレーションで構成されます。エミュレートされた学習器は、観測データとエミュレートされた機構システムからの情報を融合することで得られるノイズの多いデータからシステムを学習するために使用できます。この機構システムの共同融合では、ガウス過程回帰を備えた階層的状態空間モデルを使用します。動的システムが有限の入力集合によって制御されていると仮定すると、ガウス過程回帰は多数のトレーニング実行を通じてこれらのパラメータの効果を学習し、時空間状態空間コンポーネントの確率的イノベーションを促進します。これにより、空間と時間にわたるダイナミクスの効率的なモデル化が可能になります。この記事では、エミュレータの設計において、階層的行列変量正規モデルとウィシャートモデルで解析的にアクセス可能な事後分布を使用した正確な推論について詳しく説明します。このステップにより、マルコフ連鎖モンテカルロ法や変分近似などの高価な反復アルゴリズムが不要になります。また、動的ベイズ転移学習フレームワークを設計することで、エミュレーションが大規模エミュレーションにどのように適用できるかを示します。メカニズムモデルパラメータの推論は、エミュレータを回帰コンポーネントとして用いたマルコフ連鎖モンテカルロ法をエミュレーション後のステップとして用いることで行われます。本稿では、この枠組みを、常微分方程式および偏非線形微分方程式の解析で生じる逆問題を解くこと、そしてグラフィカルモデル全体にわたって時空間ダイナミクスを生成するブラックボックス型コンピュータモデルを用いて実証します。
On the Ability of Deep Networks to Learn Symmetries from Data: A Neural Kernel Theory
ディープラーニングネットワークがデータから対称性を学習する能力について:ニューラルカーネル理論
Symmetries (transformations by group actions) are present in many datasets, and leveraging them holds considerable promise for improving predictions in machine learning. In this work, we aim to understand when and how deep networks—with standard architectures trained in a standard, supervised way—learn symmetries from data. Inspired by real-world scenarios, we study a classification paradigm where data symmetries are only partially observed during training: some classes include all transformations of a cyclic group, while others—only a subset. We ask: under which conditions will deep networks correctly classify the partially sampled classes?In the infinite-width limit, where neural networks behave like kernel machines, we derive a neural kernel theory of symmetry learning. The group-cyclic nature of the dataset allows us to analyze the Gram matrix of neural kernels in the Fourier domain; here we find a simple characterization of the generalization error as a function of class separation (signal) and class-orbit density (noise). This characterization reveals that generalization can only be successful when the local structure of the data prevails over its non-local, symmetry-induced structure, in the kernel space defined by the architecture. This occurs when (1) classes are sufficiently distinct and (2) class orbits are sufficiently dense.We extend our theoretical treatment to any finite group, including non-abelian groups. Our framework also applies to equivariant architectures (e.g., CNNs), and recovers their success in the special case where the architecture matches the inherent symmetry of the data. Empirically, our theory reproduces the generalization failure of finite-width networks (MLP, CNN, ViT) trained on partially observed versions of rotated-MNIST. We conclude that conventional deep networks lack a mechanism to learn symmetries that have not been explicitly embedded in their architecture a priori. In the future, our framework could be extended to guide the design of architectures and training procedures able to learn symmetries from data.
対称性(グループアクションによる変換)は多くのデータセットに存在し、それを活用することで機械学習における予測値の向上に大きな可能性を秘めています。本研究では、標準的な教師あり学習された標準的なアーキテクチャを持つ深層ネットワークが、データから対称性をいつ、どのように学習するかを理解することを目指しています。現実世界のシナリオに着想を得て、データの対称性がトレーニング中に部分的にしか観察されない分類パラダイムを研究します。つまり、一部のクラスには巡回グループのすべての変換が含まれますが、他のクラスにはサブセットのみが含まれます。私たちは、どのような条件下でディープ ネットワークが部分的にサンプリングされたクラスを正しく分類するかを問います。ニューラル ネットワークがカーネル マシンのように動作する無限幅の極限において、対称性学習のニューラル カーネル理論を導き出します。データセットのグループ巡回性により、フーリエ領域でニューラル カーネルのグラム行列を分析できます。ここでは、クラス分離(信号)とクラス軌道密度(ノイズ)の関数として、一般化エラーの簡単な特徴付けを示します。この特徴付けにより、一般化は、アーキテクチャによって定義されたカーネル空間において、データのローカル構造が非ローカルな対称性誘導構造に勝る場合にのみ成功することが明らかになります。これは、(1)クラスが十分に異なり、(2)クラス軌道が十分に稠密である場合に発生します。私たちは、理論的処理を非可換群を含む任意の有限群に拡張します。私たちのフレームワークは、同変アーキテクチャ(CNNなど)にも適用され、アーキテクチャがデータの固有の対称性と一致する特殊なケースでそれらの成功を回復します。経験的には、私たちの理論は、回転MNISTの部分観測バージョンで学習した有限幅ネットワーク(MLP、CNN、ViT)の一般化の失敗を再現します。私たちは、従来のディープ ネットワークには、事前にアーキテクチャに明示的に埋め込まれていない対称性を学習するメカニズムが欠けていると結論付けます。将来的には、私たちのフレームワークを拡張して、データから対称性を学習できるアーキテクチャとトレーニング手順の設計を導くことができる可能性があります。
Fine-grained Analysis and Faster Algorithms for Iteratively Solving Linear Systems
線形システムの反復解法のための細粒度解析と高速アルゴリズム
Despite being a key bottleneck in many machine learning tasks, the cost of solving large linear systems has proven challenging to quantify due to problem-dependent quantities such as condition numbers.To tackle this, we consider a fine-grained notion of complexity for solving linear systems, which is motivated by applications where the data exhibits low-dimensional structure, including spiked covariance models and kernel machines, and when the linear system is explicitly regularized, such as ridge regression. Concretely, let $\kappa_\ell$ be the ratio between the $\ell$th largest and the smallest singular value of $n\times n$ matrix $A$. We give a stochastic algorithm based on the Sketch-and-Project paradigm, that solves the linear system $Ax=b$ in time $\tilde O(\kappa_\ell\cdot n^2\log1/\epsilon)$ for any $\ell = O(n^{0.729})$.This is a direct improvement over preconditioned conjugate gradient, and it provides a stronger separation between stochastic linear solvers and algorithms accessing $A$ only through matrix-vector products.Our main technical contribution is the new analysis of the first and second moments of the random projection matrix that arises in Sketch-and-Project.
多くの機械学習タスクにおいて主要なボトルネックとなっているにもかかわらず、大規模線形システムを解くコストは、条件数などの問題依存量のために定量化が困難であることが判明しています。この問題に対処するため、我々は線形システムを解くための複雑性というきめ細かな概念を検討します。これは、スパイク共分散モデルやカーネルマシンなど、データが低次元構造を示すアプリケーションや、リッジ回帰のように線形システムが明示的に正則化されている場合に着目したものです。具体的には、$\kappa_\ell$を、$n\times n$行列$A$の$\ell$番目に大きい特異値と最小の特異値の比とします。我々は、スケッチ・アンド・プロジェクションパラダイムに基づく確率的アルゴリズムを提示します。このアルゴリズムは、任意の$\ell = O(n^{0.729})$に対して、線形システム$Ax=b$を時間$\tilde O(\kappa_\ell\cdot n^2\log1/\epsilon)$で解く。これは、前処理付き共役勾配法を直接改良したものであり、確率的線形ソルバーと、行列ベクトル積のみで$A$にアクセスするアルゴリズムとをより明確に区別します。我々の主な技術的貢献は、スケッチ・アンド・プロジェクションで生じるランダム射影行列の第一モーメントと第二モーメントの新しい解析です。
Deep Generative Models: Complexity, Dimensionality, and Approximation
深層生成モデル:複雑性、次元性、および近似
Generative networks have shown remarkable success in learning complex data distributions, particularly in generating high-dimensional data from lower-dimensional inputs. While this capability is well-documented empirically, its theoretical underpinning remains unclear. One common theoretical explanation appeals to the widely accepted manifold hypothesis, which suggests that many real-world datasets, such as images and signals, often possess intrinsic low-dimensional geometric structures. Under this manifold hypothesis, it is widely believed that to approximate a distribution on a $d$-dimensional Riemannian manifold, the latent dimension needs to be at least $d$ or $d+1$. In this work, we show that this requirement on the latent dimension is not necessary by demonstrating that generative networks can approximate distributions on $d$-dimensional Riemannian manifolds from inputs of any arbitrary dimension, even lower than $d$, taking inspiration from the concept of space-filling curves. This approach, in turn, leads to a super-exponential complexity bound of the deep neural networks through expanded neurons. Our findings thus challenge the conventional belief on the relationship between input dimensionality and the ability of generative networks to model data distributions. This novel insight not only corroborates the practical effectiveness of generative networks in handling complex data structures, but also underscores a critical trade-off between approximation error, dimensionality, and model complexity.
生成ネットワークは、複雑なデータ分布の学習、特に低次元入力から高次元データを生成する際に顕著な成功を収めています。この機能は経験的に十分に文書化されていますが、その理論的根拠は依然として不明です。一般的な理論的説明の一つは、広く受け入れられている多様体仮説に依拠します。この仮説は、画像や信号など、多くの現実世界のデータセットが、しばしば本質的な低次元の幾何学的構造を持つというものです。この多様体仮説の下では、$d$次元リーマン多様体上の分布を近似するには、潜在次元が少なくとも$d$または$d+1$である必要があると広く信じられています。本研究では、空間充填曲線の概念に着想を得た生成ネットワークが、$d$よりも低い任意の次元の入力からでも、$d$次元リーマン多様体上の分布を近似できることを示すことにより、潜在次元に関するこの要件は不要であることを示す。このアプローチは、拡張ニューロンを通じて、ディープニューラルネットワークの超指数関数的複雑性境界につながる。したがって、私たちの研究結果は、入力次元と生成ネットワークのデータ分布モデル化能力との関係に関する従来の考えに疑問を投げかけるものです。この新しい洞察は、複雑なデータ構造の処理における生成ネットワークの実際的な有効性を裏付けるだけでなく、近似誤差、次元、およびモデルの複雑さの間の重要なトレードオフを強調しています。
ClimSim-Online: A Large Multi-Scale Dataset and Framework for Hybrid Physics-ML Climate Emulation
ClimSim-Online:大規模マルチスケールデータセットおよびハイブリッド物理学-ML気候エミュレーションのためのフレームワーク
Modern climate projections lack adequate spatial and temporal resolution due to computational constraints, leading to inaccuracies in representing critical processes like thunderstorms that occur on the sub-resolution scale. Hybrid methods combining physics with machine learning (ML) offer faster, higher fidelity climate simulations by outsourcing compute-hungry, high-resolution simulations to ML emulators. However, these hybrid physics-ML simulations require domain-specific data and workflows that have been inaccessible to many ML experts. This paper is an extended version of our NeurIPS award-winning ClimSim dataset paper. The ClimSim dataset includes 5.7 billion pairs of multivariate input/output vectors spanning ten years at high temporal resolution, capturing the influence of high-resolution, high-fidelity physics on a host climate simulator’s macro-scale state. In this extended version, we introduce a significant new contribution in Section 5, which provides a cross-platform, containerized pipeline to integrate ML models into operational climate simulators for hybrid testing. We also implement various baselines of ML models and hybrid simulators to highlight the ML challenges of building stable, skillful emulators. The data (https://huggingface.co/datasets/LEAP/ClimSim_high-res, also in a low-resolution version at https://huggingface.co/datasets/LEAP/ClimSim_low-res and an aquaplanet version at https://huggingface.co/datasets/LEAP/ClimSim_low-res_aqua-planet) and code (https://leap-stc.github.io/ClimSim and https://github.com/leap-stc/climsim-online) are publicly released to support the development of hybrid physics-ML and high-fidelity climate simulations.
現代の気候予測は、計算上の制約により十分な空間解像度と時間解像度を欠いており、解像度以下のスケールで発生する雷雨などの重要なプロセスを不正確に表現することにつながっています。物理学と機械学習(ML)を組み合わせたハイブリッド手法は、計算負荷の高い高解像度シミュレーションをMLエミュレータにアウトソーシングすることで、より高速で忠実度の高い気候シミュレーションを提供します。しかし、これらのハイブリッドな物理学とMLのシミュレーションには、多くのML専門家がアクセスできなかったドメイン固有のデータとワークフローが必要です。本論文は、NeurIPS賞を受賞したClimSimデータセット論文の拡張版です。ClimSimデータセットには、10年間にわたる57億組の多変量入出力ベクトルが高時間分解能で含まれており、高解像度・高忠実度の物理がホスト気候シミュレータのマクロスケール状態に与える影響を捉えています。この拡張版では、第5章で重要な新機能を導入し、ハイブリッドテストのためにMLモデルを運用中の気候シミュレータに統合するためのクロスプラットフォームのコンテナ化パイプラインを提供します。また、安定した高度なエミュレータを構築する際のMLの課題を明らかにするために、様々なMLモデルとハイブリッドシミュレータのベースラインを実装しています。データ(https://huggingface.co/datasets/LEAP/ClimSim_high-res、低解像度版はhttps://huggingface.co/datasets/LEAP/ClimSim_low-res、アクアプラネット版はhttps://huggingface.co/datasets/LEAP/ClimSim_low-res_aqua-planet)とコード(https://leap-stc.github.io/ClimSim、https://github.com/leap-stc/climsim-online)は、ハイブリッド物理-機械学習および高精度気候シミュレーションの開発を支援するために公開されています。
Conditional Wasserstein Distances with Applications in Bayesian OT Flow Matching
ベイズOTフローマッチングにおける条件付きワッサーシュタイン距離の応用
In inverse problems, many conditional generative models approximate the posterior measure by minimizing a distance between the joint measure and its learned approximation. While this approach also controls the distance between the posterior measures in the case of the Kullback–Leibler divergence, the same in general does not hold true for the Wasserstein distance. In this paper, we introduce a conditional Wasserstein distance via a set of restricted couplings that equals the expected Wasserstein distance of the posteriors. Interestingly, the dual formulation of the conditional Wasserstein-1 distance resembles losses in the conditional Wasserstein GAN literature in a quite natural way. We derive theoretical properties of the conditional Wasserstein distance, characterize the corresponding geodesics and velocity fields as well as the flow ODEs. Subsequently, we propose to approximate the velocity fields by relaxing the conditional Wasserstein distance. Based on this, we propose an extension of OT Flow Matching for solving Bayesian inverse problems and demonstrate its numerical advantages on an inverse problem and class-conditional image generation.
逆問題では、多くの条件付き生成モデルは、結合測度と学習した近似値との間の距離を最小化することで事後測度を近似します。このアプローチは、カルバック・ライブラー情報の場合にも事後測度間の距離を制御するが、ワッサーシュタイン距離には一般に同じことが当てはまらない。本稿では、事後分布の期待ワッサーシュタイン距離に等しい、制限された結合のセットを介して条件付きワッサーシュタイン距離を導入します。興味深いことに、条件付きワッサーシュタイン-1距離の双対定式化は、条件付きワッサーシュタインGAN文献における損失と非常に自然に類似しています。我々は条件付きワッサーシュタイン距離の理論的特性を導出し、対応する測地線と速度場、およびフロー常微分方程式を特徴付ける。続いて、条件付きワッサーシュタイン距離を緩和することで速度場を近似することを提案します。これに基づき、ベイズ逆問題を解くためのOTフローマッチングの拡張を提案し、逆問題とクラス条件付き画像生成における数値的利点を示す。
Deep Variational Multivariate Information Bottleneck – A Framework for Variational Losses
深層変分多変量情報ボトルネック – 変分損失の枠組み
Variational dimensionality reduction methods are widely used for their accuracy, generative capabilities, and robustness. We introduce a unifying framework that generalizes both such as traditional and state-of-the-art methods. The framework is based on an interpretation of the multivariate information bottleneck, trading off the information preserved in an encoder graph (defining what to compress) against that in a decoder graph (defining a generative model for data). Using this approach, we rederive existing methods, including the deep variational information bottleneck, variational autoencoders, and deep multiview information bottleneck. We naturally extend the deep variational CCA (DVCCA) family to beta-DVCCA and introduce a new method, the deep variational symmetric information bottleneck (DVSIB). DSIB, the deterministic limit of DVSIB, connects to modern contrastive learning approaches such as Barlow Twins, among others. We evaluate these methods on Noisy MNIST and Noisy CIFAR-100, showing that algorithms better matched to the structure of the problem like DVSIB and beta-DVCCA produce better latent spaces as measured by classification accuracy, dimensionality of the latent variables, sample efficiency, and consistently outperform other approaches under comparable conditions. Additionally, we benchmark against state-of-the-art models, achieving superior or competitive accuracy. Our results demonstrate that this framework can seamlessly incorporate diverse multi-view representation learning algorithms, providing a foundation for designing novel, problem-specific loss functions.
変分次元削減法は、その精度、生成能力、そして堅牢性から広く用いられています。本稿では、従来の手法と最先端の手法の両方を一般化する統一的な枠組みを導入します。この枠組みは、多変量情報ボトルネックの解釈に基づいており、エンコーダグラフ(圧縮対象を定義)に保存される情報とデコーダグラフ(データの生成モデルを定義)に保存される情報をトレードオフします。このアプローチを用いて、深層変分情報ボトルネック、変分オートエンコーダ、深層マルチビュー情報ボトルネックといった既存の手法を再導出します。深層変分CCA(DVCCA)ファミリーをベータDVCCAに自然に拡張し、深層変分対称情報ボトルネック(DVSIB)という新しい手法を導入します。DVSIBの決定論的極限であるDSIBは、Barlow Twinsなどの現代的な対照学習手法と連携します。これらの手法をNoisy MNISTおよびNoisy CIFAR-100で評価した結果、問題の構造により適合したDVSIBやbeta-DVCCAなどのアルゴリズムは、分類精度、潜在変数の次元数、サンプル効率の観点から、より優れた潜在空間を生成し、同等の条件下では他の手法を一貫して上回ることがわかりました。さらに、最先端モデルとのベンチマークテストを実施し、優れた、あるいは競合する精度を達成しました。この結果は、このフレームワークが多様なマルチビュー表現学習アルゴリズムをシームレスに統合できることを示しており、問題固有の新しい損失関数を設計するための基盤を提供します。
Diffeomorphism-based feature learning using Poincaré inequalities on augmented input space
拡張入力空間におけるポアンカレ不等式を用いた微分同相写像に基づく特徴学習
We propose a gradient-enhanced algorithm for high-dimensional function approximation.The algorithm proceeds in two steps: firstly, we reduce the input dimension by learning the relevant input features from gradient evaluations, and secondly, we regress the function output against the pre-learned features. To ensure theoretical guarantees, we construct the feature map as the first components of a diffeomorphism, which we learn by minimizing an error bound obtained using Poincaré Inequality applied either in the input space or in the feature space. This leads to two different strategies, which we compare both theoretically and numerically and relate to existing methods in the literature.In addition, we propose a dimension augmentation trick to increase the approximation power of feature detection.A generalization to vector-valued functions demonstrate that our methodology directly applies to learning autoencoders. Here, we approximate the identity function over a given dataset by a composition of feature map (encoder) with the regression function (decoder). In practice, we construct the diffeomorphism using coupling flows, a particular class of invertible neural networks.Numerical experiments on various high-dimensional functions show that the proposed algorithm outperforms state-of-the-art competitors, especially with small datasets.
高次元関数近似のための勾配強化アルゴリズムを提案します。このアルゴリズムは2つのステップで進行します。まず、勾配評価から関連する入力特徴を学習することで入力次元を削減し、次に関数出力を事前学習済みの特徴に対して回帰させる。理論的な保証を確保するために、特徴マップを微分同相写像の最初の要素として構築します。これは、入力空間または特徴空間のいずれかに適用されたポアンカレ不等式を使用して得られた誤差境界を最小化することで学習します。これにより2つの異なる戦略が導き出され、理論的および数値的に比較し、文献の既存の手法と関連付ける。さらに、特徴検出の近似力を高めるための次元拡張トリックを提案します。ベクトル値関数への一般化は、この方法論がオートエンコーダの学習に直接適用できることを示しています。ここでは、特徴マップ(エンコーダ)と回帰関数(デコーダ)の合成により、特定のデータセット上の恒等関数を近似します。実際には、可逆ニューラルネットワークの一種であるカップリングフローを用いて微分同相写像を構築します。様々な高次元関数に対する数値実験により、提案アルゴリズムは、特に小規模データセットにおいて、最先端の競合アルゴリズムよりも優れた性能を示すことが示されました。
Finite Expression Method for Solving High-Dimensional Partial Differential Equations
高次元偏微分方程式を解くための有限表現法
Designing efficient and accurate numerical solvers for high-dimensional partial differential equations (PDEs) remains a challenging and important topic in computational science and engineering, mainly due to the “curse of dimensionality” in designing numerical schemes that scale in dimension. This paper introduces a new methodology that seeks an approximate PDE solution in the space of functions with finitely many analytic expressions and, hence, this methodology is named the finite expression method (FEX). It is proved in approximation theory that FEX can avoid the curse of dimensionality. As a proof of concept, a deep reinforcement learning method is proposed to implement FEX for various high-dimensional PDEs in different dimensions, achieving high and even machine accuracy with a memory complexity polynomial in dimension and an amenable time complexity. An approximate solution with finite analytic expressions also provides interpretable insights into the ground truth PDE solution, which can further help to advance the understanding of physical systems and design postprocessing techniques for a refined solution.
高次元偏微分方程式(PDE)に対する効率的かつ高精度な数値ソルバーの設計は、計算科学および工学において依然として難題であり、重要な課題です。これは主に、次元スケールの数値スキームの設計における「次元の呪い」に起因しています。本論文では、有限個の解析式を持つ関数の空間において近似PDE解を求める新しい手法を導入します。この手法は有限式法(FEX)と名付けられています。近似理論において、FEXは次元の呪いを回避できることが証明されています。概念実証として、様々な次元の高次元PDEに対してFEXを実装するための深層強化学習法を提案します。この手法は、次元の多項式のようなメモリ複雑度と、許容可能な時間計算量で、高い機械精度を実現します。有限解析式を持つ近似解は、真のPDE解に関する解釈可能な洞察も提供し、物理システムの理解を深め、より洗練された解を得るための後処理技術の設計に役立ちます。
Randomly Projected Convex Clustering Model: Motivation, Realization, and Cluster Recovery Guarantees
ランダム射影凸クラスタリングモデル:動機付け、実現、およびクラスター回復保証
In this paper, we propose a randomly projected convex clustering model for clustering a collection of $n$ high dimensional data points in $\mathbb{R}^d$ with $K$ hidden clusters. Compared to the convex clustering model for clustering original data with dimension $d$, we prove that, under some mild conditions, the perfect recovery of the cluster membership assignments of the convex clustering model, if exists, can be preserved by the randomly projected convex clustering model with embedding dimension $m = O(\epsilon^{-2}\log(n))$, where $\epsilon > 0$ is some given parameter. We further prove that the embedding dimension can be improved to be $O(\epsilon^{-2}\log(K))$, which is independent of the number of data points. We also establish the recovery guarantees of our proposed model with uniform weights for clustering a mixture of spherical Gaussians. Extensive numerical results demonstrate the robustness and superior performance of the randomly projected convex clustering model. The numerical results will also demonstrate that the randomly projected convex clustering model can outperform other popular clustering models on the dimension-reduced data, including the randomly projected K-means model.
本論文では、$\mathbb{R}^d$内の$n$個の高次元データ点の集合を$K$個の隠れクラスターでクラスタリングするための、ランダム射影凸クラスタリングモデルを提案します。次元$d$の元データをクラスタリングするための凸クラスタリングモデルと比較して、ある緩やかな条件下では、凸クラスタリングモデルのクラスターメンバーシップ割り当ての完全回復(存在する場合)が、埋め込み次元$m = O(\epsilon^{-2}\log(n))$($\epsilon > 0$は与えられたパラメータ)を持つランダム射影凸クラスタリングモデルによって維持できることを証明します。さらに、埋め込み次元をデータ点の数に依存しない$O(\epsilon^{-2}\log(K))$まで改善できることを証明します。また、球状ガウス分布の混合クラスタリングにおいて、均一な重みを持つ提案モデルの回復保証を確立します。広範な数値結果により、ランダム射影凸クラスタリングモデルの堅牢性と優れた性能が実証されます。さらに、数値結果は、ランダム射影凸クラスタリングモデルが、次元削減データにおいて、ランダム射影K平均法モデルを含む他の一般的なクラスタリングモデルよりも優れた性能を発揮できることも示します。
Minimax Optimal Deep Neural Network Classifiers Under Smooth Decision Boundary
滑らかな決定境界下におけるミニマックス最適深層ニューラルネットワーク分類器
Deep learning has gained huge empirical successes in large-scale classification problems. In contrast, there is a lack of statistical understanding about deep learning methods, particularly in the minimax optimality perspective. For instance, in the classical smooth decision boundary setting, existing deep neural network (DNN) approaches are rate-suboptimal, and it remains elusive how to construct minimax optimal DNN classifiers. Moreover, it is interesting to explore whether DNN classifiers can circumvent the “curse of dimensionality” in handling high-dimensional data. The contributions of this paper are two-fold. First, based on a localized margin framework, we discover the source of suboptimality of existing DNN approaches. Motivated by this, we propose a new deep learning classifier using a divide-and-conquer technique: DNN classifiers are constructed on each local region and then aggregated to a global one. We further propose a localized version of the classical Tsybakov’s noise condition, under which statistical optimality of our new classifier is established. Second, we show that DNN classifiers can adapt to low-dimensional data structures and circumvent the “curse of dimensionality” in the sense that the minimax rate only depends on the effective dimension, potentially much smaller than the actual data dimension. Numerical experiments are conducted on simulated data to corroborate our theoretical results.
ディープラーニングは、大規模分類問題において大きな実証的成功を収めています。一方で、特にミニマックス最適性の観点から、ディープラーニング手法に関する統計的理解は不足しています。例えば、古典的な滑らかな決定境界設定において、既存のディープニューラルネットワーク(DNN)アプローチはレート準最適であり、ミニマックス最適なDNN分類器を構築する方法は依然として不明です。さらに、DNN分類器が高次元データの処理における「次元の呪い」を回避できるかどうかを探ることは興味深いことです。本論文の貢献は2つあります。まず、局所的なマージンフレームワークに基づいて、既存のDNNアプローチの準最適性の原因を明らかにします。これに着目し、分割統治法を用いた新しいディープラーニング分類器を提案します。この手法では、各局所領域ごとにDNN分類器を構築し、それらをグローバル領域に集約します。さらに、古典的なツィバコフのノイズ条件の局所版を提案し、この条件下で新しい分類器の統計的最適性が確立されます。第二に、DNN分類器は低次元データ構造に適応し、「次元の呪い」を回避できることを示す。つまり、ミニマックス率は実効次元のみに依存し、実データ次元よりもはるかに小さい可能性があります。数値実験はシミュレーションデータを用いて行い、理論結果を裏付ける。
Optimal and Efficient Algorithms for Decentralized Online Convex Optimization
分散型オンライン凸最適化のための最適かつ効率的なアルゴリズム
We investigate decentralized online convex optimization (D-OCO), in which a set of local learners are required to minimize a sequence of global loss functions using only local computations and communications. Previous studies have established $O(n^{5/4}\rho^{-1/2}\sqrt{T})$ and ${O}(n^{3/2}\rho^{-1}\log T)$ regret bounds for convex and strongly convex functions respectively, where $n$ is the number of local learners, $\rho<1$ is the spectral gap of the communication matrix, and $T$ is the time horizon. However, there exist large gaps from the existing lower bounds, i.e., $\Omega(n\sqrt{T})$ for convex functions and $\Omega(n)$ for strongly convex functions. To fill these gaps, in this paper, we first develop a novel D-OCO algorithm that can respectively reduce the regret bounds for convex and strongly convex functions to $\tilde{O}(n\rho^{-1/4}\sqrt{T})$ and $\tilde{O}(n\rho^{-1/2}\log T)$. The primary technique is to design an online accelerated gossip strategy that enjoys a faster average consensus among local learners. Furthermore, by carefully exploiting spectral properties of a specific network topology, we enhance the lower bounds for convex and strongly convex functions to $\Omega(n\rho^{-1/4}\sqrt{T})$ and $\Omega(n\rho^{-1/2}\log T)$, respectively. These results suggest that the regret of our algorithm is nearly optimal in terms of $T$, $n$, and $\rho$ for both convex and strongly convex functions. Finally, we propose a projection-free variant of our algorithm to efficiently handle practical applications with complex constraints. Our analysis reveals that the projection-free variant can achieve ${O}(nT^{3/4})$ and ${O}(nT^{2/3}(\log T)^{1/3})$ regret bounds for convex and strongly convex functions with nearly optimal $\tilde{O}(\rho^{-1/2}\sqrt{T})$ and $\tilde{O}(\rho^{-1/2}T^{1/3}(\log T)^{2/3})$ communication rounds, respectively.
我々は分散型オンライン凸最適化(D-OCO)を研究します。D-OCOでは、局所学習器の集合が局所的な計算と通信のみを用いて、大域損失関数のシーケンスを最小化する必要があります。これまでの研究では、凸関数と強凸関数に対してそれぞれ$O(n^{5/4}\rho^{-1/2}\sqrt{T})$と${O}(n^{3/2}\rho^{-1}\log T)$の後悔境界を確立しています。ここで、$n$は局所学習器の数、$\rho<1$は通信行列のスペクトルギャップ、$T$は時間範囲です。しかし、既存の下限、すなわち凸関数の場合は$\Omega(n\sqrt{T})$、強凸関数の場合は$\Omega(n)$との差は大きい。これらのギャップを埋めるために、本稿ではまず、凸関数と強凸関数の後悔境界をそれぞれ$\tilde{O}(n\rho^{-1/4}\sqrt{T})$と$\tilde{O}(n\rho^{-1/2}\log T)$に低減できる新しいD-OCOアルゴリズムを開発します。主な手法は、ローカル学習者間で平均合意がより高速になるオンライン加速ゴシップ戦略を設計することです。さらに、特定のネットワーク トポロジのスペクトル特性を慎重に利用することで、凸関数と強凸関数の下限をそれぞれ$\Omega(n\rho^{-1/4}\sqrt{T})$と$\Omega(n\rho^{-1/2}\log T)$に拡張します。これらの結果は、凸関数と強凸関数の両方について、このアルゴリズムの後悔が$T$、$n$、および$\rho$に関してほぼ最適であることを示唆しています。最後に、複雑な制約を持つ実用的なアプリケーションを効率的に処理するために、射影を必要としないアルゴリズムを提案します。解析の結果、射影を必要としないアルゴリズムは、凸関数および強凸関数に対して、それぞれほぼ最適な通信ラウンド数である$\tilde{O}(\rho^{-1/2}\sqrt{T})$および$\tilde{O}(\rho^{-1/2}T^{1/3}(\log T)^{2/3})$で、${O}(nT^{3/4})$および${O}(nT^{2/3}(\log T)^{1/3})$の後悔境界を達成できることが明らかになった。
Characterizing Dynamical Stability of Stochastic Gradient Descent in Overparameterized Learning
過パラメータ化学習における確率的勾配降下法の動的安定性の特性評価
For overparameterized optimization tasks, such as those found in modern machine learning, global minima are generally not unique. In order to understand generalization in these settings, it is vital to study to which minimum an optimization algorithm converges. The possibility of having minima that are unstable under the dynamics imposed by the optimization algorithm limits the potential minima that the algorithm can find. In this paper, we characterize the global minima that are dynamically stable/unstable for both deterministic and stochastic gradient descent (SGD). In particular, we introduce a characteristic Lyapunov exponent that depends on the local dynamics around a global minimum and rigorously prove that the sign of this Lyapunov exponent determines whether SGD can accumulate at the respective global minimum.
現代の機械学習に見られるような過剰パラメータ化された最適化タスクの場合、大域的最小値は一般に一意ではありません。このような設定における一般化を理解するためには、最適化アルゴリズムがどの最小値に収束するかを調べることが不可欠です。最適化アルゴリズムによって課されるダイナミクスの下で不安定な最小値を持つ可能性は、アルゴリズムが見つけることができる潜在的な最小値を制限します。本稿では、決定論的勾配降下法(SGD)と確率的勾配降下法(SGD)の両方において、動的に安定/不安定な大域的最小値を特徴付けます。特に、我々は大域的最小値の周りの局所的ダイナミクスに依存する特性リャプノフ指数を導入し、このリャプノフ指数の符号によってSGDがそれぞれの大域的最小値で蓄積できるかどうかが決まるということを厳密に証明します。
PREMAP: A Unifying PREiMage APproximation Framework for Neural Networks
PREMAP:ニューラルネットワークのための統一的なPREiMage近似フレームワーク
Most methods for neural network verification focus on bounding the image, i.e., set of outputs for a given input set. This can be used to, for example, check the robustness of neural network predictions to bounded perturbations of an input. However, verifying properties concerning the preimage, i.e., the set of inputs satisfying an output property, requires abstractions in the input space. We present a general framework for preimage abstraction that produces under- and over-approximations of any polyhedral output set. Our framework employs cheap parameterised linear relaxations of the neural network, together with an anytime refinement procedure that iteratively partitions the input region by splitting on input features and neurons. The effectiveness of our approach relies on carefully designed heuristics and optimisation objectives to achieve rapid improvements in the approximation volume. We evaluate our method on a range of tasks, demonstrating significant improvement in efficiency and scalability to high-input-dimensional image classification tasks compared to state-of-the-art techniques. Further, we showcase the application to quantitative verification and robustness analysis, presenting a sound and complete algorithm for the former and providing sound quantitative results for the latter.
ニューラルネットワーク検証のためのほとんどの手法は、イメージ、すなわち与えられた入力セットに対する出力セットの境界設定に焦点を当てています。これは、例えば、入力の境界設定による摂動に対するニューラルネットワーク予測の堅牢性を確認するために使用できます。しかし、前イメージ、すなわち出力プロパティを満たす入力セットに関する特性を検証するには、入力空間の抽象化が必要となります。本稿では、任意の多面体出力セットの過小近似および過大近似を生成する、前イメージ抽象化のための一般的なフレームワークを提示します。本フレームワークは、ニューラルネットワークの安価なパラメータ化線形緩和と、入力特徴とニューロンを分割することで入力領域を反復的に分割する随時改良手順を採用します。我々のアプローチの有効性は、近似値の急速な改善を達成するために、慎重に設計されたヒューリスティックスと最適化目標に依存しています。我々は様々なタスクで我々の手法を評価し、最先端の技術と比較して、高入力次元画像分類タスクに対する効率性とスケーラビリティが大幅に向上することを実証しました。さらに、定量的検証とロバスト性分析への応用を示し、前者については健全で完全なアルゴリズムを提示し、後者については健全な定量的結果を提供します。
Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability
局所リアプノフ安定性を用いたスコアを考慮した方策勾配と性能保証
In this paper, we introduce a policy-gradient method for model-based reinforcement learning (RL) that exploits a type of stationary distributions commonly obtained from Markov decision processes (MDPs) in stochastic networks, queueing systems, and statistical mechanics. Specifically, when the stationary distribution of the MDP belongs to an exponential family that is parametrized by policy parameters, we can improve existing policy gradient methods for average-reward RL. Our key identification is a family of gradient estimators, called score-aware gradient estimators (SAGEs), that enable policy gradient estimation without relying on value-function estimation in the aforementioned setting. We show that SAGE-based policy-gradient locally converges, and we obtain its regret. This includes cases when the state space of the MDP is countable and unstable policies can exist. Under appropriate assumptions such as starting sufficiently close to a maximizer and the existence of a local Lyapunov function, the policy under SAGE-based stochastic gradient ascent has an overwhelming probability of converging to the associated optimal policy. Furthermore, we conduct a numerical comparison between a SAGE-based policy-gradient method and an actor-critic method on several examples inspired from stochastic networks, queueing systems, and models derived from statistical physics. Our results demonstrate that a SAGE-based method finds close-to-optimal policies faster than an actor-critic method.
本稿では、確率ネットワーク、待ち行列システム、統計力学におけるマルコフ決定過程(MDP)から一般的に得られる定常分布の一種を利用する、モデルベース強化学習(RL)のための方策勾配法を紹介します。具体的には、MDPの定常分布が方策パラメータによってパラメータ化された指数分布族に属する場合、平均報酬RLのための既存の方策勾配法を改良することができます。本稿の鍵となるのは、スコアを考慮した勾配推定量(SAGE)と呼ばれる勾配推定量の族であり、これは前述の設定において価値関数推定に依存せずに方策勾配推定を可能にします。SAGEベースの方策勾配が局所収束することを示し、そのリグレットを求める。これには、MDPの状態空間が可算であり、不安定な方策が存在する可能性がある場合も含まれます。最大化器に十分近い位置から開始することや、局所リアプノフ関数が存在することなどの適切な仮定の下では、SAGEベースの確率的勾配上昇法による方策は、関連する最適方策に収束する確率が非常に高い。さらに、確率ネットワーク、待ち行列システム、統計物理学由来のモデルに着想を得たいくつかの例を用いて、SAGEベースの方策勾配法とアクタークリティック法の数値比較を行う。その結果、SAGEベースの手法はアクタークリティック法よりも最適に近い方策をより高速に発見できることが明らかになった。
On the O(sqrt(d)/T^(1/4)) Convergence Rate of RMSProp and Its Momentum Extension Measured by l_1 Norm
l_1ノルムで測定したRMSPropとそのモメンタム拡張のO(sqrt(d)/T^(1/4))収束速度について
Although adaptive gradient methods have been extensively used in deep learning, their convergence rates proved in the literature are all slower than that of SGD, particularly with respect to their dependence on the dimension. This paper considers the classical RMSProp and its momentum extension and establishes the convergence rate of $\frac{1}{T}\sum_{k=1}^TE\left[||\nabla f(\mathbf{x}^k)||_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$ measured by $\ell_1$ norm without the bounded gradient assumption, where $d$ is the dimension of the optimization variable, $T$ is the iteration number, and $C$ is a constant identical to that appeared in the optimal convergence rate of SGD. Our convergence rate matches the lower bound with respect to all the coefficients except the dimension $d$. Since $||\mathbf{x}||_2\ll ||\mathbf{x}||_1\leq\sqrt{d}||\mathbf{x}||_2$ for problems with extremely large $d$, our convergence rate can be considered to be analogous to the $\frac{1}{T}\sum_{k=1}^TE\left[||\nabla f(\mathbf{x}^k)||_2\right]\leq O(\frac{C}{T^{1/4}})$ rate of SGD in the ideal case of $||\nabla f(\mathbf{x})||_1=\varTheta(\sqrt{d})||\nabla f(\mathbf{x})||_2$.
適応勾配法は深層学習で広く使用されていますが、文献で証明されている収束速度はすべてSGDよりも遅く、特に次元への依存性に関しては顕著です。本論文では、古典的なRMSPropとそのモメンタム拡張を考察し、有界勾配仮定を用いずに$\ell_1$ノルムで測定した収束速度$\frac{1}{T}\sum_{k=1}^TE\left[||\nabla f(\mathbf{x}^k)||_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$を確立します。ここで、$d$は最適化変数の次元、$T$は反復回数、$C$はSGDの最適収束速度に現れる定数と同一です。我々の収束速度は、次元$d$を除くすべての係数に関して下限値と一致します。極めて大きな$d$を持つ問題では$||\mathbf{x}||_2\ll ||\mathbf{x}||_1\leq\sqrt{d}||\mathbf{x}||_2$となるため、収束率は理想的なケースである$||\nabla f(\mathbf{x})||_1=\varTheta(\sqrt{d})||\nabla f(\mathbf{x})||_2$でのSGDの収束率$\frac{1}{T}\sum_{k=1}^TE\left[||\nabla f(\mathbf{x}^k)||_2\right]\leq O(\frac{C}{T^{1/4}})$に類似していると考えられます。
Categorical Semantics of Compositional Reinforcement Learning
構成的強化学習のカテゴリカルセマンティクス
Compositional knowledge representations in reinforcement learning (RL) facilitate modular, interpretable, and safe task specifications. However, generating compositional models requires the characterization of minimal assumptions for the robustness of the compositionality feature, especially in the case of functional decompositions. Using a categorical point of view, we develop a knowledge representation framework for a compositional theory of RL. Our approach relies on the theoretical study of the category $\mathsf{MDP}$, whose objects are Markov decision processes (MDPs) acting as models of tasks. The categorical semantics models the compositionality of tasks through the application of pushout operations akin to combining puzzle pieces. As a practical application of these pushout operations, we introduce zig-zag diagrams that rely on the compositional guarantees engendered by the category $\mathsf{MDP}$. We further prove that properties of the category $\mathsf{MDP}$ unify concepts, such as enforcing safety requirements and exploiting symmetries, generalizing previous abstraction theories for RL.
強化学習(RL)における構成的知識表現は、モジュール化され、解釈可能で、安全なタスク仕様の記述を容易にします。しかし、構成モデルを生成するには、特に機能分解の場合、構成性特性の堅牢性に関する最小限の仮定を特徴付ける必要があります。カテゴリカルな観点から、我々はRLの構成理論のための知識表現フレームワークを開発します。我々のアプローチは、タスクモデルとして機能するマルコフ決定過程(MDP)を対象とするカテゴリ$\mathsf{MDP}$の理論的研究に基づいています。カテゴリカルセマンティクスは、パズルのピースを組み合わせるようなプッシュアウト操作を適用することで、タスクの合成性をモデル化します。これらのプッシュアウト操作の実際的な応用として、カテゴリ$\mathsf{MDP}$によってもたらされる合成保証に依存するジグザグ図を導入します。さらに、カテゴリ$\mathsf{MDP}$の特性が、安全要件の強制や対称性の活用などの概念を統合し、強化学習のための従来の抽象化理論を一般化することを証明します。
Transformers from Diffusion: A Unified Framework for Neural Message Passing
拡散からのトランスフォーマー:ニューラルメッセージパッシングのための統一フレームワーク
Learning representations for structured data with certain geometries (e.g., observed or unobserved) is a fundamental challenge, wherein message passing neural networks (MPNNs) have become a de facto class of model solutions. In this paper, inspired by physical systems, we propose an energy-constrained diffusion model, which integrates the inductive bias of diffusion on manifolds with layer-wise constraints of energy minimization. We identify that the diffusion operators have a one-to-one correspondence with the energy functions implicitly descended by the diffusion process, and the finite-difference iteration for solving the energy-constrained diffusion system induces the propagation layers of various types of MPNNs operating on observed or latent structures. This leads to a unified mathematical framework for common neural architectures whose computational flows can be cast as message passing (or its special case), including MLPs, GNNs, and Transformers. Building on these insights, we devise a new class of neural message passing models, dubbed diffusion-inspired Transformers (DIFFormer), whose global attention layers are derived from the principled energy-constrained diffusion framework. Across diverse datasets ranging from real-world networks to images, texts, and physical particles, we demonstrate that the new model achieves promising performance in scenarios where the data structures are observed (as a graph), partially observed, or entirely unobserved.
特定の形状(観測済みまたは観測されていない形状など)を持つ構造化データの表現を学習することは根本的な課題であり、メッセージパッシングニューラルネットワーク(MPNN)は、そのモデルソリューションの事実上のクラスとなっています。本稿では、物理システムに着想を得て、多様体上の拡散の帰納的バイアスと層ごとのエネルギー最小化制約を統合したエネルギー制約拡散モデルを提案します。拡散演算子は拡散過程によって暗黙的に降下するエネルギー関数と1対1に対応し、エネルギー制約拡散システムを解くための差分反復法は、観測済みまたは潜在的構造上で動作する様々なタイプのMPNNの伝播層を誘導します。これにより、MLP、GNN、Transformerなど、計算フローをメッセージパッシング(またはその特殊ケース)として表現できる一般的なニューラルアーキテクチャのための統一的な数学的フレームワークが実現されます。これらの知見に基づき、我々は拡散に着想を得たトランスフォーマー(DIFFormer)と名付けた新しいクラスのニューラルメッセージパッシングモデルを考案します。このモデルのグローバルアテンション層は、原理的にエネルギー制約のある拡散フレームワークから派生したものです。実世界のネットワークから画像、テキスト、物理粒子に至るまで、多様なデータセットにおいて、この新しいモデルが、データ構造が(グラフとして)観測されるシナリオ、部分的に観測されるシナリオ、あるいは全く観測されないシナリオにおいて、有望な性能を発揮することを実証します。
Optimal Sample Selection Through Uncertainty Estimation and Its Application in Deep Learning
不確実性推定による最適サンプル選択と深層学習への応用
Modern deep learning heavily relies on large labeled datasets, which often comse with high costs in terms of both manual labeling and computational resources. To mitigate these challenges, researchers have explored the use of informative subset selection techniques. In this study, we present a theoretically optimal solution for addressing both sampling with and without labels within the context of linear softmax regression. Our proposed method, COPS (unCertainty based OPtimal Sub-sampling), is designed to minimize the expected loss of a model trained on subsampled data. Unlike existing approaches that rely on explicit calculations of the inverse covariance matrix, which are not easily applicable to deep learning scenarios, COPS leverages the model’s logits to estimate the sampling ratio. This sampling ratio is closely associated with model uncertainty and can be effectively applied to deep learning tasks. Furthermore, we address the challenge of model sensitivity to misspecification by incorporating a down-weighting approach for low-density samples, drawing inspiration from previous works. To assess the effectiveness of our proposed method, we conducted extensive empirical experiments using deep neural networks on benchmark datasets. The results consistently showcase the superior performance of COPS compared to baseline methods, reaffirming its efficacy.
現代の深層学習は、大規模なラベル付きデータセットに大きく依存しており、多くの場合、手作業によるラベル付けと計算リソースの両方の点で高いコストがかかります。これらの課題を軽減するために、研究者は有益なサブセット選択手法の使用を検討してきました。本研究では、線形ソフトマックス回帰のコンテキスト内で、ラベル付きとラベルなしの両方のサンプリングに対処するための理論的に最適なソリューションを提示します。我々の提案手法であるCOPS (不確実性に基づく最適サブサンプリング)は、サブサンプリングされたデータでトレーニングされたモデルの期待損失を最小化するように設計されています。逆共分散行列の明示的な計算に依存する既存のアプローチとは異なり、ディープラーニングのシナリオに簡単に適用することはできませんが、COPSはモデルのロジットを活用してサンプリング比を推定します。このサンプリング比はモデルの不確実性と密接に関連しており、ディープラーニングタスクに効果的に適用できます。さらに、以前の研究からインスピレーションを得て、低密度サンプルの重み付けを下げるアプローチを組み込むことで、誤指定に対するモデルの感度の課題に対処します。提案手法の有効性を評価するために、ベンチマークデータセットでディープニューラルネットワークを使用して広範な実証実験を実施しました。結果は、ベースライン手法と比較してCOPSの優れたパフォーマンスを一貫して示しており、その有効性を再確認しました。
Actor-Critic learning for mean-field control in continuous time
連続時間における平均場制御のためのアクター・クリティック学習
We study policy gradient for mean-field control in continuous time in a reinforcement learning setting. By considering randomised policies with entropy regularisation, we derive a gradient expectation representation of the value function, which is amenable to actor-critic type algorithms, where the value functions and the policies are learnt alternately based on observation samples of the state and model-free estimation of the population state distribution, either by offline or online learning. In the linear-quadratic mean-field framework, we obtain an exact parametrisation of the actor and critic functions defined on the Wasserstein space. Finally, we illustrate the results of our algorithms with some numerical experiments on concrete examples.
強化学習環境における連続時間での平均場制御のための方策勾配を研究します。エントロピー正則化を用いたランダム化ポリシーを考慮することで、価値関数の勾配期待値表現を導出します。これは、アクター・クリティック型アルゴリズムに適しています。このアルゴリズムでは、価値関数とポリシーは、オフライン学習またはオンライン学習によって、状態の観測サンプルと母集団状態分布のモデルフリー推定に基づいて交互に学習されます。線形二次平均場フレームワークでは、ワッサーシュタイン空間で定義されたアクター関数とクリティック関数の正確なパラメーター化を取得します。最後に、具体的な例を用いた数値実験により、アルゴリズムの結果を示します。
Modelling Populations of Interaction Networks via Distance Metrics
距離メトリクスを用いた相互作用ネットワーク集団のモデリング
Network data arises through the observation of relational information between a collection of entities, for example, friendships (relations) amongst a sample of people (entities). Traditionally, statistical models of such data have been developed to analyse a single network, that is, a single collection of entities and relations. More recently, attention has shifted to analysing samples of networks. A driving force has been the analysis of connectome data, arising in neuroscience applications, where a single network is observed for each patient in a study. These models typically assume, within each network, the entities are the units of observation, that is, more data equates to including more entities. However, an alternative paradigm considers relations—such as edges or paths—as the observational units, exemplified by email exchanges or user navigations across a website. This interaction network framework has generally been applied to single networks, without extending to the case where multiple such networks are observed, for instance, analysing navigation patterns from many users. Motivated by this gap, we propose a new Bayesian modelling framework to analyse such data. Our approach is based on practitioner-specified distance metrics between networks, allowing us to parameterise models analogous to Gaussian distributions in network space, using location and scale parameters. We address the key challenge of defining meaningful distances between interaction networks, proposing two new metrics with theoretical guarantees and practical computation strategies. To enable efficient Bayesian inference, we develop specialised Markov chain Monte Carlo (MCMC) algorithms within the involutive MCMC (iMCMC) framework, tailored to the doubly-intractable and discrete nature of the induced posteriors. Through simulation studies, we demonstrate the robustness and efficiency of our approach, and we showcase its applicability with a case study on a location-based social network (LSBN) dataset.
ネットワークデータは、エンティティの集合間の関係情報を観察することで生じます。例えば、一群の人々(エンティティ)間の友情(関係)などです。従来、このようなデータの統計モデルは、単一のネットワーク、つまり単一のエンティティと関係の集合を分析するために開発されてきました。近年、ネットワークのサンプルを分析することに注目が集まっています。その原動力となったのは、神経科学分野で生まれたコネクトームデータの分析です。コネクトームデータでは、研究において患者ごとに単一のネットワークが観察されます。これらのモデルでは通常、各ネットワーク内においてエンティティが観察単位であると想定されます。つまり、データが多いほどエンティティの数も増えます。しかし、別のパラダイムでは、電子メールのやり取りやウェブサイト上のユーザーナビゲーションに代表されるように、エッジやパスなどの関係を観察単位とみなします。この相互作用ネットワークフレームワークは、一般的に単一のネットワークに適用されており、複数のネットワークが観察される場合、例えば多数のユーザーのナビゲーションパターンを分析する場合などには適用されていません。このギャップに着目し、我々はそのようなデータを分析するための新しいベイズモデリングフレームワークを提案します。我々のアプローチは、専門家が指定したネットワーク間の距離メトリクスに基づいており、位置パラメータとスケールパラメータを用いて、ネットワーク空間におけるガウス分布に類似したモデルをパラメータ化することを可能にします。我々は、相互作用ネットワーク間の意味のある距離を定義するという重要な課題に取り組むため、理論的な保証と実用的な計算戦略を備えた2つの新しいメトリクスを提案します。効率的なベイズ推論を可能にするために、我々は、誘導事後分布の二重に扱いにくく離散的な性質に合わせて調整された、involutive MCMC (iMCMC)フレームワーク内で、特殊なマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを開発します。シミュレーション研究を通じて、我々はこのアプローチの堅牢性と効率性を実証し、位置情報に基づくソーシャルネットワーク(LSBN)データセットのケーススタディによってその適用性を示す。
BitNet: 1-bit Pre-training for Large Language Models
BitNet:大規模言語のための1ビット事前学習モデル
The increasing size of large language models (LLMs) has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. Previous research typically applies quantization after pre-training. While these methods avoid the need for model retraining, they often cause notable accuracy loss at extremely low bit-widths. In this work, we explore the feasibility and scalability of 1-bit pre-training. We introduce BitNet b1 and BitNet b1.58, the scalable and stable 1-bit Transformer architecture designed for LLMs. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results show that BitNet b1 achieves competitive performance, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. With the ternary weight, BitNet b1.58 matches the half-precision Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, BitNet defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. It enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.
大規模言語モデル(LLM)の規模の拡大は、展開上の課題を引き起こし、高いエネルギー消費による環境への影響に関する懸念を引き起こしています。これまでの研究では、通常、事前学習後に量子化を適用しています。これらの手法はモデルの再学習の必要性を回避しますが、非常に低いビット幅では顕著な精度の低下を引き起こすことがよくあります。本研究では、1ビット事前学習の実現可能性とスケーラビリティを調査します。LLM向けに設計されたスケーラブルで安定した1ビットTransformerアーキテクチャであるBitNet b1とBitNet b1.58を紹介します。具体的には、1ビットの重みをゼロからトレーニングするために、nn.Linearレイヤーのドロップイン代替としてBitLinearを導入します。実験結果では、BitNet b1は、最先端の8ビット量子化法やFP16 Transformerベースラインと比較して、競争力のあるパフォーマンスを実現することが示されています。3値重みにより、BitNet b1.58は、パープレキシティとエンドタスクパフォーマンスの両方の点で、同じモデルサイズとトレーニングトークンを持つ半精度Transformer LLMに匹敵し、レイテンシ、メモリ、スループット、およびエネルギー消費の点で大幅にコスト効率が優れています。さらに重要なことに、BitNetは、高性能でコスト効率の高い新世代のLLMをトレーニングするための新しいスケーリング法とレシピを定義します。これにより、新しい計算パラダイムが可能になり、1ビットLLMに最適化された特定のハードウェアを設計できるようになります。
Physics-informed Kernel Learning
物理学に基づくカーネル学習
Physics-informed machine learning typically integrates physical priors into the learning process by minimizing a loss function that includes both a data-driven term and a partial differential equation (PDE) regularization. Building on the formulation of the problem as a kernel regression task, we use Fourier methods to approximate the associated kernel, and propose a tractable estimator that minimizes the physics-informed risk function. We refer to this approach as physics-informed kernel learning (PIKL). This framework provides theoretical guarantees, enabling the quantification of the physical prior’s impact on convergence speed. We demonstrate the numerical performance of the PIKL estimator through simulations, both in the context of hybrid modeling and in solving PDEs. In particular, we show that PIKL can outperform physics-informed neural networks in terms of both accuracy and computation time. Additionally, we identify cases where PIKL surpasses traditional PDE solvers, particularly in scenarios with noisy boundary conditions.
物理学情報に基づく機械学習は、通常、データ駆動項と偏微分方程式(PDE)正則化の両方を含む損失関数を最小化することにより、物理的な事前分布を学習プロセスに統合します。問題をカーネル回帰タスクとして定式化することに基づき、フーリエ法を用いて関連するカーネルを近似し、物理学情報に基づくリスク関数を最小化する扱いやすい推定量を提案します。このアプローチを物理学情報に基づくカーネル学習(PIKL)と呼ぶ。このフレームワークは理論的な保証を提供し、物理的な事前分布が収束速度に与える影響を定量化することを可能にします。ハイブリッドモデリングと偏微分方程式の解法の両方において、シミュレーションを通じてPIKL推定量の数値性能を実証します。特に、PIKLは精度と計算時間の両方において、物理学に基づくニューラルネットワークよりも優れていることを示します。さらに、特にノイズの多い境界条件を持つシナリオにおいて、PIKLが従来の偏微分方程式ソルバーを上回るケースを特定します。
Last-iterate Convergence of Shuffling Momentum Gradient Method under the Kurdyka-Lojasiewicz Inequality
Kurdyka-Lojasiewicz不等式におけるシャッフル運動量勾配法の最終反復収束
Shuffling gradient algorithms are extensively used to solve finite-sum optimization problems in machine learning. However, their theoretical properties still need to be further explored, especially the last-iterate convergence in the non-convex setting. In this paper, we study the last-iterate convergence behavior of shuffling momentum gradient (SMG) method, a shuffling gradient algorithm with momentum. Specifically, we focus on the non-convex scenario and provide theoretical guarantees under arbitrary shuffling strategies. For non-convex objectives, we achieve the convergence of gradient norms at the last-iterate, showing that every accumulation point of the iterative sequence is a stationary point of the non-convex problem. Our analysis also reveals that the function values of the last-iterate converge to a finite value. Additionally, we obtain the asymptotic convergence rates of gradient norms at the minimum-iterate. By employing a uniform without-replacement sampling strategy, we further achieve an improved convergence rate for the minimum-iterate output. Under the Kurdyka-Lojasiewicz (KL) inequality, we establish the challenging strong limit-point convergence results. In particular, we prove that the whole sequence of iterates exhibits convergence to a stationary point of the finite-sum problem. By choosing an appropriate stepsize, we also obtain the corresponding rate of last-iterate convergence, matching available results in the strongly convex setting. Given that the last iteration is typically preferred as the output of the algorithm in applied scenarios, this paper contributes to narrowing the gap between theory and practice.
シャッフル勾配アルゴリズムは、機械学習における有限和最適化問題の解法として広く用いられています。しかし、その理論的特性、特に非凸問題における最終反復収束については、更なる検討が必要です。本稿では、モメンタムを用いたシャッフル勾配アルゴリズムであるシャッフル・モメンタム勾配(SMG)法の最終反復収束挙動について考察します。特に、非凸問題に焦点を当て、任意のシャッフル戦略下における理論的保証を提供します。非凸問題に対して、最終反復で勾配ノルムの収束を達成し、反復シーケンスのすべての累積点が非凸問題の定常点であることを示す。また、最終反復の関数値が有限値に収束することも解析により明らかになった。さらに、最小反復における勾配ノルムの漸近収束率も得た。さらに、一様無復元サンプリング戦略を用いることで、最小反復出力の収束率をさらに向上させた。Kurdyka-Lojasiewicz (KL)不等式の下で、我々は困難な強極限点収束の結果を確立します。特に、反復処理のシーケンス全体が有限和問題の定常点への収束を示すことを証明します。適切なステップサイズを選択することで、対応する最後の反復処理の収束率も得られ、これは強凸設定における利用可能な結果と一致します。応用シナリオではアルゴリズムの出力として最後の反復処理が通常優先されることを考えると、本論文は理論と実践のギャップを埋めることに貢献します。
Posterior and Variational Inference for Deep Neural Networks with Heavy-Tailed Weights
裾野の重い重みを持つディープニューラルネットワークの事後推論と変分推論
We consider deep neural networks in a Bayesian framework with a prior distribution sampling the network weights at random. Following a recent idea of Agapiou and Castillo (2024), who show that heavy-tailed prior distributions achieve automatic adaptation to smoothness, we introduce a simple Bayesian deep learning prior based on heavy-tailed weights and ReLU activation. We show that the corresponding posterior distribution achieves near-optimal minimax contraction rates, simultaneously adaptive to both intrinsic dimension and smoothness of the underlying function, in a variety of contexts including nonparametric regression, geometric data and Besov spaces. While most works so far need a form of model selection built-in within the prior distribution, a key aspect of our approach is that it does not require to sample hyperparameters to learn the architecture of the network. We also provide variational Bayes counterparts of the results, that show that mean-field variational approximations still benefit from near-optimal theoretical support.
事前分布を用いてネットワークの重みをランダムにサンプリングするベイズフレームワークにおけるディープニューラルネットワークを考察します。裾の重い事前分布が滑らかさへの自動適応を実現することを示したAgapiouとCastillo (2024)の最近のアイデアに従い、裾の重い重みとReLU活性化に基づく単純なベイズ深層学習事前分布を導入します。対応する事後分布は、ノンパラメトリック回帰、幾何データ、ベゾフ空間など、様々なコンテキストにおいて、基底関数の固有次元と滑らかさの両方に同時に適応し、準最適なミニマックス収縮率を実現することを示す。これまでのほとんどの研究では、事前分布に何らかのモデル選択が組み込まれている必要があるが、本アプローチの重要な点は、ネットワークのアーキテクチャを学習するためにハイパーパラメータをサンプリングする必要がないことです。また、これらの結果の変分ベイズ対応も提供し、平均場変分近似が依然として準最適な理論的サポートの恩恵を受けることを示す。
Maximum Causal Entropy IRL in Mean-Field Games and GNEP Framework for Forward RL
平均場ゲームにおける最大因果エントロピーIRLと順方向強化学習のためのGNEPフレームワーク
This paper explores the use of Maximum Causal Entropy Inverse Reinforcement Learning (IRL) within the context of discrete-time stationary Mean-Field Games (MFGs) characterized by finite state spaces and an infinite-horizon, discounted-reward setting. Although the resulting optimization problem is non-convex with respect to policies, we reformulate it as a convex optimization problem in terms of state-action occupation measures by leveraging the linear programming framework of Markov Decision Processes. Based on this convex reformulation, we introduce a gradient descent algorithm with a guaranteed convergence rate to efficiently compute the optimal solution. Moreover, we develop a new method that conceptualizes the MFG problem as a Generalized Nash Equilibrium Problem (GNEP), enabling effective computation of the mean-field equilibrium for forward reinforcement learning (RL) problems and marking an advancement in MFG solution techniques. We further illustrate the practical applicability of our GNEP approach by employing this algorithm to generate data for numerical MFG examples.
本論文では、有限状態空間と無限時間、割引報酬設定を特徴とする離散時間定常平均場ゲーム(MFG)のコンテキストにおける最大因果エントロピー逆強化学習(IRL)の適用について検討します。結果として得られる最適化問題は方策に関して非凸であるが、マルコフ決定過程の線形計画法フレームワークを活用することで、状態行動占有測度の観点から凸最適化問題として再定式化します。この凸再定式化に基づき、収束率が保証された勾配降下法アルゴリズムを導入し、最適解を効率的に計算します。さらに、MFG問題を一般化ナッシュ均衡問題(GNEP)として概念化する新しい手法を開発し、前向き強化学習(RL)問題の平均場均衡を効果的に計算できるようにすることで、MFG解法の技術を進歩させる。さらに、このアルゴリズムを用いて数値MFG例のデータを生成することで、GNEPアプローチの実用性を示す。
Degree of Interference: A General Framework For Causal Inference Under Interference
干渉度:干渉下における因果推論の一般的な枠組み
One core assumption typically adopted for valid causal inference is that of no interference between experimental units, i.e., the outcome of an experimental unit is unaffected by the treatments assigned to other experimental units. This assumption can be violated in real-life experiments, which significantly complicates the task of causal inference. As the number of potential outcomes increases, it becomes challenging to disentangle direct treatment effects from “spillover” effects. Current methodologies are lacking, as they cannot handle arbitrary, unknown interference structures to permit inference on causal estimands. We present a general framework to address the limitations of existing approaches. Our framework is based on the new concept of the “degree of interference” (DoI). The DoI is a unit-level latent variable that captures the latent structure of interference. We also develop a data augmentation algorithm that adopts a blocked Gibbs sampler and Bayesian nonparametric methodology to perform inferences on the estimands under our framework. We illustrate the DoI concept and properties of our Bayesian methodology via extensive simulation studies and an analysis of a randomized experiment investigating the impact of a cash transfer program for which interference is a critical concern. Ultimately, our framework enables us to infer causal effects without strong structural assumptions on interference.
妥当な因果推論において一般的に採用される中核的な仮定の一つは、実験単位間の干渉がない、つまり、ある実験単位の結果は他の実験単位に割り当てられた処理の影響を受けないというものです。この仮定は実際の実験では破られる可能性があり、因果推論の作業を大幅に複雑化します。潜在的な結果の数が増えるにつれて、直接的な処理効果と「スピルオーバー」効果を切り離すことが困難になります。現在の方法論は、因果推定値に関する推論を可能にするための任意の未知の干渉構造を扱うことができないため、不十分です。本稿では、既存のアプローチの限界に対処するための一般的な枠組みを提示します。この枠組みは、「干渉度」(DoI)という新しい概念に基づいています。DoIは、干渉の潜在構造を捉えるユニットレベルの潜在変数です。我々はまた、ブロック化ギブスサンプラーとベイズ非パラメトリック手法を採用したデータ拡張アルゴリズムを開発し、本フレームワークの下で推定値の推論を実行します。本稿では、干渉が重大な懸念事項となっている現金給付プログラムの影響を調査する大規模なシミュレーション研究とランダム化実験の分析を通じて、DoIの概念とベイズ手法の特性を示します。最終的に、本フレームワークは、干渉に関する強い構造的仮定なしに因果効果を推論することを可能にします。
Quantifying the Effectiveness of Linear Preconditioning in Markov Chain Monte Carlo
マルコフ連鎖モンテカルロにおける線形前処理の有効性の定量化
We study linear preconditioning in Markov chain Monte Carlo. We consider the class of well-conditioned distributions, for which several mixing time bounds depend on the condition number $\kappa$. First we show that well-conditioned distributions exist for which $\kappa$ can be arbitrarily large and yet no linear preconditioner can reduce it. We then impose two sets of extra assumptions under which a linear preconditioner can significantly reduce $\kappa$. For the random walk Metropolis we further provide upper and lower bounds on the spectral gap with tight $1/\kappa$ dependence. This allows us to give conditions under which linear preconditioning can provably increase the gap. We then study popular preconditioners such as the covariance, its diagonal approximation, the Hessian at the mode, and the QR decomposition. We show conditions under which each of these reduce $\kappa$ to near its minimum. We also show that the diagonal approach can in fact increase the condition number. This is of interest as diagonal preconditioning is the default choice in well-known software packages. We conclude with a numerical study comparing preconditioners in different models, and we show how proper preconditioning can greatly reduce compute time in Hamiltonian Monte Carlo.
マルコフ連鎖モンテカルロにおける線形前処理について考察します。本研究では、条件数$\kappa$に依存する混合時間の上界がいくつか存在する、条件付き分布のクラスを考察します。まず、$\kappa$が任意に大きくてもそれを低減できる条件付き分布が存在するが、線形前処理によってそれを低減できないことを示す。次に、線形前処理によって$\kappa$を大幅に低減できる2組の追加仮定を課す。ランダムウォークメトロポリスに対して、強い$1/\kappa$依存性を持つスペクトルギャップの上限と下限をさらに与える。これにより、線形前処理によってギャップが確実に増大する条件を与えることができます。次に、共分散、その対角近似、最頻値におけるヘッセ行列、QR分解といった一般的な前処理について考察します。これらのそれぞれが$\kappa$を最小値近くまで低減する条件を示す。また、対角近似によって条件数が実際に増大することを示す。これは興味深い。なぜなら、対角線前処理はよく知られたソフトウェアパッケージのデフォルトの選択肢だからです。最後に、異なるモデルの前処理を比較する数値的研究を行い、適切な前処理がハミルトンモンテカルロにおける計算時間を大幅に短縮する方法を示す。
Sparse SVM with Hard-Margin Loss: a Newton-Augmented Lagrangian Method in Reduced Dimensions
ハードマージン損失を伴うスパースSVM:次元削減におけるニュートン拡張ラグランジュ法
The hard-margin loss function has been at the core of the support vector machine research from the very beginning due to its generalization capability. On the other hand, the cardinality constraint has been widely used for feature selection, leading to sparse solutions. This paper studies the sparse SVM with the hard-margin loss that integrates the virtues of both worlds, resulting in one of the most challenging models to solve. We cast the problem as a composite optimization with the cardinality constraint. We characterize its local minimizers in terms of pseudo KKT point that well captures the combinatorial structure of the problem, and investigate a sharper P-stationary point with a concise representation for algorithm design. We further develop an inexact proximal augmented Lagrangian method (iPAL). The different parts of the inexactness measurements from the {\rm P}-stationarity are controlled at different scales in a way that the generated sequence converges both globally and at a linear rate. To make iPAL practically efficient, we propose a gradient-Newton method in a subspace for the iPAL subproblem. This is accomplished by detecting active samples and features with the help of the proximal operator of the hard margin loss and the projection of the cardinality constraint. Extensive numerical results on both simulated and real data sets demonstrate that the proposed method is fast, produces sparse solution of high accuracy, and can lead to effective reduction on active samples and features when compared with several leading solvers.
ハードマージン損失関数は、その一般化能力から、サポートベクターマシン研究の黎明期から中核を成してきた。一方、カーディナリティ制約は特徴選択に広く用いられており、スパースな解を導く。本稿では、両方の長所を統合し、最も解くのが困難なモデルの1つとなる、ハードマージン損失を持つスパースSVMを研究します。我々は、問題をカーディナリティ制約を伴う複合最適化として捉える。問題の組合せ構造をよく捉える擬似KKT点によってその局所最小化を特徴づけ、アルゴリズム設計のための簡潔な表現を持つ、より鋭いP定常点を調査します。我々はさらに、不正確な近似拡張ラグランジュ法(iPAL)を開発しました。{\rm P}定常性からの不正確さの測定の異なる部分は、生成されたシーケンスが全体的にかつ線形速度で収束するように、異なるスケールで制御されます。iPALを実用的に効率的にするために、iPALサブ問題の部分空間における勾配ニュートン法を提案します。これは、ハードマージン損失の近似演算子とカーディナリティ制約の射影を利用して、アクティブなサンプルと特徴を検出することで実現されます。シミュレーションと実際のデータセットの両方で広範な数値結果を得た結果、提案された方法は高速で、高精度のスパース解を生成し、いくつかの主要なソルバーと比較して、アクティブなサンプルと特徴を効果的に削減できることが実証されました。
On Model Identification and Out-of-Sample Prediction of PCR with Applications to Synthetic Controls
PCRのモデル同定と標本外予測、および合成制御への応用について
We analyze principal component regression (PCR) in a high-dimensional error-in-variables setting with fixed design. Under suitable conditions, we show that PCR consistently identifies the unique model with minimum $\ell_2$-norm. These results enable us to establish non-asymptotic out-of-sample prediction guarantees that improve upon the best known rates. In the course of our analysis, we introduce a natural linear algebraic condition between the in- and out-of-sample covariates, which allows us to avoid distributional assumptions for out-of-sample predictions. Our simulations illustrate the importance of this condition for generalization, even under covariate shifts. Accordingly, we construct a hypothesis test to check when this condition holds in practice. As a byproduct, our results also lead to novel results for the synthetic controls literature, a leading approach for policy evaluation. To the best of our knowledge, our prediction guarantees for the fixed design setting have been elusive in both the high-dimensional error-in-variables and synthetic controls literatures.
高次元変数誤差設定において、固定設計による主成分回帰(PCR)を分析しました。適切な条件下では、PCRが一貫して最小の$\ell_2$ノルムを持つ唯一のモデルを同定することを示します。これらの結果により、既知の最高予測率を向上させる非漸近的なサンプル外予測保証を確立することが可能になりました。分析の過程で、サンプル内共変量とサンプル外共変量の間に自然な線形代数条件を導入することで、サンプル外予測における分布仮定を回避できます。シミュレーションは、共変量シフト下でも、この条件が一般化にとって重要であることを示しています。したがって、この条件が実際に成立するかどうかを検証するための仮説検定を構築します。副産物として、我々の研究結果は、方策評価の主要なアプローチである合成制御の文献にも新たな結果をもたらす。我々の知る限り、固定設計設定に対する我々の予測保証は、高次元変数誤差と合成制御の文献の両方において、これまで実現が困難であった。
Bayesian Scalar-on-Image Regression with a Spatially Varying Single-layer Neural Network Prior
空間的に変化する単層ニューラルネットワーク事前分布を用いたベイズ的スカラー画像回帰
Deep neural networks (DNN) have been widely used in scalar-on-image regression to predict an outcome variable from imaging predictors. However, training DNN typically requires large sample sizes for accurate prediction, and the resulting models often lack interpretability. In this work, we propose a novel Bayesian nonlinear scalar-on-image regression framework with a spatially varying single-layer neural network (SV-NN) prior. The SV-NN is constructed using a single hidden layer neural network with its weights generated by the soft-thresholded Gaussian process. Our framework enables the selection of interpretable image regions while achieving high prediction accuracy with limited training samples. The SV-NN offers large prior support for the imaging effect function, facilitating efficient posterior inference on image region selection and automatic network structures determination. We establish the posterior consistency for model parameters and selection consistency for image regions when the number of voxels/pixels grows much faster than the sample size. To ensure computational efficiency, we develop a stochastic gradient Langevin dynamics (SGLD) algorithm for posterior inference. We evaluate our method through extensive comparisons with state-of-the-art deep learning approaches, analyzing multiple real datasets, including task fMRI data from the Adolescent Brain Cognitive Development (ABCD) study.
深層ニューラルネットワーク(DNN)は、画像予測因子から結果変数を予測するスカラーオンイメージ回帰において広く利用されています。しかし、DNNの学習では、通常、正確な予測のために大きなサンプルサイズが必要となり、結果として得られるモデルは解釈可能性に欠けることが多い。本研究では、空間的に変化する単層ニューラルネットワーク(SV-NN)事前分布を用いた、新たなベイズ非線形スカラーオンイメージ回帰フレームワークを提案します。SV-NNは、ソフト閾値ガウス過程によって重みが生成される単一の隠れ層ニューラルネットワークを用いて構築されます。本フレームワークは、限られた学習サンプル数で高い予測精度を達成しながら、解釈可能な画像領域の選択を可能にします。SV-NNは、画像効果関数に対する大きな事前分布のサポートを提供し、画像領域選択とネットワーク構造の自動決定における効率的な事後推論を容易にします。ボクセル/ピクセル数がサンプルサイズよりもはるかに速く増加する場合でも、モデルパラメータの事後一貫性と画像領域の選択一貫性を確立します。計算効率を確保するため、事後推論のための確率的勾配ランジュバン動力学(SGLD)アルゴリズムを開発しました。最先端の深層学習アプローチとの広範な比較を通して、本手法を評価しました。青年期脳認知発達(ABCD)研究のタスクfMRIデータを含む複数の実データセットを分析しました。
DRM Revisited: A Complete Error Analysis
DRM再考:完全なエラー分析
It is widely known that the error analysis for deep learning involves approximation, statistical, and optimization errors. However, it is challenging to combine them together due to overparameterization. In this paper, we address this gap by providing a comprehensive error analysis of the Deep Ritz Method (DRM). Specifically, we investigate a foundational question in the theoretical analysis of DRM under the overparameterized regime: given a target precision level, how can one determine the appropriate number of training samples, the key architectural parameters of the neural networks, the step size for the projected gradient descent optimization procedure, and the requisite number of iterations, such that the output of the gradient descent process closely approximates the true solution of the underlying partial differential equation to the specified precision?
ディープラーニングのエラー分析には、近似エラー、統計エラー、最適化エラーが含まれることが広く知られています。しかし、過剰パラメータ化のために、それらを組み合わせることは困難です。本論文では、ディープ・リッツ法(DRM)の包括的な誤差分析を提供することで、このギャップを埋めます。具体的には、過剰パラメータ化環境下におけるDRMの理論分析における基本的な問い、すなわち、目標精度レベルが与えられた場合、勾配降下法の出力が、基礎となる偏微分方程式の真の解を指定された精度で近似するように、適切な学習サンプル数、ニューラルネットワークの主要なアーキテクチャパラメータ、投影勾配降下法の最適化手順のステップサイズ、そして必要な反復回数をどのように決定するか、という問いを検証します。
Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF
二階層のための原理的なペナルティベース法強化学習とRLHF
Bilevel optimization has been recently applied to many machine learning tasks. However, their applications have been restricted to the supervised learning setting, where static objective functions with benign structures are considered. But bilevel problems such as incentive design, inverse reinforcement learning (RL), and RL from human feedback (RLHF) are often modeled as dynamic objective functions that go beyond the simple static objective structures, which pose significant challenges of using existing bilevel solutions. To tackle this new class of bilevel problems, we introduce the first principled algorithmic framework for solving bilevel RL problems through the lens of penalty formulation. We provide theoretical studies of the problem landscape and its penalty-based (policy) gradient algorithms. We demonstrate the effectiveness of our algorithms via simulations in the Stackelberg Markov game, RL from human feedback and incentive design.
近年、二階層最適化は多くの機械学習タスクに適用されています。しかし、その適用は、無害な構造を持つ静的目的関数が考慮される教師あり学習の設定に限定されています。しかし、インセンティブ設計、逆強化学習(RL)、人間からのフィードバックからの強化学習(RLHF)などの二階層問題は、単純な静的目的構造を超える動的目的関数としてモデル化されることが多く、既存の二階層ソリューションの使用に大きな課題をもたらします。この新しいクラスの二階層問題に取り組むために、ペナルティ定式化の観点から二階層強化学習問題を解決するための最初の原理的なアルゴリズムフレームワークを導入します。問題のランドスケープと、ペナルティベース(ポリシー)勾配アルゴリズムの理論的研究を提供します。スタックベルグマルコフゲーム、人間からのフィードバックからの強化学習、インセンティブ設計でのシミュレーションにより、アルゴリズムの有効性を実証します。
Precise High-Dimensional Asymptotics for Quantifying Heterogeneous Transfers
異種転送を定量化するための高精度な高次元漸近解析
The problem of learning one task using samples from another task is central to transfer learning. In this paper, we focus on answering the following question: when does combining the samples from two related tasks perform better than learning with one target task alone? This question is motivated by an empirical phenomenon known as negative transfer often observed in transfer learning practice. While the transfer effect from one task to another depends on factors such as their sample sizes and the spectrum of their covariance matrices, precisely quantifying this dependence has remained a challenging problem. In order to compare a transfer learning estimator to single-task learning, one needs to compare the risks between the two estimators precisely. Further, the comparison depends on the distribution shifts between the two tasks. This paper applies recent developments of random matrix theory to tackle this challenge in a high-dimensional linear regression setting with two tasks. We provide precise high-dimensional asymptotics for the bias and variance of a classical hard parameter sharing (HPS) estimator in the proportional limit, when the sample sizes of both tasks increase proportionally with dimension at fixed ratios. The precise asymptotics apply to various types of distribution shifts, including covariate shifts, model shifts, and combinations of both. We illustrate these results in a random-effects model to mathematically prove a phase transition from positive to negative transfer as the number of source task samples increases. One insight from the analysis is that a rebalanced HPS estimator, which downsizes the source task when the model shift is high, achieves the minimax optimal rate. The finding regarding phase transition also applies to multiple tasks when feature covariates are shared across all tasks. Simulations validate the accuracy of the high-dimensional asymptotics for finite dimensions.
1つのタスクを別のタスクのサンプルを使用して学習するという問題は、転移学習の中心です。本稿では、次の質問に答えることに焦点を当てます。2つの関連タスクのサンプルを組み合わせると、1つのターゲットタスクだけで学習するよりもパフォーマンスが向上するのはいつですか?この質問は、転移学習の実践でよく見られる負の転移と呼ばれる経験的現象に起因しています。あるタスクから別のタスクへの転移効果は、サンプルサイズや共分散行列のスペクトルといった要因に依存するものの、この依存性を正確に定量化することは依然として困難な問題です。転移学習推定量を単一タスク学習と比較するには、2つの推定量間のリスクを正確に比較する必要があります。さらに、この比較は2つのタスク間の分布シフトにも依存します。本論文では、ランダム行列理論の最近の発展を適用し、2つのタスクを用いた高次元線形回帰においてこの課題に取り組む。本論文では、比例極限において、両タスクのサンプルサイズが一定比率で次元に比例して増加する場合、古典的なハードパラメータ共有(HPS)推定量のバイアスと分散について、高精度な高次元漸近解析を提供します。この高精度漸近解析は、共変量シフト、モデルシフト、そして両者の組み合わせなど、様々な種類の分布シフトに適用できます。これらの結果をランダム効果モデルで示し、ソースタスクサンプル数の増加に伴う転移の正から負への相転移を数学的に証明します。分析から得られた一つの知見は、モデルシフトが大きい場合にソースタスクを縮小するリバランスされたHPS推定値が、ミニマックス最適レートを達成するという点です。位相遷移に関する知見は、特徴共変量がすべてのタスクで共有されている場合、複数のタスクにも当てはまります。シミュレーションにより、有限次元における高次元漸近性の精度が検証されました。
Score-based Causal Representation Learning: Linear and General Transformations
スコアベースの因果表現学習:線形および一般変換
This paper addresses intervention-based causal representation learning (CRL) under a general nonparametric latent causal model and an unknown transformation that maps the latent variables to the observed variables. Linear and general transformations are investigated. The paper addresses both the identifiability and achievability aspects. Identifiability refers to determining algorithm-agnostic conditions that ensure the recovery of the true latent causal variables and the underlying latent causal graph. Achievability refers to the algorithmic aspects and addresses designing algorithms that achieve identifiability guarantees. By drawing novel connections between score functions (i.e., the gradients of the logarithm of density functions) and CRL, this paper designs a score-based class of algorithms that ensures both identifiability and achievability. First, the paper focuses on linear transformations and shows that one stochastic hard intervention per node suffices to guarantee identifiability. It also provides partial identifiability guarantees for soft interventions, including identifiability up to mixing with parents for general causal models and perfect recovery of the latent graph for sufficiently nonlinear causal models. Secondly, it focuses on general transformations and demonstrates that two stochastic hard interventions per node are sufficient for identifiability. This is achieved by defining a differentiable loss function whose global optima ensure identifiability for general CRL. Notably, one does not need to know which pair of interventional environments has the same node intervened. Finally, the theoretical results are empirically validated via experiments on structured synthetic data and image data.
この論文では、一般的なノンパラメトリック潜在因果モデルと、潜在変数を観測変数にマッピングする未知の変換に基づく介入ベースの因果表現学習(CRL)について説明します。線形変換と一般的な変換が調査されます。この論文では、識別可能性と達成可能性の両方の側面について説明します。識別可能性とは、真の潜在因果変数と基礎となる潜在因果グラフの回復を保証する、アルゴリズムに依存しない条件を決定することを指します。達成可能性とはアルゴリズムの側面を指し、識別可能性の保証を実現するアルゴリズムの設計について説明します。スコア関数(つまり、密度関数の対数の勾配)とCRLの間に新しい関係を描くことで、この論文では、識別可能性と達成可能性の両方を保証するスコアベースのアルゴリズムのクラスを設計します。まず、この論文では線形変換に焦点を当て、ノードごとに1つの確率的ハード介入で識別可能性を保証できることを示します。また、ソフト介入の部分的な識別可能性保証も提供します。これには、一般的な因果モデルに対する親との混合までの識別可能性と、十分に非線形な因果モデルに対する潜在グラフの完全な回復が含まれます。次に、一般的な変換に焦点を当て、ノードごとに2つの確率的ハード介入で識別可能性を実現できることを示します。これは、グローバル最適値が一般的なCRLの識別可能性を保証する微分可能な損失関数を定義することで実現されます。特に、どの介入環境のペアに同じノードが介入したかを知る必要はありません。最後に、理論的結果は、構造化された合成データと画像データを使用した実験により経験的に検証されます。
On the Statistical Properties of Generative Adversarial Models for Low Intrinsic Data Dimension
低次元データのための生成的敵対的モデルの統計的特性について
Despite the remarkable empirical successes of Generative Adversarial Networks (GANs), the theoretical guarantees for their statistical accuracy remain rather pessimistic. In particular, the data distributions on which GANs are applied, such as natural images, are often hypothesized to have an intrinsic low-dimensional structure in a typically high-dimensional feature space, but this is often not reflected in the derived rates in the state-of-the-art analyses. In this paper, we attempt to bridge the gap between the theory and practice of GANs and their bidirectional variant, Bi-directional GANs (BiGANs), by deriving statistical guarantees on the estimated densities in terms of the intrinsic dimension of the data and the latent space. We analytically show that if one has access to $n$ samples from the unknown target distribution and the network architectures are properly chosen, the expected Wasserstein-1 distance of the estimates from the target scales as $O\left( n^{-1/d_\mu } \right)$ for GANs and $\tilde{O}\left( n^{-1/(d_\mu+\ell)} \right)$ for BiGANs, where $d_\mu$ and $\ell$ are the upper Wasserstein-1 dimension of the data-distribution and latent-space dimension, respectively. The theoretical analyses not only suggest that these methods successfully avoid the curse of dimensionality, in the sense that the exponent of $n$ in the error rates does not depend on the data dimension but also serve to bridge the gap between the theoretical analyses of GANs and the known sharp rates from optimal transport literature. Additionally, we demonstrate that GANs can effectively achieve the minimax optimal rate even for non-smooth underlying distributions, with the use of interpolating generator networks.
敵対的生成ネットワーク(GAN)は目覚ましい実験的成功を収めていますが、その統計的正確性に対する理論的保証は依然としてかなり悲観的です。特に、自然画像など、GANが適用されるデータ分布は、典型的には高次元の特徴空間において固有の低次元構造を持つと仮定されることがよくありますが、これは最先端の分析で導出されるレートに反映されていないことがよくあります。本稿では、GANとその双方向変種である双方向GAN(BiGAN)の理論と実践の間のギャップを埋めることを試み、データの固有次元と潜在空間の観点から推定密度の統計的保証を導出します。未知のターゲット分布から$n$個のサンプルにアクセスでき、ネットワークアーキテクチャが適切に選択された場合、ターゲットからの推定値の期待Wasserstein-1距離は、GANの場合は$O\left( n^{-1/d_\mu } \right)$、BiGANの場合は$\tilde{O}\left( n^{-1/(d_\mu+\ell)} \right)$にスケールすることを解析的に示します。ここで、$d_\mu$と$\ell$は、それぞれデータ分布と潜在空間の次元の上限Wasserstein-1次元です。理論分析は、これらの手法が次元の呪い(エラー率における$n$の指数がデータ次元に依存しないという意味で)をうまく回避していることを示唆するだけでなく、GANの理論分析と最適輸送文献で知られているシャープレートとの間のギャップを埋める役割も果たしています。さらに、補間生成器ネットワークを用いることで、GANが非滑らかな基礎分布に対しても、ミニマックス最適レートを効果的に達成できることを実証しています。
Prominent Roles of Conditionally Invariant Components in Domain Adaptation: Theory and Algorithms
領域適応における条件付き不変成分の顕著な役割:理論とアルゴリズム
Domain adaptation (DA) is a statistical learning problem that arises when the distribution of the source data used to train a model differs from that of the target data used to evaluate the model. While many DA algorithms have demonstrated considerable empirical success, blindly applying these algorithms can often lead to worse performance on new datasets. To address this, it is crucial to clarify the assumptions under which a DA algorithm has good target performance. In this work, we focus on the assumption of the presence of conditionally invariant components (CICs), which are relevant for prediction and remain conditionally invariant across the source and target data. We demonstrate that CICs, which can be estimated through conditional invariant penalty (CIP), play three prominent roles in providing target risk guarantees in DA. First, we propose a new algorithm based on CICs, importance-weighted conditional invariant penalty (IW-CIP), which has target risk guarantees beyond simple settings such as covariate shift and label shift. Second, we show that CICs help identify large discrepancies between source and target risks of other DA algorithms. Finally, we demonstrate that incorporating CICs into the domain invariant projection (DIP) algorithm can address its failure scenario caused by label-flipping features. We support our new algorithms and theoretical findings via numerical experiments on synthetic data, MNIST, CelebA, Camelyon17, and DomainNet datasets.
ドメイン適応(DA)は、モデルの学習に使用されるソースデータの分布が、モデルの評価に使用されるターゲットデータの分布と異なる場合に生じる統計学習問題です。多くのDAアルゴリズムは実証的にかなりの成功を収めていますが、これらのアルゴリズムを盲目的に適用すると、新しいデータセットでのパフォーマンスが低下することがよくあります。これに対処するには、DAアルゴリズムが優れたターゲットパフォーマンスを発揮するための仮定を明確にすることが重要です。本研究では、予測に関連し、ソースデータとターゲットデータ全体で条件付き不変である条件付き不変成分(CIC)の存在という仮定に焦点を当てます。条件付き不変ペナルティ(CIP)によって推定できるCICは、DAにおけるターゲットリスク保証の提供において3つの重要な役割を果たすことを示します。まず、共変量シフトやラベルシフトなどの単純な設定を超えたターゲットリスク保証を持つ、CICに基づく新しいアルゴリズム、重要度重み付け条件付き不変ペナルティ(IW-CIP)を提案します。第二に、CICが他のDAアルゴリズムのソースリスクとターゲットリスク間の大きな矛盾を識別するのに役立つことを示します。最後に、CICをドメイン不変射影(DIP)アルゴリズムに組み込むことで、ラベルフリッピング特徴によって引き起こされる失敗シナリオに対処できることを示します。新しいアルゴリズムと理論的発見は、合成データ、MNIST、CelebA、Camelyon17、およびDomainNetデータセットを用いた数値実験によって裏付けられています。
Near-Optimal Nonconvex-Strongly-Convex Bilevel Optimization with Fully First-Order Oracles
完全一次オラクルを用いた準最適非凸-強凸二階層最適化
In this work, we consider bilevel optimization when the lower-level problem is strongly convex. Recent works show that with a Hessian-vector product (HVP) oracle, one can provably find an $\epsilon$-stationary point within ${O}(\epsilon^{-2})$ oracle calls. However, the HVP oracle may be inaccessible or expensive in practice. Kwon et al. (ICML 2023) addressed this issue by proposing a first-order method that can achieve the same goal at a slower rate of $\tilde{O}(\epsilon^{-3})$. In this paper, we incorporate a two-time-scale update to improve their method to achieve the near-optimal $\tilde{O}(\epsilon^{-2})$ first-order oracle complexity. Our analysis is highly extensible. In the stochastic setting, our algorithm can achieve the stochastic first-order oracle complexity of $\tilde {O}(\epsilon^{-4})$ and $\tilde {O}(\epsilon^{-6})$ when the stochastic noises are only in the upper-level objective and in both level objectives, respectively. When the objectives have higher-order smoothness conditions, our deterministic method can escape saddle points by injecting noise, and can be accelerated to achieve a faster rate of $\tilde {O}(\epsilon^{-1.75})$ using Nesterov’s momentum.
本研究では、下位レベルの問題が強凸である場合の2レベル最適化を検討します。最近の研究では、ヘッセベクトル積(HVP)オラクルを使用すると、${O}(\epsilon^{-2})$回のオラクル呼び出しで$\epsilon$定常点を見つけることができることが示されています。ただし、HVPオラクルは実際にはアクセスできないか、高価になる可能性があります。Kwonら。(ICML 2023)はこの問題に対処するため、同じ目標をより遅い速度$\tilde{O}(\epsilon^{-3})$で達成できる一次オラクル複雑度を提案した。本論文では、2つのタイムスケール更新を組み込むことで、彼らの手法を改良し、ほぼ最適な$\tilde{O}(\epsilon^{-2})$の一次オラクル複雑度を達成した。我々の分析は非常に拡張性が高い。確率的設定において、我々のアルゴリズムは、確率的ノイズが上位レベルの目的関数にのみ存在する場合、および両レベルの目的関数に存在している場合、それぞれ$\tilde{O}(\epsilon^{-4})$および$\tilde{O}(\epsilon^{-6})$の確率的一次オラクル複雑度を達成できます。目的関数に高次の平滑性条件がある場合、私たちの決定論的手法はノイズを注入することで鞍点を回避でき、ネステロフの運動量を使用して$\tilde {O}(\epsilon^{-1.75})$というより速い速度を達成できます。
Adaptive Distributed Kernel Ridge Regression: A Feasible Distributed Learning Scheme for Data Silos
適応型分散カーネルリッジ回帰:データサイロのための実行可能な分散学習スキーム
Data silos, mainly caused by privacy and interoperability, significantly constrain collaborations among different organizations with similar data for the same purpose. Distributed learning based on divide-and-conquer provides a promising way to settle the data silos, but it suffers from several challenges, including autonomy, privacy guarantees, and the necessity of collaborations. This paper focuses on developing an adaptive distributed kernel ridge regression (AdaDKRR) by taking autonomy in parameter selection, privacy in communicating non-sensitive information, and the necessity of collaborations for performance improvement into account. We provide both solid theoretical verifications and comprehensive experiments for AdaDKRR to demonstrate its feasibility and effectiveness. Theoretically, we prove that under some mild conditions, AdaDKRR performs similarly to running the optimal learning algorithms on the whole data, verifying the necessity of collaborations and showing that no other distributed learning scheme can essentially beat AdaDKRR under the same conditions. Numerically, we test AdaDKRR on both toy simulations and two real-world applications to show that AdaDKRR is superior to other existing distributed learning schemes. All these results show that AdaDKRR is a feasible scheme to overcome data silos, which are highly desired in numerous application regions such as intelligent decision-making, pricing forecasting, and performance prediction for products.
主にプライバシーと相互運用性によって引き起こされるデータサイロは、同じ目的で類似データを持つ異なる組織間のコラボレーションを著しく制限します。分割統治に基づく分散学習は、データサイロを解決する有望な方法を提供しますが、自律性、プライバシーの保証、コラボレーションの必要性など、いくつかの課題に悩まされています。本論文では、パラメータ選択の自律性、非機密情報の通信におけるプライバシー、パフォーマンス向上のためのコラボレーションの必要性を考慮して、適応型分散カーネルリッジ回帰(AdaDKRR)の開発に焦点を当てています。AdaDKRRの実現可能性と有効性を実証するために、堅実な理論的検証と包括的な実験の両方を提供します。理論的には、いくつかの穏やかな条件下では、AdaDKRRがデータ全体に対して最適な学習アルゴリズムを実行するのと同様に機能することを証明し、コラボレーションの必要性を検証し、同じ条件下では他の分散学習スキームが本質的にAdaDKRRに勝てないことを示しています。数値的には、AdaDKRRをトイシミュレーションと2つの実際のアプリケーションの両方でテストし、AdaDKRRが他の既存の分散学習スキームよりも優れていることを示します。これらの結果はすべて、AdaDKRRがデータサイロを克服するための実行可能なスキームであることを示しています。データサイロは、インテリジェントな意思決定、価格予測、製品のパフォーマンス予測など、多くのアプリケーション領域で非常に求められています。
On Global and Local Convergence of Iterative Linear Quadratic Optimization Algorithms for Discrete Time Nonlinear Control
離散時間非線形制御のための反復線形二次最適化アルゴリズムの大域的および局所的収束について
A classical approach for solving discrete time nonlinear control on a finite horizon consists in repeatedly minimizing linear quadratic approximations of the original problem around current candidate solutions. While widely popular in many domains, such an approach has mainly been analyzed locally. We provide detailed convergence guarantees to stationary points as well as local linear convergence rates for the Iterative Linear Quadratic Regulator (ILQR) algorithm and its Differential Dynamic Programming (DDP) variant. For problems without costs on control variables, we observe that global convergence to minima can be ensured provided that the linearized discrete time dynamics are surjective, costs on the state variables are gradient dominated. We further detail quadratic local convergence when the costs are self-concordant. We show that surjectivity of the linearized dynamics hold for appropriate discretization schemes given the existence of a feedback linearization scheme. We present complexity bounds of algorithms based on linear quadratic approximations through the lens of generalized Gauss-Newton methods. Our analysis uncovers several convergence phases for regularized generalized Gauss-Newton algorithms.
離散時間非線形制御を有限時間領域で解くための古典的なアプローチは、現在の候補解の周囲で元の問題の線形二次近似を繰り返し最小化することです。このアプローチは多くの分野で広く普及しているものの、これまでは主に局所的に解析されてきた。本稿では、反復線形二次レギュレータ(ILQR)アルゴリズムとその微分動的計画法(DDP)の変種について、停留点への詳細な収束保証と局所線形収束率を示す。制御変数にコストのない問題の場合、線形化された離散時間ダイナミクスが射影的であり、状態変数のコストが勾配支配的であれば、最小値への大域収束が保証されることがわかる。さらに、コストが自己整合的である場合の二次局所収束についても詳述します。フィードバック線形化スキームが存在する場合、適切な離散化スキームにおいて線形化ダイナミクスの射影性が成立することを示す。一般化ガウス・ニュートン法の観点から、線形二次近似に基づくアルゴリズムの計算量限界を示す。私たちの分析により、正規化された一般化ガウス・ニュートンアルゴリズムのいくつかの収束段階が明らかになりました。
A Decentralized Proximal Gradient Tracking Algorithm for Composite Optimization on Riemannian Manifolds
リーマン多様体上の複合最適化のための分散型近似勾配追跡アルゴリズム
This paper focuses on minimizing a smooth function combined with a nonsmooth regularization term on a compact Riemannian submanifold embedded in the Euclidean space under a decentralized setting. Typically, there are two types of approaches at present for tackling such composite optimization problems. The first, subgradient-based approaches, rely on subgradient information of the objective function to update variables, achieving an iteration complexity of $O(\epsilon^{-4}\log^2(\epsilon^{-2}))$. The second, smoothing approaches, involve constructing a smooth approximation of the nonsmooth regularization term, resulting in an iteration complexity of $O(\epsilon^{-4})$. This paper proposes a proximal gradient type algorithm that fully exploits the composite structure. The global convergence to a stationary point is established with a significantly improved iteration complexity of $O(\epsilon^{-2})$. To validate the effectiveness and efficiency of our proposed method, we present numerical results from real-world applications, showcasing its superior performance compared to existing approaches.
本論文では、分散設定のもとでユークリッド空間に埋め込まれたコンパクトリーマン部分多様体上の滑らかな関数と非滑らかな正則化項を組み合わせたものを最小化することに焦点を当てています。通常、このような複合最適化問題に取り組むためのアプローチは現在2種類あります。1つ目は、劣勾配ベースのアプローチで、変数を更新するために目的関数の劣勾配情報に依存し、反復計算量は$O(\epsilon^{-4}\log^2(\epsilon^{-2}))$です。2つ目は、平滑化アプローチで、非滑らかな正則化項の滑らかな近似を構築する必要があり、反復計算量は$O(\epsilon^{-4})$です。本論文では、この複合構造を最大限に活用する近似勾配型アルゴリズムを提案します。停留点への大域収束は、反復計算量が$O(\epsilon^{-2})$と大幅に改善され、確立されます。提案手法の有効性と効率性を検証するため、実世界アプリケーションにおける数値結果を提示し、既存の手法と比較して優れた性能を示す。
Learning conditional distributions on continuous spaces
連続空間における条件付き分布の学習
We investigate sample-based learning of conditional distributions on multi-dimensional unit boxes, allowing for different dimensions of the feature and target spaces. Our approach involves clustering data near varying query points in the feature space to create empirical measures in the target space. We employ two distinct clustering schemes: one based on a fixed-radius ball and the other on nearest neighbors. We establish upper bounds for the convergence rates of both methods and, from these bounds, deduce optimal configurations for the radius and the number of neighbors. We propose to incorporate the nearest neighbors method into neural network training, as our empirical analysis indicates it has better performance in practice. For efficiency, our training process utilizes approximate nearest neighbors search with random binary space partitioning. Additionally, we employ the Sinkhorn algorithm and a sparsity-enforced transport plan. Our empirical findings demonstrate that, with a suitably designed structure, the neural network has the ability to adapt to a suitable level of Lipschitz continuity locally.
我々は、特徴空間とターゲット空間の異なる次元を許容する多次元単位ボックス上の条件付き分布のサンプルベース学習を調査します。本手法では、特徴空間内の様々なクエリポイント付近のデータをクラスタリングし、ターゲット空間における経験的尺度を作成します。本手法では、固定半径球に基づくクラスタリング手法と最近傍点に基づくクラスタリング手法の2つの異なるクラスタリング手法を採用します。両手法の収束率の上限を設定し、これらの上限から半径と近傍点数の最適な構成を導出します。経験的分析により最近傍点法の方が実用上優れた性能を示すことから、ニューラルネットワークの学習に最近傍点法を組み込むことを提案します。効率性を高めるため、学習プロセスでは、ランダムバイナリ空間分割を用いた近似最近傍点探索を利用します。さらに、シンクホーンアルゴリズムとスパース性を考慮したトランスポートプランを採用します。本実験結果は、適切に設計された構造を用いることで、ニューラルネットワークが適切なレベルのリプシッツ連続性に局所的に適応できる能力を持つことを示しています。
A Unified Analysis of Nonstochastic Delayed Feedback for Combinatorial Semi-Bandits, Linear Bandits, and MDPs
組み合わせセミバンディット、線形バンディット、およびMDPに対する非確率的遅延フィードバックの統一的解析
We derive a new analysis of Follow The Regularized Leader (FTRL) for online learning with delayed bandit feedback. By separating the cost of delayed feedback from that of bandit feedback, our analysis allows us to obtain new results in four important settings. We derive the first optimal (up to logarithmic factors) regret bounds for combinatorial semi-bandits with delay and adversarial Markov Decision Processes with delay (both known and unknown transition functions). Furthermore, we use our analysis to develop an efficient algorithm for linear bandits with delay achieving near-optimal regret bounds. In order to derive these results we show that FTRL remains stable across multiple rounds under mild assumptions on the regularizer.
遅延バンディットフィードバックを用いたオンライン学習におけるFollow The Regularized Leader (FTRL)の新しい解析を導出します。遅延フィードバックのコストをバンディットフィードバックのコストから分離することで、本解析は4つの重要な設定において新しい結果を得ることを可能にします。遅延付き組合せセミバンディットと遅延付き敵対的マルコフ決定過程(遷移関数は既知と未知の両方)について、初めて最適な(対数係数まで)後悔境界を導出します。さらに、本解析を用いて、遅延付き線形バンディットに対してほぼ最適な後悔境界を達成する効率的なアルゴリズムを開発します。これらの結果を導出するために、正則化子に関する弱い仮定の下で、FTRLが複数ラウンドにわたって安定であることを示す。
Error bounds for particle gradient descent, and extensions of the log-Sobolev and Talagrand inequalities
粒子勾配降下法の誤差境界、および対数ソボレフ不等式とタラグランド不等式の拡張
We derive non-asymptotic error bounds for particle gradient descent (PGD, Kuntz et al. (2023)), a recently introduced algorithm for maximum likelihood estimation of large latent variable models obtained by discretizing a gradient flow of the free energy. We begin by showing that the flow converges exponentially fast to the free energy’s minimizers for models satisfying a condition that generalizes both the log-Sobolev and the Polyak–Łojasiewicz inequalities (LSI and PŁI, respectively). We achieve this by extending a result well-known in the optimal transport literature (that the LSI implies the Talagrand inequality) and its counterpart in the optimization literature (that the PŁI implies the so-called quadratic growth condition), and applying the extension to our new setting. We also generalize the Bakry–Émery Theorem and show that the LSI/PŁI extension holds for models with strongly concave log-likelihoods. For such models, we further control PGD’s discretization error and obtain the non-asymptotic error bounds. While we are motivated by the study of PGD, we believe that the inequalities and results we extend may be of independent interest.
我々は、粒子勾配降下法(PGD、Kuntzら(2023))の非漸近的誤差界を導出します。これは、自由エネルギーの勾配フローを離散化することで得られる大規模潜在変数モデルの最大尤度推定のための最近導入されたアルゴリズムです。まず、対数ソボレフ不等式とポリアク-ウォヤシェヴィチ不等式(それぞれLSIとPŁI)の両方を一般化する条件を満たすモデルについて、フローが自由エネルギー最小化点に指数的に速く収束することを示す。これは、最適輸送の文献でよく知られている結果(LSIはタラグランド不等式を意味する)と最適化の文献における対応する結果(PŁIはいわゆる二次成長条件を意味する)を拡張し、その拡張を我々の新しい設定に適用することによって達成します。また、バクリ-エメリー定理を一般化し、LSI/PŁI拡張が強く凹状の対数尤度を持つモデルに対して成り立つことを示す。このようなモデルに対して、PGDの離散化誤差をさらに制御し、非漸近的な誤差境界を得る。PGDの研究が動機ではあるものの、拡張した不等式と結果は独立した関心事となる可能性があると考えています。
Linear Hypothesis Testing in High-Dimensional Expected Shortfall Regression with Heavy-Tailed Errors
裾野の重い誤差を伴う高次元期待ショートフォール回帰における線形仮説検定
Expected shortfall (ES) is widely used for characterizing the tail of a distribution across various fields, particularly in financial risk management. In this paper, we explore a two-step procedure that leverages an orthogonality property to reduce sensitivity to nuisance parameters when estimating within a joint quantile and expected shortfall regression framework. For high-dimensional sparse models, we propose a robust $\ell_1$-penalized two-step approach capable of handling heavy-tailed data distributions. We establish non-asymptotic estimation error bounds and propose an appropriate growth rate for the diverging robustification parameter. To facilitate statistical inference for certain linear combinations of the ES regression coefficients, we construct debiased estimators and develop their asymptotic distributions, which form the basis for constructing valid confidence intervals. We validate the proposed method through simulation studies, demonstrating its effectiveness in high-dimensional linear models with heavy-tailed errors.
期待ショートフォール(ES)は、様々な分野、特に金融リスク管理において、分布の裾を特徴付けるために広く用いられています。本稿では、結合分位点回帰と期待ショートフォール回帰の枠組みを用いて推定を行う際に、直交性を利用して不要なパラメータに対する感度を低減する2段階の手順を検討します。高次元スパースモデルに対して、裾の重いデータ分布に対応可能なロバストな$\ell_1$ペナルティ付き2段階アプローチを提案します。非漸近的な推定誤差の境界を設定し、発散ロバスト化パラメータの適切な成長率を提案します。ES回帰係数の特定の線形結合に対する統計的推論を容易にするため、バイアス除去された推定量を構築し、その漸近分布を開発します。これは、有効な信頼区間を構築するための基礎となります。提案手法はシミュレーション研究を通じて検証し、裾の重い誤差を持つ高次元線形モデルにおける有効性を実証します。
Efficient Numerical Integration in Reproducing Kernel Hilbert Spaces via Leverage Scores Sampling
てこ比スコアサンプリングによるカーネルヒルベルト空間の再現における効率的な数値積分
In this work we consider the problem of numerical integration, i.e., approximating integrals with respect to a target probability measure using only pointwise evaluations of the integrand. We focus on the setting in which the target distribution is only accessible through a set of $n$ i.i.d. observations, and the integrand belongs to a reproducing kernel Hilbert space. We propose an efficient procedure which exploits a small i.i.d. random subset of $m[abs][pdf][bib] [code] © JMLR 2025. (edit, beta)
本研究では、数値積分、すなわち、積分対象に対する点ごとの評価のみを用いて、目標確率測度に関する積分を近似する問題を考察します。目標分布が$n$個の独立同値観測値の集合を通してのみアクセス可能であり、かつ積分対象が再生核ヒルベルト空間に属するという設定に焦点を当てる。$m[abs][pdf][bib] [code] © JMLR 2025. (edit, beta)
Distribution Free Tests for Model Selection Based on Maximum Mean Discrepancy with Estimated Parameters
推定パラメータを用いた最大平均乖離度に基づくモデル選択のための分布フリー検定
There exist several testing procedures based on the maximum mean discrepancy (MMD) to address the challenge of model specification. However, these testing procedures ignore the presence of estimated parameters in the case of composite null hypotheses. In this paper, we first illustrate the effect of parameter estimation in model specification tests based on the MMD. Second, we propose simple model specification and model selection tests in the case of models with estimated parameters. All our tests are asymptotically standard normal under the null, even when the true underlying distribution belongs to the competing parametric families. A simulation study and a real data analysis illustrate the performance of our tests in terms of power and level.
モデル仕様記述の課題に対処するために、最大平均乖離度(MMD)に基づく検定手順がいくつか存在します。しかし、これらの検定手順は、複合帰無仮説の場合に推定パラメータの存在を無視します。本稿では、まずMMDに基づくモデル仕様記述検定におけるパラメータ推定の効果を示す。第二に、推定パラメータを持つモデルの場合の、簡略なモデル仕様記述検定およびモデル選択検定を提案します。真の分布が競合するパラメトリック族に属する場合でも、本検定はすべて帰無仮説の下で漸近的に標準正規分布となります。シミュレーション研究と実際のデータ分析により、パワーとレベルの観点からテストのパフォーマンスが示されます。
Statistical field theory for Markov decision processes under uncertainty
不確実性下におけるマルコフ決定過程の統計場理論
A statistical field theory is introduced for finite state and action Markov decision processes with unknown parameters, in a Bayesian setting. The Bellman equation, for policy evaluation and the optimal value function in finite and discounted infinite horizon problems, is studied as a disordered interacting dynamical system. The Markov decision process transition probabilities and mean-rewards are interpreted as quenched random variables and the value functions, or the iterates of the Bellman equation, are deterministic variables that evolve dynamically. The posterior over value functions is then equivalent to the quenched average of Fourier inverse of the Martin-Siggia-Rose-De Dominicis-Janssen generating function. The formalism enables the use of methods from field theory to compute posterior moments of value functions. The paper presents two such methods, corresponding to two distinct asymptotic limits. First, the classical approximation is applied, corresponding to the asymptotic data limit. This approximation recovers so-called plug-in estimators for the mean of the value functions. Second, a dynamic mean field theory is derived, showing that under certain assumptions the state-action values are statistically independent across state-action pairs in the asymptotic state space limit. The state-action value statistics can be computed from a set of self-consistent mean field equations, which we call dynamic mean field programming (DMFP). Collectively, the results provide analytic insight into the structure of model uncertainty in Markov decision processes, and pave the way toward more advanced field theoretic techniques and applications to planning and reinforcement learning problems.
ベイズ統計学的な設定において、未知のパラメータを持つ有限状態および行動マルコフ決定過程のための統計場理論を導入します。方策評価と有限および割引無限期間問題における最適価値関数のためのベルマン方程式を、無秩序な相互作用力学系として考察します。マルコフ決定過程の遷移確率と平均報酬は、クエンチされた確率変数として解釈され、価値関数、すなわちベルマン方程式の反復は、動的に変化する決定論的変数です。価値関数の事後分布は、Martin-Siggia-Rose-De Dominicis-Janssen生成関数のフーリエ逆関数のクエンチされた平均と等価です。この形式化により、場の理論の手法を用いて価値関数の事後モーメントを計算することが可能となります。本論文では、2つの異なる漸近極限に対応する2つの手法を提示します。まず、漸近データ極限に対応する古典的近似を適用します。この近似は、価値関数の平均に対するいわゆるプラグイン推定値を回復します。第二に、動的平均場理論を導出し、一定の仮定の下で、漸近状態空間極限において状態行動値が状態行動ペア間で統計的に独立であることを示す。状態行動値統計量は、自己無撞着な平均場方程式の集合から計算することができ、これを動的平均場計画法(DMFP)と呼ぶ。これらの結果は総合的に、マルコフ決定過程におけるモデルの不確実性の構造に関する解析的洞察を提供し、より高度な場の理論的手法や、計画および強化学習問題への応用への道を開く。
Bayesian Data Sketching for Varying Coefficient Regression Models
変動係数回帰モデルのためのベイズデータスケッチ
Varying coefficient models are popular for estimating nonlinear regression functions in functional data models. Their Bayesian variants have received limited attention in large data applications, primarily due to prohibitively slow posterior computations using Markov chain Monte Carlo (MCMC) algorithms. We introduce Bayesian data sketching for varying coefficient models to obviate computational challenges presented by large sample sizes. To address the challenges of analyzing large data, we compress the functional response vector and predictor matrix by a random linear transformation to achieve dimension reduction and conduct inference on the compressed data. Our approach distinguishes itself from several existing methods for analyzing large functional data in that it requires neither the development of new models or algorithms nor any specialized computational hardware while delivering fully model-based Bayesian inference. Well-established methods and algorithms for varying-coefficient regression models can be applied to the compressed data. We establish posterior contraction rates for estimating the varying coefficients and predicting the outcome at new locations with the randomly compressed data model. We use simulation experiments and analyze remote sensed vegetation data to empirically illustrate the inferential and computational efficiency of our approach.
変動係数モデルは、機能データモデルにおける非線形回帰関数の推定によく用いられます。ベイズ変種は、主にマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを用いた事後計算が非常に遅いため、大規模データアプリケーションではあまり注目されていませんでした。大規模なサンプルサイズに伴う計算上の課題を回避するために、変動係数モデルのためのベイズデータスケッチを導入します。大規模データの分析の課題に対処するため、機能応答ベクトルと予測行列をランダム線形変換によって圧縮して次元削減を実現し、圧縮されたデータに対して推論を行います。我々のアプローチは、大規模な機能データを分析するための既存の手法とは一線を画しており、新しいモデルやアルゴリズムの開発、あるいは特殊な計算ハードウェアを必要とせず、完全なモデルベースのベイズ推論を実現します。圧縮データには、変動係数回帰モデルのための確立された手法とアルゴリズムを適用できます。我々は、変動係数を推定し、ランダムに圧縮されたデータモデルを用いて新しい場所での結果を予測するための事後収縮率を確立します。シミュレーション実験とリモートセンシングによる植生データの分析により、我々のアプローチの推論効率と計算効率を実証的に示します。
Bagged k-Distance for Mode-Based Clustering Using the Probability of Localized Level Sets
局所レベルセットの確率を用いたモードベースクラスタリングのためのバギングk距離
In this paper, we propose an ensemble learning algorithm named bagged $k$-distance for mode-based clustering (BDMBC) by putting forward a new measure called the probability of localized level sets (PLLS), which enables us to find all clusters for varying densities with a global threshold. On the theoretical side, we show that with a properly chosen number of nearest neighbors $k_D$ in the bagged $k$-distance, the sub-sample size $s$, the bagging rounds $B$, and the number of nearest neighbors $k_L$ for the localized level sets, BDMBC can achieve optimal convergence rates for mode estimation. It turns out that with a relatively small $B$, the sub-sample size $s$ can be much smaller than the number of training data $n$ at each bagging round, and the number of nearest neighbors $k_D$ can be reduced simultaneously. Moreover, we establish fast convergence rates for the level set estimation of the PLLS in terms of Hausdorff distance, which reveals that BDMBC can find localized level sets for varying densities and thus enjoys local adaptivity. On the practical side, we conduct numerical experiments to empirically verify the effectiveness of BDMBC for mode estimation and level set estimation, which demonstrates the promising accuracy and efficiency of our proposed algorithm.
本稿では、局所レベルセットの確率(PLLS)と呼ばれる新しい尺度を提案し、モードベースクラスタリングのためのbagged $k$-距離(BDMBC)というアンサンブル学習アルゴリズムを提案します。この尺度は、グローバルしきい値を使用してさまざまな密度のすべてのクラスターを見つけることを可能にします。理論面では、bagged $k$-距離における最近傍点の数$k_D$、サブサンプルサイズ$s$、バギングラウンド$B$、および局所レベルセットの最近傍点の数$k_L$を適切に選択することで、BDMBCがモード推定の最適な収束率を達成できることを示します。比較的小さな$B$を使用すると、サブサンプルサイズ$s$は各バギングラウンドでのトレーニングデータ数$n$よりもはるかに小さくすることができ、同時に最近傍点の数$k_D$を削減できることがわかります。さらに、ハウスドルフ距離を用いてPLLSのレベルセット推定の収束速度が速いことを明らかにしました。これは、BDMBCが変化する密度に対して局所的なレベルセットを見つけることができ、したがって局所適応性を持つことを示しています。実践面では、モード推定とレベルセット推定におけるBDMBCの有効性を経験的に検証するための数値実験を行い、提案アルゴリズムの有望な精度と効率性を実証しました。
Linear cost and exponentially convergent approximation of Gaussian Matérn processes on intervals
区間上のガウスMatérn過程の線形コストと指数収束近似
The computational cost for inference and prediction of statistical models based on Gaussian processes with Matérn covariance functions scales cubically with the number of observations, limiting their applicability to large data sets. The cost can be reduced in certain special cases, but there are no generally applicable exact methods with linear cost. Several approximate methods have been introduced to reduce the cost, but most lack theoretical guarantees for accuracy. We consider Gaussian processes on bounded intervals with Matérn covariance functions and, for the first time, develop a generally applicable method with linear cost and a covariance error that decreases exponentially fast in the order $m$ of the proposed approximation. The method is based on an optimal rational approximation of the spectral density and results in an approximation that can be represented as a sum of $m$ independent Gaussian Markov processes, facilitating usage in general software for statistical inference. Besides theoretical justifications, we demonstrate accuracy empirically through carefully designed simulation studies, which show that the method outperforms state-of-the-art alternatives in accuracy for fixed computational cost in tasks like Gaussian process regression.
マテルン共分散関数を持つガウス過程に基づく統計モデルの推論および予測の計算コストは観測数に比例して増大し、大規模データセットへの適用が制限されます。このコストは特定の特殊なケースでは削減可能であるが、線形コストで一般に適用可能な厳密な手法は存在しない。コスト削減のためにいくつかの近似手法が導入されているが、そのほとんどは理論的な精度保証を欠いています。本稿では、マテルン共分散関数を持つ有界区間上のガウス過程を考察し、提案された近似のオーダー$m$で共分散誤差が指数関数的に減少する、線形コストで一般に適用可能な手法を初めて開発します。この手法は、スペクトル密度の最適な有理近似に基づいており、$m$個の独立したガウスマルコフ過程の和として表せる近似値が得られるため、統計的推論のための一般的なソフトウェアでの利用が容易になります。理論的な根拠に加え、慎重に設計されたシミュレーション研究を通じて経験的に精度を実証し、ガウス過程回帰などのタスクにおいて、固定計算コストでの精度において、この手法が最先端の代替手法を上回ることを示しました。
Invariant Subspace Decomposition
不変部分空間分解
We consider the task of predicting a response $Y$ from a set of covariates $X$ in settings where the conditional distribution of $Y$ given $X$ changes over time. For this to be feasible, assumptions on how the conditional distribution changes over time are required. Existing approaches assume, for example, that changes occur smoothly over time so that short-term prediction using only the recent past becomes feasible. To additionally exploit observations further in the past, we propose a novel invariance-based framework for linear conditionals, called Invariant Subspace Decomposition (ISD), that splits the conditional distribution into a time-invariant and a residual time-dependent component. As we show, this decomposition can be employed both for zero-shot and time-adaptation prediction tasks, that is, settings where either no or a small amount of training data is available at the time points we want to predict $Y$ at, respectively. We propose a practical estimation procedure, which automatically infers the decomposition using tools from approximate joint matrix diagonalization. Furthermore, we provide finite sample guarantees for the proposed estimator and demonstrate empirically that it indeed improves on approaches that do not use the additional invariant structure.
我々は、$X$を与えられた$Y$の条件付き分布が時間とともに変化する状況において、共変量$X$の集合から応答$Y$を予測するタスクを考える。これを実現するには、条件付き分布が時間とともにどのように変化するかに関する仮定が必要となります。既存のアプローチでは、例えば、変化は時間とともに滑らかに起こると仮定しているため、直近の過去のみを用いた短期予測は可能となります。さらに過去の観測値も活用するために、我々は不変量に基づく線形条件文のための新しいフレームワーク、不変部分空間分解(ISD)を提案します。これは、条件付き分布を時間不変成分と残差時間依存成分に分割します。我々が示すように、この分解はゼロショット予測タスクと時間適応予測タスクの両方、つまり、予測したい時点において訓練データが全く存在しないか、あるいは少量しか存在しない状況の両方に適用可能です。我々は、近似結合行列対角化などのツールを使用して分解を自動的に推論する実用的な推定手順を提案します。さらに、提案推定量には有限サンプル保証が与えられ、追加の不変構造を用いない手法よりも実際に改善されることを経験的に実証します。
Posterior Concentrations of Fully-Connected Bayesian Neural Networks with General Priors on the Weights
重みに一般的な事前分布を持つ全結合ベイズニューラルネットワークの事後集中
Bayesian approaches for training deep neural networks (BNNs) have received significant interest and have been effectively utilized in a wide range of applications. Several studies have examined the properties of posterior concentrations in BNNs. However, most of these studies focus solely on BNN models with sparse or heavy-tailed priors. Surprisingly, there are currently no theoretical results for BNNs using Gaussian priors, which are the most commonly used in practice. The lack of theory arises from the absence of approximation results of Deep Neural Networks (DNNs) that are non-sparse and have bounded parameters. In this paper, we present a new approximation theory for non-sparse DNNs with bounded parameters. Additionally, based on the approximation theory, we show that BNNs with non-sparse general priors can achieve near-minimax optimal posterior concentration rates around the true model.
深層ニューラルネットワーク(BNN)の訓練におけるベイズ的アプローチは大きな関心を集めており、幅広い用途で効果的に利用されてきた。BNNにおける事後集中の特性を検討した研究はいくつかあります。しかし、これらの研究のほとんどは、スパースまたは裾の重い事前分布を持つBNNモデルのみに焦点を当てています。驚くべきことに、実用上最も一般的に使用されているガウス事前分布を用いたBNNについては、現在、理論的な結果が存在しない。この理論の欠如は、非スパースかつ有界パラメータを持つディープニューラルネットワーク(DNN)の近似結果が存在しないことに起因しています。本稿では、有界パラメータを持つ非スパースDNNに対する新たな近似理論を提示します。さらに、この近似理論に基づき、非スパースな一般事前分布を持つBNNが、真のモデル周辺で近似ミニマックス最適事後分布密度を達成できることを示す。
Outlier Robust and Sparse Estimation of Linear Regression Coefficients
線形回帰係数の外れ値ロバストかつスパースな推定
We consider outlier-robust and sparse estimation of linear regression coefficients, when the covariates and the noises are contaminated by adversarial outliers and noises are sampled from a heavy-tailed distribution. Our results present sharper error bounds under weaker assumptions than prior studies that share similar interests with this study. Our analysis relies on some sharp concentration inequalities resulting from generic chaining.
共変量とノイズが敵対的外れ値によって汚染され、ノイズが裾の重い分布からサンプリングされる場合、外れ値ロバストかつスパースな線形回帰係数の推定を検討します。我々の結果は、本研究と同様の関心を持つ先行研究よりも弱い仮定の下で、より鋭い誤差境界を示しています。我々の分析は、ジェネリック連鎖に起因するいくつかの鋭い集中不等式に依存しています。
Affine Rank Minimization via Asymptotic Log-Det Iteratively Reweighted Least Squares
漸近的Log-Det反復重み付け最小二乗法によるアフィンランク最小化
The affine rank minimization problem is a well-known approach to matrix recovery. While there are various surrogates to this NP-hard problem, we prove that the asymptotic minimization of log-det objective functions indeed always reveals the desired, lowest-rank matrices—whereas such may or may not recover a sought-after ground truth. Concerning commonly applied methods such as iteratively reweighted least squares, one thus remains with two difficult to distinguish concerns: how problematic are local minima inherent to the approach truly; and opposingly, how influential instead is the numerical realization. We first show that comparable solution statements do not hold true for Schatten-$p$ functions, including the nuclear norm, and discuss the role of divergent minimizers. Subsequently, we outline corresponding implications for general optimization approaches as well as the more specific IRLS-$0$ algorithm, emphasizing through examples that the transition of the involved smoothing parameter to zero is frequently a more substantial issue than non-convexity. Lastly, we analyze several presented aspects empirically in a series of numerical experiments. In particular, allowing for instance sufficiently many iterations, one may even observe a phase transition for generic recoverability at the absolute theoretical minimum.
アフィンランク最小化問題は、行列復元へのよく知られたアプローチです。このNP困難問題には様々な代替手法がありますが、本研究では、log-det目的関数の漸近最小化が、実際には常に目的の最低ランク行列を明らかにすることを証明します。ただし、この最小化は、求める真の値を復元できる場合もあれば、そうでない場合もあります。反復重み付け最小二乗法などの一般的に用いられる手法に関しては、区別が難しい2つの懸念が残ります。1つは、このアプローチに内在する局所最小値が真にどれほど問題となるか、もう1つは、数値的実現がどれほど影響力を持つかです。まず、核ノルムを含むシャッテン-$p$関数では、同等の解法が成立しないことを示し、発散最小化関数の役割について考察します。次に、一般的な最適化アプローチと、より具体的なIRLS-$0$アルゴリズムについて、関連する影響を概説します。特に、関係する平滑化パラメータのゼロへの遷移は、非凸性よりもしばしば重要な問題となることを、例を用いて強調します。最後に、一連の数値実験において、提示したいくつかの側面を経験的に分析します。特に、例えば十分な回数の反復を許容すると、理論上の絶対最小値において、ジェネリックな回復可能性の相転移を観察することさえ可能です。
Causal Effect of Functional Treatment
機能的処理の因果効果
We study the causal effect with a functional treatment variable, where practical applications often arise in neuroscience, biomedical sciences, etc. Previous research concerning the effect of a functional variable on an outcome is typically restricted to exploring correlation rather than causality. The generalized propensity score, which is often used to calibrate the selection bias, is not directly applicable to a functional treatment variable due to a lack of definition of probability density function for functional data. We propose three estimators for the average dose-response functional based on the functional linear model, namely, the functional stabilized weight estimator, the outcome regression estimator and the doubly robust estimator, each of which has its own merits. We study their theoretical properties, which are corroborated through extensive numerical experiments. A real data application on electroencephalography data and disease severity demonstrates the practical value of our methods.
神経科学、生物医学などで実用的な応用がしばしば見られる機能的治療変数を用いて因果効果を調査します。機能変数が結果に与える影響に関するこれまでの研究は、通常、因果関係ではなく相関関係の調査に限定されています。選択バイアスの較正によく用いられる一般化傾向スコアは、関数データに対する確率密度関数の定義が欠如しているため、関数的治療変数に直接適用することができません。本研究では、関数線形モデルに基づく平均用量反応関数の推定量として、それぞれ独自の長所を持つ3つの推定量を提案します。すなわち、関数安定化重み推定量、アウトカム回帰推定量、および二重ロバスト推定量です。これらの推定量の理論的特性を解析し、広範な数値実験によって裏付けます。脳波データと疾患重症度への実データ適用により、本手法の実用的価値が実証されます。
Uplift Model Evaluation with Ordinal Dominance Graphs
順序優位グラフを用いたアップリフトモデルの評価
Uplift modelling is a subfield of causal learning that focuses on ranking entities by individual treatment effects. Uplift models are typically evaluated using Qini curves or Qini scores. While intuitive, the theoretical grounding for Qini in the literature is limited, and the mathematical connection to the well-understood Receiver Operating Characteristic (ROC) curve is unclear. In this paper, we introduce pROCini, a novel uplift evaluation metric that improves upon Qini in two important ways. First, it explicitly incorporates more information by taking into account negative outcomes. Second, it leverages this additional information within the Ordinal Dominance Graph framework, which is the basis behind the well known ROC curve, resulting in a mathematically well-behaved metric that facilitates theoretical analysis. We derive confidence bounds for pROCini, exploiting its theoretical properties. Finally, we empirically validate the improved discriminative power of ROCini and pROCini in a simulation study as well as via experiments on real data.
アップリフトモデリングは、因果学習のサブフィールドであり、個々の処理効果によってエンティティをランク付けすることに焦点を当てています。アップリフトモデルは通常、Qini曲線またはQiniスコアを使用して評価されます。直感的ではありますが、文献におけるQiniの理論的根拠は限られており、よく理解されている受信者操作特性(ROC)曲線との数学的関連性は明確ではありません。本稿では、2つの重要な点でQiniを改良した、新たな向上評価指標であるpROCiniを紹介します。第一に、否定的な結果を考慮することで、より多くの情報を明示的に組み込んでいます。第二に、この追加情報を、よく知られているROC曲線の基礎となる序数優位グラフフレームワーク内で活用することで、理論分析を容易にする数学的に良好な指標を実現します。pROCiniの理論的特性を利用して、信頼限界を導出します。最後に、シミュレーション研究と実データを用いた実験により、ROCiniとpROCiniの改善された識別力を実証的に検証します。
High-Dimensional L2-Boosting: Rate of Convergence
高次元L2ブースティング:収束速度
Boosting is one of the most significant developments in machine learning. This paper studies the rate of convergence of L2-Boosting in a high-dimensional setting under early stopping. We close a gap in the literature and provide the rate of convergence of L2-Boosting in a high-dimensional setting under approximate sparsity and without beta-min condition. We also show that the rate of convergence of the classical L2-Boosting depends on the design matrix described by a sparse eigenvalue condition. To show the latter results, we derive new, improved approximation results for the pure greedy algorithm, based on analyzing the revisiting behavior of L2-Boosting. These results might be of independent interest. Moreover, we introduce so-called “restricted” L2-Boosting. The restricted L2-Boosting algorithm sticks to the set of the previously chosen variables, exploits the information contained in these variables first and then only occasionally allows to add new variables to this set. We derive the rate of convergence for restricted L2-Boosting under early stopping which is close to the convergence rate of Lasso in an approximate sparse, high-dimensional setting without beta-min condition. We also introduce feasible rules for early stopping, which can be easily implemented and used in applied work. Finally, we present simulation studies to illustrate the relevance of our theoretical results and to provide insights into the practical aspects of boosting. In these simulation studies, L2-Boosting clearly outperforms Lasso. An empirical illustration and the proofs are contained in the Appendix.
ブースティングは機械学習における最も重要な発展の一つです。本論文では、早期停止を伴う高次元設定におけるL2ブースティングの収束速度について考察します。文献におけるギャップを埋め、近似スパース性およびベータ最小条件なしの高次元設定におけるL2ブースティングの収束速度を示します。また、従来のL2ブースティングの収束速度は、スパース固有値条件によって記述される計画行列に依存することを示します。後者の結果を示すために、L2ブースティングの再訪挙動の解析に基づき、純粋貪欲アルゴリズムの近似結果を新たに改良して導きます。これらの結果は独立して興味深いものとなる可能性があります。さらに、いわゆる「制限付き」L2ブースティングを導入します。制限付きL2ブースティングアルゴリズムは、以前に選択された変数の集合に固執し、まずこれらの変数に含まれる情報を活用し、その後、この集合に新しい変数を追加することを稀にしか許可しません。早期停止下での制限付きL2ブースティングの収束率を導出します。これは、β最小条件のない近似スパース、高次元設定におけるLassoの収束率に近い値です。また、応用研究で容易に実装して使用できる、早期停止の実行可能な規則も紹介します。最後に、理論的結果の妥当性を示し、ブースティングの実際的な側面についての洞察を提供するために、シミュレーション研究を紹介します。これらのシミュレーション研究では、L2ブースティングはLassoを明らかに上回ります。実証的な図解と証明は付録に記載されています。
Feature Learning in Finite-Width Bayesian Deep Linear Networks with Multiple Outputs and Convolutional Layers
複数の出力と畳み込み層を持つ有限幅ベイズ深層線形ネットワークにおける特徴学習
Deep linear networks have been extensively studied, as they provide simplified models of deep learning. However, little is known in the case of finite-width architectures with multiple outputs and convolutional layers. In this manuscript, we provide rigorous results for the statistics of functions implemented by the aforementioned class of networks, thus moving closer to a complete characterization of feature learning in the Bayesian setting. Our results include: (i) an exact and elementary non-asymptotic integral representation for the joint prior distribution over the outputs, given in terms of a mixture of Gaussians; (ii) an analytical formula for the posterior distribution in the case of squared error loss function (Gaussian likelihood); (iii) a quantitative description of the feature learning infinite-width regime, using large deviation theory. From a physical perspective, deep architectures with multiple outputs or convolutional layers represent different manifestations of kernel shape renormalization, and our work provides a dictionary that translates this physics intuition and terminology into rigorous Bayesian statistics.
深層線形ネットワークは、深層学習の簡略化されたモデルを提供するため、広く研究されてきた。しかし、複数の出力と畳み込み層を持つ有限幅アーキテクチャの場合についてはほとんど知られていない。本稿では、前述のネットワーククラスによって実装される関数の統計について厳密な結果を提供し、ベイズ設定における特徴学習の完全な特性評価に近づく。我々の結果は以下の通りです。(i)出力上の結合事前分布の正確かつ基本的な非漸近積分表現(ガウス分布の混合で与えられる)、(ii)二乗誤差損失関数(ガウス尤度)の場合の事後分布の解析的公式、(iii)大偏差理論を用いた特徴学習無限幅領域の定量的記述。物理的な観点から見ると、複数の出力または畳み込み層を持つディープ アーキテクチャは、カーネル形状の再正規化のさまざまな現れを表しており、私たちの研究は、この物理的な直感と用語を厳密なベイズ統計に変換する辞書を提供します。
How good is your Laplace approximation of the Bayesian posterior? Finite-sample computable error bounds for a variety of useful divergences
ベイズ事後分布のラプラス近似はどの程度正確ですか?様々な有用なダイバージェンスに対する有限サンプル計算可能誤差境界
The Laplace approximation is a popular method for constructing a Gaussian approximation to the Bayesian posterior and thereby approximating the posterior mean and variance. But approximation quality is a concern. One might consider using rate-of-convergence bounds from certain versions of the Bayesian Central Limit Theorem (BCLT) to provide quality guarantees. But existing bounds require assumptions that are unrealistic even for relatively simple real-life Bayesian analyses; more specifically, existing bounds either (1) require knowing the true data-generating parameter, (2) are asymptotic in the number of samples, (3) do not control the Bayesian posterior mean, or (4) require strongly log concave models to compute. In this work, we provide the first computable bounds on quality that simultaneously (1) do not require knowing the true parameter, (2) apply to finite samples, (3) control posterior means and variances, and (4) apply generally to models that satisfy the conditions of the asymptotic BCLT. Moreover, we substantially improve the dimension dependence of existing bounds; in fact, we achieve the lowest-order dimension dependence possible in the general case. We compute exact constants in our bounds for a variety of standard models, including logistic regression, and numerically demonstrate their utility. We provide a framework for analysis of more complex models.
ラプラス近似は、ベイズ事後分布のガウス近似を構築し、それによって事後平均と分散を近似するための一般的な方法です。しかし、近似の品質が懸念されます。品質保証を提供するために、ベイズ中心極限定理(BCLT)の特定のバージョンから得られる収束速度の境界値を使用することが考えられます。しかし、既存の境界値は、比較的単純な現実のベイズ分析でさえ非現実的な仮定を必要とします。より具体的には、既存の境界値は、(1)真のデータ生成パラメータを知ることを必要とする、(2)サンプル数に対して漸近的である、(3)ベイズ事後平均を制御しない、(4)計算に強い対数凹モデルを必要とする、のいずれかです。本研究では、(1)真のパラメータを知る必要がない、(2)有限サンプルに適用できる、(3)事後平均と分散を制御し、(4)漸近的BCLTの条件を満たすモデルに一般的に適用できる、初めての計算可能な品質の境界値を提供します。さらに、既存の境界値の次元依存性を大幅に改善し、実際、一般的なケースで可能な最低次の次元依存性を実現した。ロジスティック回帰を含む様々な標準モデルについて、我々の境界内の正確な定数を計算し、その有用性を数値的に実証します。より複雑なモデルを解析するための枠組みを提供します。
Integral Probability Metrics Meet Neural Networks: The Radon-Kolmogorov-Smirnov Test
積分確率メトリクスとニューラルネットワークの出会い:ラドン・コルモゴロフ・スミルノフ検定
Integral probability metrics (IPMs) constitute a general class of nonparametric two-sample tests that are based on maximizing the mean difference between samples from one distribution $P$ versus another $Q$, over all choices of data transformations $f$ living in some function space $\mathcal{F}$. Inspired by recent work that connects what are known as functions of Radon bounded variation (RBV) and neural networks (Parhi and Nowak, 2021, 2023), we study the IPM defined by taking $\mathcal{F}$ to be the unit ball in the RBV space of a given smoothness degree $k \geq 0$. This test, which we refer to as the Radon-Kolmogorov-Smirnov (RKS) test, can be viewed as a generalization of the well-known and classical Kolmogorov-Smirnov (KS) test to multiple dimensions and higher orders of smoothness. It is also intimately connected to neural networks: we prove that the witness in the RKS test—the function $f$ achieving the maximum mean difference—is always a ridge spline of degree $k$, i.e., a single neuron in a neural network. We can thus leverage the power of modern neural network optimization toolkits to (approximately) maximize the criterion that underlies the RKS test. We prove that the RKS test has asymptotically full power at distinguishing any distinct pair $P \not= Q$ of distributions, derive its asymptotic null distribution, and carry out experiments to elucidate the strengths and weaknesses of the RKS test versus the more traditional kernel MMD test.
積分確率計量法(IPM)は、ある関数空間$\mathcal{F}$に存在するデータ変換$f$のすべての選択肢にわたって、ある分布$P$と別の分布$Q$からのサンプル間の平均差を最大化することに基づく、ノンパラメトリックな2サンプル検定の一般的なクラスです。Radon bounded variation (RBV)の関数とニューラル ネットワークとして知られるものを関連付ける最近の研究(Parhi and Nowak, 2021, 2023)に触発され、我々は$\mathcal{F}$を特定の滑らかさの次数$k \geq 0$のRBV空間内の単位球とすることで定義されるIPMを調べます。Radon-Kolmogorov-Smirnov (RKS)検定と呼ぶこの検定は、よく知られた古典的なKolmogorov-Smirnov (KS)検定を多次元および高次の滑らかさに一般化したものと考えることができます。これはニューラルネットワークとも密接に関係しています。RKSテストの証人(平均差が最大となる関数$f$)は常に次数$k$のリッジスプライン、つまりニューラルネットワーク内の単一ニューロンであることを証明します。これにより、最新のニューラルネットワーク最適化ツールキットの力を活用して、RKSテストの基礎となる基準を(近似的に)最大化することができます。RKSテストは、分布の任意の異なるペア$P \not= Q$を漸近的に完全に区別できることを証明し、その漸近的な帰無分布を導出し、より伝統的なカーネルMMDテストと比較したRKSテストの長所と短所を明らかにする実験を行います。
On Inference for the Support Vector Machine
サポートベクターマシンの推論について
The linear support vector machine has a parametrised decision boundary. The paper considers inference for the corresponding parameters, which indicate the effects of individual variables on the decision boundary. The proposed inference is via a convolution-smoothed version of the SVM loss function, this having several inferential advantages over the original SVM, whose associated loss function is not everywhere differentiable. Notably, convolution-smoothing comes with non-asymptotic theoretical guarantees, including a distributional approximation to the parameter estimator that scales more favourably with the dimension of the feature vector. The differentiability of the loss function produces other advantages in some settings; for instance, by facilitating the inclusion of penalties or the synthesis of information from a large number of small samples. The paper closes by relating the linear SVM parameters to those of some probability models for binary outcomes.
線形サポートベクターマシンは、パラメータ化された決定境界を持つ。本論文では、個々の変数が決定境界に及ぼす影響を示す、対応するパラメータの推論について考察します。提案される推論は、畳み込み平滑化SVM損失関数によるもので、これは、関連する損失関数がどこでも微分可能ではない元のSVMに比べて、いくつかの推論上の利点を持つ。特に、畳み込み平滑化は、特徴ベクトルの次元に応じてより有利にスケーリングするパラメータ推定値の分布近似など、非漸近的な理論的保証を伴う。損失関数の微分可能性は、いくつかの設定において他の利点も生み出す。例えば、ペナルティの組み込みや、多数の小さなサンプルからの情報の統合を容易にするなどです。この論文は、線形SVMパラメータをバイナリ結果のいくつかの確率モデルのパラメータと関連付けて締めくくっています。
Random Pruning Over-parameterized Neural Networks Can Improve Generalization: A Training Dynamics Analysis
過剰パラメータ化されたニューラルネットワークのランダムプルーニングは汎化能力を向上させる:学習ダイナミクスの分析
It has been observed that applying pruning-at-initialization methods and training the sparse networks can sometimes yield slightly better test performance than training the original dense network. Such experimental observations are yet to be understood theoretically. This work makes the first attempt to study this phenomenon. Specifically, we identify a theoretical minimal setting and study a classification task with a one-hidden-layer neural network, which is randomly pruned according to different rates at the initialization. We show that as long as the pruning rate is below a certain threshold, the network provably exhibits good generalization performance after training.More surprisingly, the generalization bound gets better as the pruning rate mildly gets larger. To complement this positive result, we also show a negative result: there exists a large pruning rate such that while gradient descent is still able to drive the training loss toward zero, the generalization performance is no better than random guessing. This further suggests that pruning can change the feature learning process, which leads to the performance drop of the pruned neural network. To our knowledge, this is the first theory work studying how different pruning rates affect neural networks’ performance, suggesting that an appropriate pruning rate might improve the neural network’s generalization.
初期化時に枝刈りを行う手法を適用し、スパースネットワークを学習させると、元の稠密ネットワークを学習させるよりもテスト性能がわずかに向上することが観察されています。このような実験的観察は、理論的にはまだ解明されていない。本研究は、この現象を初めて検証するものです。具体的には、理論的な最小設定を特定し、初期化時に異なる率でランダムに枝刈りされた1層隠れ層ニューラルネットワークを用いた分類タスクを検証します。枝刈り率が特定の閾値以下である限り、ネットワークは学習後に良好な汎化性能を示すことが証明されます。さらに驚くべきことに、枝刈り率がわずかに大きくなるにつれて、汎化限界は改善されます。この肯定的な結果を補完するために、否定的な結果も示す。すなわち、勾配降下法によって学習損失をゼロに近づけることができる一方で、汎化性能がランダム推測と同等になるような大きな枝刈り率が存在します。これはさらに、枝刈りによって特徴学習プロセスが変化し、枝刈りされたニューラルネットワークの性能低下につながる可能性があることを示唆しています。我々の知る限り、本研究は、異なる枝刈り率がニューラルネットワークの性能にどのように影響するかを研究した初の理論研究であり、適切な枝刈り率がニューラルネットワークの汎化を向上させる可能性を示唆しています。
Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability
因果抽象化:メカニズム的解釈可能性の理論的基礎
Causal abstraction provides a theoretical foundation for mechanistic interpretability, the field concerned with providing intelligible algorithms that are faithful simplifications of the known, but opaque low-level details of black box AI models. Our contributions are (1) generalizing the theory of causal abstraction from mechanism replacement (i.e., hard and soft interventions) to arbitrary mechanism transformation (i.e., functionals from old mechanisms to new mechanisms), (2) providing a flexible, yet precise formalization for the core concepts of polysemantic neurons, the linear representation hypothesis, modular features, and graded faithfulness, and (3) unifying a variety of mechanistic interpretability methods in the common language of causal abstraction, namely, activation and path patching, causal mediation analysis, causal scrubbing, causal tracing, circuit analysis, concept erasure, sparse autoencoders, differential binary masking, distributed alignment search, and steering.
因果抽象化は、ブラックボックスAIモデルの既知だが不透明な低レベルの詳細を忠実に単純化した分かりやすいアルゴリズムを提供することを目的とする分野である、メカニズム解釈可能性の理論的基礎を提供します。私たちの貢献は、(1)因果抽象化理論をメカニズムの置き換え(すなわち、ハード介入とソフト介入)から任意のメカニズム変換(すなわち、古いメカニズムから新しいメカニズムへの関数)へと一般化すること、(2)多義的ニューロンの中核概念、線形表現仮説、モジュール特徴、段階的忠実性について、柔軟かつ正確な形式化を提供すること、(3)活性化およびパスパッチング、因果媒介分析、因果スクラビング、因果トレーシング、回路分析、概念消去、スパースオートエンコーダ、差分バイナリマスキング、分散アライメントサーチ、ステアリングといった様々なメカニズム解釈可能性手法を因果抽象化という共通言語に統合することです。
Implicit vs Unfolded Graph Neural Networks
暗黙的グラフニューラルネットワークと展開型グラフニューラルネットワーク
It has been observed that message-passing graph neural networks (GNN) sometimes struggle to maintain a healthy balance between the efficient / scalable modeling of long-range dependencies across nodes while avoiding unintended consequences such oversmoothed node representations, sensitivity to spurious edges, or inadequate model interpretability. To address these and other issues, two separate strategies have recently been proposed, namely implicit and unfolded GNNs (that we abbreviate to IGNN and UGNN respectively). The former treats node representations as the fixed points of a deep equilibrium model that can efficiently facilitate arbitrary implicit propagation across the graph with a fixed memory footprint. In contrast, the latter involves treating graph propagation as unfolded descent iterations as applied to some graph-regularized energy function. While motivated differently, in this paper we carefully quantify explicit situations where the solutions they produce are equivalent and others where their properties sharply diverge. This includes the analysis of convergence, representational capacity, and interpretability. In support of this analysis, we also provide empirical head-to-head comparisons across multiple synthetic and public real-world node classification benchmarks. These results indicate that while IGNN is substantially more memory-efficient, UGNN models support unique, integrated graph attention mechanisms and propagation rules that can achieve strong node classification accuracy across disparate regimes such as adversarially-perturbed graphs, graphs with heterophily, and graphs involving long-range dependencies.
メッセージ パッシング グラフ ニューラル ネットワーク(GNN)では、ノード間の長距離依存関係の効率的でスケーラブルなモデリングと、過度に平滑化されたノード表現、偽のエッジへの敏感さ、不適切なモデル解釈可能性などの意図しない結果を回避との間の健全なバランスを維持するのに苦労することが時々あることが観察されています。これらの問題やその他の問題に対処するため、最近、暗黙的GNNと展開GNN (それぞれIGNNとUGNNと略す)という2つの異なる戦略が提案されました。前者は、ノード表現を、固定メモリ フットプリントでグラフ全体の任意の暗黙的伝播を効率的に促進できる深い平衡モデルの固定点として扱います。対照的に、後者は、グラフ伝播を、何らかのグラフ正規化エネルギー関数に適用された展開降下反復として扱います。動機は異なりますが、本稿では、生成される解が同等である明示的な状況と、特性が大きく異なる状況を注意深く定量化します。これには、収束、表現能力、および解釈可能性の分析が含まれます。この分析をサポートするために、複数の合成および公開されている現実世界のノード分類ベンチマーク間での経験的な直接比較も提供します。これらの結果は、IGNNの方がメモリ効率が大幅に優れている一方で、UGNNモデルは、敵対的に摂動されたグラフ、異好性を持つグラフ、長距離依存性を含むグラフなどの異なる領域にわたって強力なノード分類精度を達成できる、独自の統合グラフ アテンション メカニズムと伝播ルールをサポートしていることを示しています。
Towards Optimal Branching of Linear and Semidefinite Relaxations for Neural Network Robustness Certification
ニューラルネットワークの堅牢性認証のための線形緩和法と半正定値緩和法の最適分岐に向けて
In this paper, we study certifying the robustness of ReLU neural networks against adversarial input perturbations. To diminish the relaxation error suffered by the popular linear programming (LP) and semidefinite programming (SDP) certification methods, we take a branch-and-bound approach to propose partitioning the input uncertainty set and solving the relaxations on each part separately. We show that this approach reduces relaxation error, and that the error is eliminated entirely upon performing an LP relaxation with a partition intelligently designed to exploit the nature of the ReLU activations. To scale this approach to large networks, we consider using a coarser partition whereby the number of parts in the partition is reduced. We prove that computing such a coarse partition that directly minimizes the LP relaxation error is NP-hard. By instead minimizing the worst-case LP relaxation error, we develop a closed-form branching scheme in the single-hidden layer case. We extend the analysis to the SDP, where the feasible set geometry is exploited to design a branching scheme that minimizes the worst-case SDP relaxation error. Experiments on MNIST, CIFAR-10, and Wisconsin breast cancer diagnosis classifiers demonstrate significant increases in the percentages of test samples certified. By independently increasing the input size and the number of layers, we empirically illustrate under which regimes the branched LP and branched SDP are best applied. Finally, we extend our LP branching method into a multi-layer branching heuristic, which attains comparable performance to prior state-of-the-art heuristics on large-scale, deep neural network certification benchmarks.
本稿では、ReLUニューラルネットワークの敵対的入力摂動に対する堅牢性の証明について検討します。一般的な線形計画法(LP)および半正定値計画法(SDP)の証明法で生じる緩和誤差を低減するため、分岐限定法を用いて入力不確実性集合を分割し、各部分について個別に緩和を解くことを提案します。このアプローチにより緩和誤差が低減し、ReLU活性化の性質を利用するようにインテリジェントに設計された分割を用いてLP緩和を実行することで誤差が完全に除去されることを示す。このアプローチを大規模ネットワークに拡張するため、分割部分の数を減らす粗い分割の使用を検討します。LP緩和誤差を直接最小化する粗い分割を計算することはNP困難であることを証明した。代わりに、最悪ケースのLP緩和誤差を最小化することで、単一隠れ層の場合における閉形式の分岐スキームを開発します。我々は分析をSDPに拡張し、実行可能セット形状を利用して、最悪のSDP緩和誤差を最小化する分岐スキームを設計します。MNIST、CIFAR-10、およびWisconsin乳がん診断分類器での実験では、認証されたテストサンプルの割合が大幅に増加することが示されています。入力サイズとレイヤー数を個別に増加することにより、分岐LPと分岐SDPがどのレジームで最も適切に適用されるかを経験的に示します。最後に、LP分岐法を多層分岐ヒューリスティックに拡張し、大規模なディープ ニューラル ネットワーク認証ベンチマークで、従来の最先端のヒューリスティックに匹敵するパフォーマンスを実現します。
GraphNeuralNetworks.jl: Deep Learning on Graphs with Julia
GraphNeuralNetworks.jl: Juliaを用いたグラフ上の深層学習
GraphNeuralNetworks.jl is an open-source framework for deep learning on graphs, written in the Julia programming language. It supports multiple GPU backends, generic sparse or dense graph representations, and offers convenient interfaces for manipulating standard, heterogeneous, and temporal graphs with attributes at the node, edge, and graph levels. The framework allows users to define custom graph convolutional layers using gather/scatter message-passing primitives or optimized fused operations. It also includes several popular layers, enabling efficient experimentation with complex deep architectures. The package is available on GitHub: https://github.com/JuliaGraphs/GraphNeuralNetworks.jl.
GraphNeuralNetworks.jlは、Juliaプログラミング言語で記述された、グラフ上のディープラーニングのためのオープンソースフレームワークです。複数のGPUバックエンド、汎用的なスパースおよびデンスグラフ表現をサポートし、ノード、エッジ、グラフレベルの属性を持つ標準グラフ、異種グラフ、および時系列グラフを操作するための便利なインターフェースを提供します。このフレームワークでは、ギャザー/スキャッターメッセージパッシングプリミティブまたは最適化された融合演算を使用して、カスタムグラフ畳み込み層を定義できます。また、いくつかの一般的な層も含まれているため、複雑なディープラーニングアーキテクチャを効率的に実験できます。パッケージはGitHub (https://github.com/JuliaGraphs/GraphNeuralNetworks.jl)で入手できます。
Dynamic angular synchronization under smoothness constraints
滑らかさ制約下での動的角度同期
Given an undirected measurement graph $\mathcal{H} = ([n], \mathcal{E})$, the classical angular synchronization problem consists of recovering unknown angles $\theta_1^*,\dots,\theta_n^*$ from a collection of noisy pairwise measurements of the form $(\theta_i^* – \theta_j^*) \mod 2\pi$, for all $\{i,j\} \in \mathcal{E}$. This problem arises in a variety of applications, including computer vision, time synchronization of distributed networks, and ranking from pairwise comparisons. In this paper, we consider a dynamic version of this problem where the angles, and also the measurement graphs evolve over $T$ time points. Assuming a smoothness condition on the evolution of thelatent angles, we derive three algorithms for joint estimation of the angles over all time points. Moreover, for one of the algorithms, we establish non-asymptotic recovery guarantees for the mean-squared error (MSE) under different statistical models. In particular, we show that the MSE converges to zero as $T$ increases under milder conditions than in the static setting. This includes the setting where the measurement graphs are highly sparse and disconnected, and also when the measurement noise is large and can potentially increase with $T$. We complement our theoretical results with experiments on synthetic data.
無向測定グラフ$\mathcal{H} = ([n], \mathcal{E})$が与えられた場合、古典的な角度同期問題は、すべての$\{i,j\} \in \mathcal{E}$について、形式$(\theta_i^* – \theta_j^*) \mod 2\pi$のノイズを含むペアワイズ測定のコレクションから未知の角度$\theta_1^*,\dots,\theta_n^*$を回復することから構成されます。この問題は、コンピューター ビジョン、分散ネットワークの時間同期、ペアワイズ比較によるランキングなど、さまざまなアプリケーションで発生します。本稿では、この問題の動的バージョン、つまり角度と測定グラフが$T$時点にわたって変化するバージョンを検討します。潜在的な角度の変化に関する平滑性条件を仮定して、すべての時点にわたって角度を共同で推定する3つのアルゴリズムを導出します。さらに、アルゴリズムの1つについて、異なる統計モデル下における平均二乗誤差(MSE)の非漸近的回復保証を確立しました。特に、静的設定よりも緩やかな条件下では、$T$の増加とともにMSEがゼロに収束することを示します。これには、測定グラフが非常にスパースで切断されている場合や、測定ノイズが大きく、$T$とともに増加する可能性がある場合も含まれます。合成データを用いた実験により、理論結果を補完します。
Derivative-Informed Neural Operator Acceleration of Geometric MCMC for Infinite-Dimensional Bayesian Inverse Problems
無限次元ベイズ逆問題に対する幾何MCMCの微分情報に基づくニューラル演算子による高速化
We propose an operator learning approach to accelerate geometric Markov chain Monte Carlo (MCMC) for solving infinite-dimensional Bayesian inverse problems (BIPs). While geometric MCMC employs high-quality proposals that adapt to posterior local geometry, it requires repeated computations of gradients and Hessians of the log-likelihood, which becomes prohibitive when the parameter-to-observable (PtO) map is defined through expensive-to-solve parametric partial differential equations (PDEs). We consider a delayed-acceptance geometric MCMC method driven by a neural operator surrogate of the PtO map, where the proposal exploits fast surrogate predictions of the log-likelihood and, simultaneously, its gradient and Hessian. To achieve a substantial speedup, the surrogate must accurately approximate the PtO map and its Jacobian, which often demands a prohibitively large number of PtO map samples via conventional operator learning methods. In this work, we present an extension of derivative-informed operator learning [O’Leary-Roseberry et al., J. Comput. Phys., 496 (2024)] that uses joint samples of the PtO map and its Jacobian. This leads to derivative-informed neural operator (DINO) surrogates that accurately predict the observables and posterior local geometry at a significantly lower training cost than conventional methods. Cost and error analysis for reduced basis DINO surrogates are provided. Numerical studies demonstrate that DINO-driven MCMC generates effective posterior samples 3–9 times faster than geometric MCMC and 60–97 times faster than prior geometry-based MCMC. Furthermore, the training cost of DINO surrogates breaks even compared to geometric MCMC after just 10–25 effective posterior samples.
我々は、無限次元ベイズ逆問題(BIP)を解くための幾何マルコフ連鎖モンテカルロ(MCMC)を高速化する演算子学習アプローチを提案します。幾何MCMCは事後局所幾何学に適応する高品質の提案を採用するが、対数尤度の勾配とヘッシアンを繰り返し計算する必要があり、パラメータから観測可能なもの(PtO)マップが、解くのにコストのかかるパラメトリック偏微分方程式(PDE)によって定義されている場合には、計算が困難となります。我々は、PtOマップのニューラル演算子代理によって駆動される遅延受容幾何MCMC法を検討します。この提案では、対数尤度、およびその勾配とヘッシアンの高速代理予測を活用します。大幅な高速化を実現するには、代理はPtOマップとそのヤコビアンを正確に近似する必要があり、従来の演算子学習法では、多くの場合、膨大な数のPtOマップサンプルが必要となります。本研究では、PtOマップとそのヤコビアンの結合サンプルを使用する、微分情報に基づく演算子学習[O’Leary-Roseberryら, J. Comput. Phys., 496 (2024)]の拡張を提示します。これにより、従来の方法よりも大幅に低いトレーニングコストで、観測量と事後局所形状を正確に予測する微分情報に基づくニューラル演算子(DINO)サロゲートが実現します。縮減基底DINOサロゲートのコストと誤差の分析も提供します。数値研究により、DINO駆動型MCMCは、幾何学MCMCよりも3~9倍、事前幾何学ベースMCMCよりも60~97倍高速に有効事後サンプルを生成することが実証されています。さらに、DINOサロゲートのトレーニングコストは、わずか10~25の有効事後サンプルで幾何学MCMCと同等になります。
Wasserstein F-tests for Frechet regression on Bures-Wasserstein manifolds
ビュール-ワッサーシュタイン多様体上のフレシェ回帰に対するワッサーシュタインF検定
This paper addresses regression analysis for covariance matrix-valued outcomes with Euclidean covariates, motivated by applications in single-cell genomics and neuroscience where covariance matrices are observed across many samples. Our analysis leverages Fr\’echet regression on the Bures-Wasserstein manifold to estimate the conditional Fr\’echet mean given covariates $x$. We establish a non-asymptotic uniform $\sqrt{n}$-rate of convergence (up to logarithmic factors) over covariates with $\|x\| \lesssim \sqrt{\log n}$ and derive a pointwise central limit theorem to enable statistical inference. For testing covariate effects, we devise a novel test whose null distribution converges to a weighted sum of independent chi-square distributions, with power guarantees against a sequence of contiguous alternatives. Simulations validate the accuracy of the asymptotic theory. Finally, we apply our methods to a single-cell gene expression dataset, revealing age-related changes in gene co-expression networks.
本論文では、ユークリッド共変量を持つ共分散行列値の結果に対する回帰分析について取り上げます。これは、共分散行列が多くのサンプルにわたって観測される単一細胞ゲノミクスと神経科学への応用を動機としています。私たちの分析では、共変量$x$が与えられた場合の条件付きFr\’echet平均を推定するために、Bures-Wasserstein多様体上のFr\’echet回帰を利用します。$\|x\|を持つ共変量に対して、非漸近的な一様$\sqrt{n}$収束率(対数係数まで)を確立します。\lesssim \sqrt{\log n}$を仮定し、統計的推論を可能にする点ごとの中心極限定理を導出します。共変量効果の検定には、帰無分布が独立したカイ二乗分布の重み付き和に収束し、連続する対立仮説の列に対する検出力を保証するような、新たな検定法を考案します。シミュレーションにより漸近理論の精度を検証します。最後に、本手法を単一細胞遺伝子発現データセットに適用し、遺伝子共発現ネットワークにおける加齢に伴う変化を明らかにします。
Distributed Stochastic Bilevel Optimization: Improved Complexity and Heterogeneity Analysis
分散確率的二階層最適化:複雑性と異質性分析の改善
This paper considers solving a class of nonconvex-strongly-convex distributed stochastic bilevel optimization (DSBO) problems with personalized inner-level objectives. Most existing algorithms require computational loops for hypergradient estimation, leading to computational inefficiency. Moreover, the impact of data heterogeneity on convergence in bilevel problems is not explicitly characterized yet. To address these issues, we propose LoPA, a loopless personalized distributed algorithm that leverages a tracking mechanism for iterative approximation of inner-level solutions and Hessian-inverse matrices without relying on extra computation loops. Our theoretical analysis explicitly characterizes the heterogeneity across nodes (denoted by $b$), and establishes a sublinear rate of $\mathcal{O}( {\frac{1}{{{{\left( {1 – \rho } \right)}}K}}\!+ \!\frac{{(\frac{b}{\sqrt{m}})^{\frac{2}{3}} }}{{\left( {1 – \rho } \right)^{\frac{2}{3}} K^{\frac{2}{3}} }} \!+ \!\frac{1}{\sqrt{ K }}( {\sigma _{\operatorname{p} }} + \frac{1}{\sqrt{m}}{\sigma _{\operatorname{c} }} ) } )$ without the boundedness of local hypergradients, where ${\sigma _{\operatorname{p} }}$ and ${\sigma _{\operatorname{c} }}$ represent the gradient sampling variances associated with the inner- and outer-level variables, respectively. We also integrate LoPA with a gradient tracking scheme to eliminate the impact of data heterogeneity, yielding an improved rate of ${{\mathcal{O}}}(\frac{{1}}{{ (1-\rho)^2K }} \!+\! \frac{1}{{\sqrt{K}}}( \sigma_{\rm{p}} \!+\! \frac{1}{\sqrt{m}}\sigma_{\rm{c}} ) )$. The computational complexity of LoPA is of ${{\mathcal{O}}}({\epsilon^{-2}})$ to an $\epsilon$-stationary point, matching the communication complexity due to the loopless structure, which outperforms existing counterparts for DSBO. Numerical experiments validate the effectiveness of the proposed algorithm.
本論文では、パーソナライズされた内部レベル目的関数を持つ、非凸強凸分散確率的二階層最適化(DSBO)問題の解法について考察します。既存のアルゴリズムの多くは、超勾配推定に計算ループを必要とし、計算効率の低下につながる。さらに、二階層問題におけるデータの異質性が収束性に与える影響は、まだ明確には解明されていない。これらの問題に対処するため、本論文では、ループレスなパーソナライズ分散アルゴリズムであるLoPAを提案します。LoPAは、追加の計算ループに依存せずに、内部レベル解とヘッセ逆行列の反復近似のための追跡メカニズムを活用します。我々の理論分析は、ノード間の不均一性($b$で示される)を明示的に特徴付け、局所的超勾配の有界性なしに、$\mathcal{O}( {\frac{1}{{{{\left( {1 – \rho } \right)}}K}}\!+ \!\frac{{(\frac{b}{\sqrt{m}})^{\frac{2}{3}} }}{{\left( {1 – \rho } \right)^{\frac{2}{3}} K^{\frac{2}{3}} }} \!+ \!\frac{1}{\sqrt{ K }}( {\sigma _{\operatorname{p} }} + \frac{1}{\sqrt{m}}{\sigma _{\operatorname{c} }} ) } )$の線形以下の速度を確立します。ここで${\sigma _{\operatorname{p} }}$と${\sigma _{\operatorname{c} }}$は、それぞれ内部レベル変数と外部レベル変数に関連付けられた勾配サンプリング分散を表します。また、LoPAを勾配追跡スキームと統合することで、データの異質性の影響を排除し、${{\mathcal{O}}}(\frac{{1}}{{ (1-\rho)^2K }} \!+\! \frac{1}{{\sqrt{K}}}( \sigma_{\rm{p}} \!+\! \frac{1}{\sqrt{m}}\sigma_{\rm{c}} ) )$という改善されたレートを実現しました。LoPAの計算複雑度は、$\epsilon$定常点まで${{\mathcal{O}}}({\epsilon^{-2}})$であり、ループレス構造による通信複雑度と一致し、DSBOの既存の同等の手法よりも優れています。数値実験により、提案アルゴリズムの有効性が検証されています。
Learning causal graphs via nonlinear sufficient dimension reduction
非線形十分次元削減による因果グラフの学習
We introduce a new nonparametric methodology for estimating a directed acyclic graph (DAG) from observational data. Our method is nonparametric in nature: it does not impose any specific form on the joint distribution of the underlying DAG. Instead, it relies on a linear operator on reproducing kernel Hilbert spaces to evaluate conditional independence. However, a fully nonparametric approach would involve conditioning on a large number of random variables, subjecting it to the curse of dimensionality. To solve this problem, we apply nonlinear sufficient dimension reduction to reduce the number of variables before evaluating the conditional independence. We develop an estimator for the DAG, based on a linear operator that characterizes conditional independence, and establish the consistency and convergence rates of this estimator, as well as the uniform consistency of the estimated Markov equivalence class. We introduce a modified PC-algorithm to implement the estimating procedure efficiently such that the complexity depends on the sparseness of the underlying true DAG. We demonstrate the effectiveness of our methodology through simulations and a real data analysis.
観測データから有向非巡回グラフ(DAG)を推定するための、新たなノンパラメトリック手法を導入します。本手法は本質的にノンパラメトリックであり、基となるDAGの結合分布に特定の形式を課すものではない。代わりに、再生核ヒルベルト空間の線形演算子を用いて条件付き独立性を評価します。しかし、完全なノンパラメトリック手法は、多数のランダム変数を条件付けすることになり、次元の呪いに晒されます。この問題を解決するため、条件付き独立性を評価する前に、非線形の十分な次元削減を適用して変数の数を削減します。条件付き独立性を特徴付ける線形演算子に基づくDAGの推定量を開発し、この推定量の一貫性と収束率、および推定されたマルコフ同値類の一様一貫性を確立します。推定手順を効率的に実装するために、修正されたPCアルゴリズムを導入します。このアルゴリズムでは、複雑さは基となる真のDAGのスパース性に依存します。シミュレーションと実データ解析を通して、本手法の有効性を実証します。
On Consistent Bayesian Inference from Synthetic Data
合成データからの一貫性のあるベイズ推論について
Generating synthetic data, with or without differential privacy, has attracted significant attention as a potential solution to the dilemma between making data easily available, and the privacy of data subjects. Several works have shown that consistency of downstream analyses from synthetic data, including accurate uncertainty estimation, requires accounting for the synthetic data generation. There are very few methods of doing so, most of them for frequentist analysis. In this paper, we study how to perform consistent Bayesian inference from synthetic data. We prove that mixing posterior samples obtained separately from multiple large synthetic data sets, that are sampled from a posterior predictive, converges to the posterior of the downstream analysis under standard regularity conditions when the analyst’s model is compatible with the data provider’s model. We also present several examples showing how the theory works in practice, and showing how Bayesian inference can fail when the compatibility assumption is not met, or the synthetic data set is not significantly larger than the original.
差分プライバシーの有無にかかわらず、合成データを生成することは、データの容易な利用可能性とデータ主体のプライバシーとの間のジレンマに対する潜在的な解決策として大きな注目を集めています。いくつかの研究は、正確な不確実性推定を含む、合成データからの下流分析の一貫性には、合成データの生成を考慮する必要があることを示しています。そのための方法はごくわずかで、ほとんどが頻度主義分析です。本稿では、合成データから一貫性のあるベイズ推論を実行する方法について検討します。事後予測からサンプリングされた複数の大規模合成データセットから個別に得られた事後分布サンプルを混合すると、分析者のモデルがデータ提供者のモデルと互換性がある場合、標準的な正則性条件下で下流分析の事後分布に収束することを証明します。また、この理論が実際にどのように機能するかを示すいくつかの例を示し、互換性の仮定が満たされない場合、または合成データセットが元のデータセットよりも有意に大きくない場合にベイズ推論が失敗する可能性があることを示します。
Optimization Over a Probability Simplex
確率単体上の最適化
We propose a new iteration scheme, the Cauchy-Simplex, to optimize convex problems over the probability simplex $\{w\in\mathbb{R}^n\ |\ \sum_i w_i=1\ \textrm{and}\ w_i\geq0\}$.Specifically, we map the simplex to the positive quadrant of a unit sphere, envisage gradient descent in latent variables, and map the result back in a way that only depends on the simplex variable. Moreover, proving rigorous convergence results in this formulation leads inherently to tools from information theory (e.g., cross-entropy and KL divergence). Each iteration of the Cauchy-Simplex consists of simple operations, making it well-suited for high-dimensional problems. In continuous time, we prove that $f(x_T)-f(x^*) = O(1/T)$ for differentiable real-valued convex functions, where $T$ is the number of time steps and $w^*$ is the optimal solution. Numerical experiments of projection onto convex hulls show faster convergence than similar algorithms. Finally, we apply our algorithm to online learning problems and prove the convergence of the average regret for (1) Prediction with expert advice and (2) Universal Portfolios.
確率単体$\{w\in\mathbb{R}^n\ |\ \sum_i w_i=1\ \textrm{and}\ w_i\geq0\}$上の凸問題を最適化するための新しい反復スキーム、コーシー単体を提案します。具体的には、単体を単位球面の正象限に写像し、潜在変数における勾配降下法を想定し、その結果を単体変数のみに依存する方法で写像します。さらに、この定式化における厳密な収束結果の証明は、情報理論のツール(例えば、クロスエントロピーやKLダイバージェンス)に本質的につながる。コーシー単体の各反復は単純な演算で構成されているため、高次元問題に適しています。連続時間において、微分可能な実数値凸関数に対して$f(x_T)-f(x^*) = O(1/T)$であることを証明します。ここで、$T$は時間ステップ数、$w^*$は最適解です。凸包への射影の数値実験は、同様のアルゴリズムよりも高速な収束を示しました。最後に、このアルゴリズムをオンライン学習問題に適用し、(1)専門家のアドバイスによる予測と(2)ユニバーサルポートフォリオの平均後悔の収束を証明します。
Laplace Meets Moreau: Smooth Approximation to Infimal Convolutions Using Laplace’s Method
ラプラスとモローの出会い:ラプラス法を用いた最小畳み込みの滑らかな近似
We study approximations to the Moreau envelope—and infimal convolutions more broadly—based on Laplace’s method, a classical tool in analysis which ties certain integrals to suprema of their integrands. We believe the connection between Laplace’s method and infimal convolutions is generally deserving of more attention in the study of optimization and partial differential equations, since it bears numerous potentially important applications, from proximal-type algorithms to Hamilton-Jacobi equations.
本研究では、ラプラス法に基づいて、モロー包絡線の近似、そしてより広義には最小畳み込みを研究します。ラプラス法は、特定の積分をその被積分関数の最大値に結び付ける解析学における古典的な手法です。ラプラス法と最小畳み込みの関連性は、近似型アルゴリズムからハミルトン・ヤコビ方程式に至るまで、潜在的に重要な応用が数多く存在するため、最適化と偏微分方程式の研究において、より一層の注目に値すると我々は考えています。
Sampling and Estimation on Manifolds using the Langevin Diffusion
ランジュバン拡散を用いた多様体上のサンプリングと推定
Error bounds are derived for sampling and estimation using a discretization of an intrinsically defined Langevin diffusion with invariant measure $\text{d}\mu_\phi \propto e^{-\phi} \mathrm{dvol}_g $ on a compact Riemannian manifold. Two estimators of linear functionals of $\mu_\phi $ based on the discretized Markov process are considered: a time-averaging estimator based on a single trajectory and an ensemble-averaging estimator based on multiple independent trajectories. Imposing no restrictions beyond a nominal level of smoothness on $\phi$, first-order error bounds, in discretization step size, on the bias and variance/mean-square error of both estimators are derived. The order of error matches the optimal rate in Euclidean and flat spaces, and leads to a first-order bound on distance between the invariant measure $\mu_\phi$ and a stationary measure of the discretized Markov process. This order is preserved even upon using retractions when exponential maps are unavailable in closed form, thus enhancing practicality of the proposed algorithms. Generality of the proof techniques, which exploit links between two partial differential equations and the semigroup of operators corresponding to the Langevin diffusion, renders them amenable for the study of a more general class of sampling algorithms related to the Langevin diffusion. Conditions for extending analysis to the case of non-compact manifolds are discussed. Numerical illustrations with distributions, log-concave and otherwise, on the manifolds of positive and negative curvature elucidate on the derived bounds and demonstrate practical utility of the sampling algorithm.
コンパクトリーマン多様体上の不変測度$\text{d}\mu_\phi \propto e^{-\phi} \mathrm{dvol}_g $を持つ本質的に定義されたランジュバン拡散の離散化を用いて、サンプリングと推定の誤差境界を導出します。離散化マルコフ過程に基づく$\mu_\phi $の線形汎関数の2つの推定量、すなわち単一の軌跡に基づく時間平均推定量と複数の独立した軌跡に基づくアンサンブル平均推定量が検討されます。$\phi$に名目上の平滑度を超える制約を課さずに、離散化ステップサイズにおける両推定値のバイアスおよび分散/平均二乗誤差の一次誤差境界を導出します。誤差の順序はユークリッド空間および平坦空間における最適速度と一致し、不変測度$\mu_\phi$と離散化マルコフ過程の定常測度との間の距離の一次境界につながる。この順序は、指数写像が閉じた形式で利用できない場合に後退法を使用しても維持されるため、提案アルゴリズムの実用性が向上します。2つの偏微分方程式とランジュバン拡散に対応する作用素の半群との間のリンクを利用する証明手法の一般性により、ランジュバン拡散に関連するより一般的なクラスのサンプリングアルゴリズムの研究が容易になります。非コンパクト多様体の場合に解析を拡張するための条件について議論します。正曲率および負曲率の多様体上の分布、対数凹分布およびその他の分布の数値図解により、導出された境界が明らかにされ、サンプリング アルゴリズムの実用性が実証されます。
Sharp Bounds for Sequential Federated Learning on Heterogeneous Data
異種データにおける逐次連合学習のシャープな境界
There are two paradigms in Federated Learning (FL): parallel FL (PFL), where models are trained in a parallel manner across clients, and sequential FL (SFL), where models are trained in a sequential manner across clients. Specifically, in PFL, clients perform local updates independently and send the updated model parameters to a global server for aggregation; in SFL, one client starts its local updates only after receiving the model parameters from the previous client in the sequence. In contrast to that of PFL, the convergence theory of SFL on heterogeneous data is still lacking. To resolve the theoretical dilemma of SFL, we establish sharp convergence guarantees for SFL on heterogeneous data with both upper and lower bounds. Specifically, we derive the upper bounds for the strongly convex, general convex and non-convex objective functions, and construct the matching lower bounds for the strongly convex and general convex objective functions. Then, we compare the upper bounds of SFL with those of PFL, showing that SFL outperforms PFL on heterogeneous data (at least, when the level of heterogeneity is relatively high). Experimental results validate the counterintuitive theoretical finding.
Federated Learning (FL)には、モデルがクライアント間で並列にトレーニングされる並列FL (PFL)と、モデルがクライアント間で順次にトレーニングされる順次FL (SFL)の2つのパラダイムがあります。具体的には、PFLではクライアントが独立してローカル更新を実行し、更新されたモデルパラメータを集約のためにグローバルサーバーに送信します。SFLでは、1つのクライアントが、シーケンス内の前のクライアントからモデルパラメータを受け取った後にのみ、ローカル更新を開始します。PFLとは対照的に、異種データに対するSFLの収束理論はまだ欠如しています。SFLの理論的ジレンマを解決するために、我々は、上限と下限の両方を持つ異種データに対するSFLの明確な収束保証を確立します。具体的には、強凸、一般凸、非凸目的関数の上限を導出し、強凸および一般凸目的関数の対応する下限を構築します。次に、SFLの上限をPFLの上限と比較し、SFLは異質データ(少なくとも異質性のレベルが比較的高い場合)においてPFLよりも優れていることを示します。実験結果は、直感に反する理論的発見を検証します。
Local Linear Recovery Guarantee of Deep Neural Networks at Overparameterization
オーバーパラメータ化におけるディープニューラルネットワークの局所線形回復保証
Determining whether deep neural network (DNN) models can reliably recover target functions at overparameterization is a critical yet complex issue in the theory of deep learning. To advance understanding in this area, we introduce a concept we term “local linear recovery” (LLR), a weaker form of target function recovery that renders the problem more amenable to theoretical analysis. In the sense of LLR, we prove that functions expressible by narrower DNNs are guaranteed to be recoverable from fewer samples than model parameters. Specifically, we establish upper limits on the optimistic sample sizes, defined as the smallest sample size necessary to guarantee LLR, for functions in the space of a given DNN. Furthermore, we prove that these upper bounds are achieved in the case of two-layer tanh neural networks. Our research lays a solid groundwork for future investigations into the recovery capabilities of DNNs in overparameterized scenarios.
ディープニューラルネットワーク(DNN)モデルが過剰パラメータ化においてターゲット関数を確実に回復できるかどうかを判断することは、ディープラーニング理論において重要かつ複雑な問題です。この分野の理解を深めるため、我々は「局所線形回復」(LLR)と呼ぶ概念を導入します。これはターゲット関数回復のより弱い形で、問題を理論分析により容易にします。LLRの意味において、より狭いDNNで表現可能な関数は、モデルパラメータよりも少ないサンプル数から回復可能であることが保証されることを証明します。具体的には、与えられたDNNの空間における関数について、LLRを保証するために必要な最小サンプル数として定義される楽観的サンプル数の上限を確立します。さらに、これらの上限が2層tanhニューラルネットワークの場合に達成されることを証明します。我々の研究は、過剰パラメータ化されたシナリオにおけるDNNの回復能力に関する将来の研究のための確固たる基礎を築くものです。
Stabilizing Sharpness-Aware Minimization Through A Simple Renormalization Strategy
単純な再正規化戦略によるシャープネスを考慮した最小化の安定化
Recently, sharpness-aware minimization (SAM) has attracted much attention because of its surprising effectiveness in improving generalization performance. However, compared to stochastic gradient descent (SGD), it is more prone to getting stuck at the saddle points, which as a result may lead to performance degradation. To address this issue, we propose a simple renormalization strategy, dubbed Stable SAM (SSAM), so that the gradient norm of the descent step maintains the same as that of the ascent step. Our strategy is easy to implement and flexible enough to integrate with SAM and its variants, almost at no computational cost. With elementary tools from convex optimization and learning theory, we also conduct a theoretical analysis of sharpness-aware training, revealing that compared to SGD, the effectiveness of SAM is only assured in a limited regime of learning rate. In contrast, we show how SSAM extends this regime of learning rate and then it can consistently perform better than SAM with the minor modification. Finally, we demonstrate the improved performance of SSAM on several representative data sets and tasks.
近年、シャープネスを考慮した最小化(SAM)は、汎化性能の向上において驚くべき有効性を示すことから、大きな注目を集めています。しかし、確率的勾配降下法(SGD)と比較すると、SAMは鞍点に陥りやすく、結果として性能低下につながる可能性があります。この問題に対処するため、我々は安定SAM(SSAM)と呼ばれる単純な正規化戦略を提案します。この戦略は、下降ステップの勾配ノルムが上昇ステップの勾配ノルムと同じになるようにします。この戦略は実装が容易で、SAMおよびその派生モデルとほぼ計算コストをかけずに統合できるほど柔軟です。凸最適化と学習理論の基本的なツールを用いて、シャープネスを考慮した学習の理論分析を行い、SGDと比較して、SAMの有効性は限られた学習率の範囲でのみ保証されることを明らかにしました。これに対し、SSAMがこの学習率の範囲をどのように拡張し、わずかな変更を加えることでSAMよりも一貫して優れた性能を発揮できるかを示します。最後に、いくつかの代表的なデータセットとタスクにおいて、SSAMの性能向上を示します。
Fine-Grained Change Point Detection for Topic Modeling with Pitman-Yor Process
ピットマン・ヨー過程を用いたトピックモデリングのための細粒度変化点検出
Identifying change points in dynamic text data is crucial for understanding the evolving nature of topics across various sources, such as news articles, scientific papers, and social media posts. While topic modeling has become a widely used technique for this purpose, capturing fine-grained shifts in individual topics over time remains a significant challenge. Traditional approaches typically use a two-stage process, separating topic modeling and change point detection. However, this separation can lead to information loss and inconsistency in capturing subtle changes in topic evolution. To address this issue, we propose TOPIC-PYP, a change point detection model specifically designed for fine-grained topic-level analysis, i.e., detecting change points for each individual topic. By leveraging the Pitman-Yor process, TOPIC-PYP effectively captures the dynamic evolution of topic meanings over time. Unlike traditional methods, TOPIC-PYP integrates topic modeling and change point detection into a unified framework, facilitating a more comprehensive understanding of the relationship between topic evolution and change points. Experimental evaluations on both synthetic and real-world datasets demonstrate the effectiveness of TOPIC-PYP in accurately detecting change points and generating high-quality topics.
動的なテキストデータにおける変化点の特定は、ニュース記事、科学論文、ソーシャルメディアの投稿など、さまざまなソースにわたるトピックの進化の性質を理解するために不可欠です。トピックモデリングはこの目的で広く使用される手法となっていますが、個々のトピックの経時的な変化をきめ細かく捉えることは依然として大きな課題です。従来のアプローチでは、通常、トピックモデリングと変化点検出を分離する2段階のプロセスが使用されます。しかし、この分離は、トピックの進化における微妙な変化を捉える際に情報の損失や不整合につながる可能性があります。この問題に対処するため、我々はTOPIC-PYPを提案します。これは、きめ細かなトピックレベルの分析、つまり個々のトピックの変化点を検出するために特別に設計された変化点検出モデルです。Pitman-Yorプロセスを活用することで、TOPIC-PYPはトピックの意味の経時的な動的な変化を効果的に捉えます。TOPIC-PYPは従来の手法とは異なり、トピックモデリングと変化点検出を統一されたフレームワークに統合することで、トピックの進化と変化点の関係をより包括的に理解することを可能にします。合成データセットと実世界データセットの両方を用いた実験評価により、TOPIC-PYPが変化点を正確に検出し、高品質なトピックを生成する有効性が実証されています。
Deletion Robust Non-Monotone Submodular Maximization over Matroids
マトロイド上の削除ロバストな非単調劣モジュラ最大化
We study the deletion robust version of submodular maximization under matroid constraints. The goal is to extract a small-size summary of the data set that contains a high-value independent set even after an adversary deletes some elements. We present constant-factor approximation algorithms, whose space complexity depends on the rank $k$ of the matroid, the number $d$ of deleted elements, and the input precision $\varepsilon$. In the centralized setting we present a $(4.494+O(\varepsilon))$-approximation algorithm with summary size $O( \frac{k+d}{\varepsilon^2}\log \frac{k}{\varepsilon})$ that improves to a $(3.582+O(\varepsilon))$-approximation with $O(k + \frac{d}{\varepsilon^2}\log \frac{k}{\varepsilon})$ summary size when the objective is monotone. In the streaming setting we provide a $(9.294 + O(\varepsilon))$-approximation algorithm with summary size and memory $O(k + \frac{d}{\varepsilon^2}\log \frac{k}{\varepsilon})$; the approximation factor is then improved to $(5.582+O(\varepsilon))$ in the monotone case.
マトロイド制約下における劣モジュラ最大化の削除ロバスト版を研究します。目標は、攻撃者がいくつかの要素を削除した後でも、高い値の独立集合を含むデータセットの小規模な要約を抽出することです。マトロイドのランク$k$、削除された要素の数$d$、および入力精度$\varepsilon$に依存する定数因子近似アルゴリズムを示す。集中設定では、要約サイズが$O( \frac{k+d}{\varepsilon^2}\log \frac{k}{\varepsilon})$である$(4.494+O(\varepsilon))$近似アルゴリズムを提示します。これは、目的関数が単調な場合、要約サイズが$O(k + \frac{d}{\varepsilon^2}\log \frac{k}{\varepsilon})$である$(3.582+O(\varepsilon))$近似に改善されます。ストリーミング設定では、要約サイズとメモリが$O(k + \frac{d}{\varepsilon^2}\log \frac{k}{\varepsilon})$である$(9.294 + O(\varepsilon))$近似アルゴリズムを提供します。単調なケースでは、近似係数は$(5.582+O(\varepsilon))$に改善されます。
Instability, Computational Efficiency and Statistical Accuracy
不安定性、計算効率、および統計精度
Many statistical estimators are defined as the fixed point of a data-dependent operator, with estimators based on minimizing a cost function being an important special case. The limiting performance of such estimators depends on the properties of the population-level operator in the idealized limit of infinitely many samples. We develop a general framework that yields bounds on statistical accuracy based on the interplay between the deterministic convergence rate of the algorithm at the population level, and its degree of (in)stability when applied to an empirical object based on $n$ samples. Using this framework, we analyze both stable forms of gradient descent and some higher-order and unstable algorithms, including Newton’s method and its cubic-regularized variant, as well as the EM algorithm. We provide applications of our general results to several concrete classes of models, including Gaussian mixture estimation, non-linear regression models, and informative non-response models. We exhibit cases in which an unstable algorithm can achieve the same statistical accuracy as a stable algorithm in exponentially fewer steps—namely, with the number of iterations being reduced from polynomial to logarithmic in sample size $n$.
多くの統計的推定量はデータ依存演算子の不動点として定義され、コスト関数の最小化に基づく推定量は重要な特殊ケースです。このような推定量の限界性能は、無限個のサンプルの理想化された極限における集団レベル演算子の特性に依存します。我々は、集団レベルにおけるアルゴリズムの決定論的収束速度と、$n$個のサンプルに基づく経験的対象に適用した場合の(不)安定性の度合いとの相互作用に基づいて、統計的精度の限界を導く一般的な枠組みを開発します。この枠組みを用いて、安定的な勾配降下法と、ニュートン法とその3次正則化変種、EMアルゴリズムなどの高階および不安定なアルゴリズムの両方を解析します。我々は、ガウス混合推定、非線形回帰モデル、情報的無回答モデルなど、いくつかの具体的なモデルクラスへの我々の一般的な結果の応用を示す。不安定なアルゴリズムが、指数関数的に少ないステップ数、すなわちサンプルサイズ$n$における反復回数が多項式から対数へと減少することで、安定なアルゴリズムと同等の統計精度を達成できる事例を示す。
Estimation of Local Geometric Structure on Manifolds from Noisy Data
ノイズを含むデータからの多様体上の局所幾何構造の推定
A common observation in data-driven applications is that high-dimensional data have a low intrinsic dimension, at least locally. In this work, we consider the problem of point estimation for manifold-valued data. Namely, given a finite set of noisy samples of $\mathcal{M}$, a $d$ dimensional submanifold of $\mathbb{R}^D$, and a point $r$ near the manifold we aim to project $r$ onto the manifold. Assuming that the data was sampled uniformly from a tubular neighborhood of a $k$-times smooth boundaryless and compact manifold, we present an algorithm that takes $r$ from this neighborhood and outputs $\hat p_n\in \mathbb{R}^D$, and $\widehat{T_{\hat p_n}\mathcal{M}}$ an element in the Grassmannian $Gr(d, D)$. We prove that as the number of samples $n\to\infty$, the point $\hat p_n$ converges to $\mathbf{p}\in \mathcal{M}$, the projection of $r$ onto $\mathcal{M}$, and $\widehat{T_{\hat p_n}\mathcal{M}}$ converges to $T_{\mathbf{p}}\mathcal{M}$ (the tangent space at that point) with high probability. Furthermore, we show that $\hat p_n$ approaches the manifold with an asymptotic rate of $n^{-\frac{k}{2k + d}}$, and that $\hat p_n, \widehat{T_{\hat p_n}\mathcal{M}}$ approach $\mathbf{p}$ and $T_{\mathbf{p}}\mathcal{M}$ correspondingly with asymptotic rates of $n^{-\frac{k-1}{2k + d}}$. %While we These rates coincide with the optimal rates for the estimation of function derivatives.
データ駆動型アプリケーションでよく見られる現象として、高次元データは、少なくとも局所的には、内在次元が低いことが挙げられます。本研究では、多様体値データの点推定の問題について考察します。すなわち、$\mathcal{M}$のノイズ付きサンプルの有限集合、$\mathbb{R}^D$の$d$次元部分多様体、および多様体の近傍の点$r$が与えられた場合、$r$を多様体へ射影することを目指す。データが$k$倍の滑らかな境界なしコンパクト多様体の管状近傍から一様にサンプリングされたと仮定し、この近傍から$r$を取り、$\hat p_n\in \mathbb{R}^D$とグラスマン多様体$Gr(d, D)$の元$\widehat{T_{\hat p_n}\mathcal{M}}$を出力するアルゴリズムを提示します。サンプル数が$n\to\infty$になるにつれて、点$\hat p_n$が$r$の$\mathcal{M}$への射影である$\mathbf{p}\in \mathcal{M}$に収束し、$\widehat{T_{\hat p_n}\mathcal{M}}$が$T_{\mathbf{p}}\mathcal{M}$(その点における接空間)に高い確率で収束することを証明します。さらに、$\hat p_n$が$n^{-\frac{k}{2k + d}}$の漸近速度で多様体に近づくこと、また、$\hat p_n、\widehat{T_{\hat p_n}\mathcal{M}}$がそれに応じて$n^{-\frac{k-1}{2k + d}}$の漸近速度で$\mathbf{p}$および$T_{\mathbf{p}}\mathcal{M}$に近づくことを示します。%これらの速度は、関数の導関数の推定に最適な速度と一致します。
Ontolearn—A Framework for Large-scale OWL Class Expression Learning in Python
Ontolearn – Pythonによる大規模OWLクラス表現学習フレームワーク
In this paper, we present Ontolearn—a framework for learning OWL class expressions over large knowledge graphs.Ontolearn contains efficient implementations of recent state-of-the-art symbolic and neuro-symbolic class expression learners including EvoLearner and DRILL.A learned OWL class expression can be used to classify instances in the knowledge graph.Furthermore, Ontolearn integrates a verbalization module based on an LLM to translate complex OWL class expressions into natural language sentences.By mapping OWL class expressions into respective SPARQL queries, Ontolearn can be easily used to operate over a remote triplestore.The source code of Ontolearn is available at https://github.com/dice-group/Ontolearn.
本稿では、大規模な知識グラフ上でOWLクラス表現を学習するためのフレームワークであるOntolearnを紹介します。Ontolearnには、EvoLearnerやDRILLなど、最新のシンボリックおよびニューロシンボリッククラス表現学習器の効率的な実装が含まれています。学習済みのOWLクラス表現は、知識グラフ内のインスタンスを分類するために使用できます。さらに、OntolearnはLLMに基づく言語化モジュールを統合し、複雑なOWLクラス表現を自然言語の文に変換します。OWLクラス表現をそれぞれのSPARQLクエリにマッピングすることにより、Ontolearnをリモートトリプルストア上で簡単に操作するために使用できます。Ontolearnのソースコードはhttps://github.com/dice-group/Ontolearnで入手できます。
Continuously evolving rewards in an open-ended environment
オープンエンド環境における連続的に進化する報酬
Unambiguous identification of the rewards driving behaviours of entities operating in complex open-ended real-world environments is difficult, in part because goals and associated behaviours emerge endogenously and are dynamically updated as environments change. Reproducing such dynamics in models would be useful in many domains, particularly where fixed reward functions limit the adaptive capabilities of agents. Simulation experiments described here assess a candidate algorithm for the dynamic updating of the reward function, RULE: Reward Updating through Learning and Expectation. The approach is tested in a simplified ecosystem-like setting where experiments challenge entities’ survival, calling for significant behavioural change. The population of entities successfully demonstrate the abandonment of an initially rewarded but ultimately detrimental behaviour, amplification of beneficial behaviour, and appropriate responses to novel items added to their environment. These adjustments happen through endogenous modification of the entities’ reward function, during continuous learning, without external intervention.
複雑でオープンエンドな現実世界環境で活動するエンティティの行動を駆動する報酬を明確に特定することは困難です。その理由の一つは、目標とそれに関連する行動が内生的に出現し、環境の変化に応じて動的に更新されるためです。このようなダイナミクスをモデルで再現することは、多くの領域、特に固定された報酬関数がエージェントの適応能力を制限するような領域で有用です。ここで説明するシミュレーション実験は、報酬関数の動的更新のための候補アルゴリズムである「RULE:学習と期待による報酬更新」を評価します。このアプローチは、エンティティの生存に挑戦し、大幅な行動変化を要求する、単純化された生態系のような設定でテストされます。エンティティの集団は、当初は報酬を与えられたものの最終的には有害な行動の放棄、有益な行動の増幅、そして環境に追加された新しいアイテムへの適切な反応をうまく示します。これらの調整は、外部からの介入なしに、継続的な学習中にエンティティの報酬関数の内生的修正を通じて行われます。
Recursive Causal Discovery
再帰的因果発見
Causal discovery from observational data, i.e., learning the causal graph from a finite set of samples from the joint distribution of the variables, is often the first step toward the identification and estimation of causal effects, a key requirement in numerous scientific domains. Causal discovery is hampered by two main challenges: limited data results in errors in statistical testing and the computational complexity of the learning task is daunting. This paper builds upon and extends four of our prior publications (Mokhtarian et al., 2021; Akbari et al., 2021; Mokhtarian et al., 2022, 2023a). These works introduced the concept of removable variables, which are the only variables that can be removed recursively for the purpose of causal discovery. Presence and identification of removable variables allow recursive approaches for causal discovery, a promising solution that helps to address the aforementioned challenges by reducing the problem size successively. This reduction not only minimizes conditioning sets in each conditional independence (CI) test, leading to fewer errors but also significantly decreases the number of required CI tests. The worst-case performances of these methods nearly match the lower bound. In this paper, we present a unified framework for the proposed algorithms, refined with additional details and enhancements for a coherent presentation. A comprehensive literature review is also included, comparing the computational complexity of our methods with existing approaches, showcasing their state-of-the-art efficiency. Another contribution of this paper is the release of RCD, a Python package that efficiently implements these algorithms. This package is designed for practitioners and researchers interested in applying these methods in practical scenarios. The package is available at github.com/ban-epfl/rcd, with comprehensive documentation provided at rcdpackage.com.
観測データからの因果発見、すなわち変数の共分布から有限のサンプル集合から因果グラフを学習することは、多くの科学分野における重要な要件である因果効果の特定と推定に向けた最初のステップとなることが多い。因果発見は、主に2つの課題によって妨げられています。1つはデータが限られているため統計的検定でエラーが発生すること、もう1つは学習タスクの計算量が膨大であることだ。本論文は、私たちの過去の4つの論文(Mokhtarianら, 2021; Akbariら, 2021; Mokhtarianら, 2022, 2023a)を基に、さらに拡張したものです。これらの研究は、因果発見のために再帰的に除去できる唯一の変数である除去可能変数の概念を導入しました。除去可能変数の存在と特定により、因果発見のための再帰的アプローチが可能になり、問題規模を段階的に縮小することで前述の課題に対処する有望な解決策となります。この縮小は、各条件付き独立性(CI)テストにおける条件集合を最小化し、エラーを減らすだけでなく、必要なCIテストの数も大幅に削減します。これらの手法の最悪ケースのパフォーマンスは、下限にほぼ一致します。本論文では、提案アルゴリズムの統一フレームワークを提示し、一貫性のあるプレゼンテーションのために詳細と機能強化を追加して洗練させます。包括的な文献レビューも含まれており、本手法の計算複雑度を既存の手法と比較し、最先端の効率性を示しています。本論文のもう一つの貢献は、これらのアルゴリズムを効率的に実装するPythonパッケージであるRCDのリリースです。このパッケージは、これらの手法を実際のシナリオに適用することに関心のある実務家や研究者向けに設計されています。パッケージはgithub.com/ban-epfl/rcdで入手でき、包括的なドキュメントはrcdpackage.comで提供されています。
Evaluation of Active Feature Acquisition Methods for Time-varying Feature Settings
時変特徴設定に対する能動的な特徴獲得手法の評価
Machine learning methods often assume that input features are available at no cost. However, in domains like healthcare, where acquiring features could be expensive or harmful, it is necessary to balance a feature’s acquisition cost against its predictive value. The task of training an AI agent to decide which features to acquire is called active feature acquisition (AFA). By deploying an AFA agent, we effectively alter the acquisition strategy and trigger a distribution shift. To safely deploy AFA agents under this distribution shift, we present the problem of active feature acquisition performance evaluation (AFAPE). We examine AFAPE under i) a no direct effect (NDE) assumption, stating that acquisitions do not affect the underlying feature values; and ii) a no unobserved confounding (NUC) assumption, stating that retrospective feature acquisition decisions were only based on observed features. We show that one can apply missing data methods under the NDE assumption and offline reinforcement learning under the NUC assumption. When NUC and NDE hold, we propose a novel semi-offline reinforcement learning framework. This framework requires a weaker positivity assumption and introduces three new estimators: A direct method (DM), an inverse probability weighting (IPW), and a double reinforcement learning (DRL) estimator.
機械学習手法では、入力特徴量はコストなしで利用できると想定されることが多い。しかし、医療のように特徴量の取得にコストがかかったり、有害となる可能性のある分野では、特徴量の取得コストと予測値のバランスを取る必要があります。AIエージェントにどの特徴量を取得するかを決定するよう訓練するタスクは、能動的特徴量取得(AFA)と呼ばれます。AFAエージェントを配備することで、獲得戦略を効果的に変更し、分布シフトを引き起こす。この分布シフト下でAFAエージェントを安全に配備するために、能動的特徴量取得性能評価(AFAPE)の問題を提示します。AFAPEは、i)獲得が基礎となる特徴量値に影響を与えないという直接効果なし(NDE)仮定、およびii)観測されない交絡なし(NUC)仮定、つまり遡及的な特徴量取得の決定は観測された特徴量のみに基づいているという仮定の下で検証されます。NDE仮定の下では欠損データ法、NUC仮定の下ではオフライン強化学習を適用できることを示す。NUCとNDEが成立する場合、新しい半オフライン強化学習フレームワークを提案します。この枠組みでは、より弱い陽性仮定を必要とし、3つの新しい推定量、すなわち直接法(DM)、逆確率重み付け(IPW)、二重強化学習(DRL)推定量を導入します。
On Adaptive Stochastic Optimization for Streaming Data: A Newton’s Method with O(dN) Operations
ストリーミングデータのための適応型確率最適化について:O(dN)演算のニュートン法
Stochastic optimization methods face new challenges in the realm of streaming data, characterized by a continuous flow of large, high-dimensional data. While first-order methods, like stochastic gradient descent, are the natural choice for such data, they often struggle with ill-conditioned problems. In contrast, second-order methods, such as Newton’s method, offer a potential solution but are computationally impractical for large-scale streaming applications. This paper introduces adaptive stochastic optimization methods that effectively address ill-conditioned problems while functioning in a streaming context. Specifically, we present adaptive inversion-free stochastic quasi-Newton methods with computational complexity matching that of first-order methods, $\mathcal{O}(dN)$, where $d$ represents the number of dimensions/features and $N$ the number of data points. Theoretical analysis establishes their asymptotic efficiency, and empirical studies demonstrate their effectiveness in scenarios with complex covariance structures and poor initializations. In particular, we demonstrate that our adaptive quasi-Newton methods can outperform or match existing first- and second-order methods.
機械学習手法では、入力特徴量はコストなしで利用できると想定されることがよくあります。しかし、医療のように特徴量の取得にコストがかかったり、有害となる可能性のある分野では、特徴量の取得コストと予測値のバランスを取る必要があります。AIエージェントにどの特徴量を取得するかを決定するよう訓練するタスクは、能動的特徴量取得(AFA)と呼ばれます。AFAエージェントを配備することで、獲得戦略を効果的に変更し、分布シフトを引き起こします。この分布シフト下でAFAエージェントを安全に配備するために、能動的特徴量取得性能評価(AFAPE)の問題を提示します。AFAPEは、i)獲得が基礎となる特徴量に影響を与えないという直接効果なし(NDE)仮定、およびii)観測されない交絡なし(NUC)仮定、つまり遡及的な特徴量取得の決定は観測された特徴量のみに基づいているという仮定の下で検証されます。NDE仮定の下では欠損データ法、NUC仮定の下ではオフライン強化学習を適用できることを示します。NUCとNDEが成立する場合、我々は新たな半オフライン強化学習フレームワークを提案します。このフレームワークは、より弱い正値仮定を必要とし、3つの新しい推定量を導入します。すなわち、直接法(DM)、逆確率重み付け(IPW)、そして二重強化学習(DRL)推定量です。
Determine the Number of States in Hidden Markov Models via Marginal Likelihood
周辺尤度を用いた隠れマルコフモデルの状態数の決定
Hidden Markov models (HMM) have been widely used by scientists to model stochastic systems: the underlying process is a discrete Markov chain, and the observations are noisy realizations of the underlying process. Determining the number of hidden states for an HMM is a model selection problem which is yet to be satisfactorily solved, especially for the popular Gaussian HMM with heterogeneous covariance. In this paper, we propose a consistent method for determining the number of hidden states of HMM based on the marginal likelihood, which is obtained by integrating out both the parameters and hidden states. Moreover, we show that the model selection problem of HMM includes the order selection problem of finite mixture models as a special case. We give rigorous proof of the consistency of the proposed marginal likelihood method and provide an efficient computation method for practical implementation. We numerically compare the proposed method with the Bayesian information criterion (BIC), demonstrating the effectiveness of the proposed marginal likelihood method.
隠れマルコフモデル(HMM)は、確率システムをモデル化するために科学者に広く利用されています。基礎となるプロセスは離散マルコフ連鎖であり、観測値は基礎となるプロセスのノイズを含む実現値です。HMMの隠れ状態の数を決定することは、特に異種共分散を持つ一般的なガウスHMMの場合、未だ十分に解決されていないモデル選択問題です。本稿では、パラメータと隠れ状態の両方を積分することで得られる周辺尤度に基づいて、HMMの隠れ状態の数を決定する一貫した方法を提案します。さらに、HMMのモデル選択問題には、有限混合モデルの順序選択問題が特別なケースとして含まれることを示す。提案する周辺尤度法の一貫性を厳密に証明し、実用化のための効率的な計算方法を提供します。提案方法をベイズ情報量基準(BIC)と数値的に比較し、提案する周辺尤度法の有効性を示す。大規模で高次元のデータが連続的に流れるストリーミングデータ領域において、確率的最適化手法は新たな課題に直面しています。このようなデータには確率的勾配降下法のような一次法が自然な選択肢ですが、悪条件問題への対応が困難な場合が多くあります。一方、ニュートン法のような二次法は潜在的な解決策となりますが、大規模ストリーミングアプリケーションでは計算量的に現実的ではありません。本稿では、ストリーミング環境下で悪条件問題に効果的に対処できる適応型確率的最適化手法を紹介します。具体的には、一次法と同等の計算量$\mathcal{O}(dN)$を持つ適応型逆行列不要確率的準ニュートン法を提示します。ここで、$d$は次元数/特徴数、$N$はデータ点数です。理論分析によって漸近的効率性が確立され、実証研究によって複雑な共分散構造と不適切な初期化条件を持つシナリオにおける有効性が実証されています。特に、適応型準ニュートン法が既存の一次および二次手法を上回る、あるいは同等の性能を発揮できることを実証します。
Variance-Aware Estimation of Kernel Mean Embedding
カーネル平均の分散を考慮した推定埋め込み
An important feature of kernel mean embeddings (KME) is that the rate of convergence of the empirical KME to the true distribution KME can be bounded independently of the dimension of the space, properties of the distribution and smoothness features of the kernel. We show how to speed-up convergence by leveraging variance information in the reproducing kernel Hilbert space. Furthermore, we show that even when such information is a priori unknown, we can efficiently estimate it from the data, recovering the desiderata of a distribution agnostic bound that enjoys acceleration in fortuitous settings. We further extend our results from independent data to stationary mixing sequences and illustrate our methods in the context of hypothesis testing and robust parametric estimation.
隠れマルコフモデル(HMM)は、科学者によって確率システムのモデル化に広く用いられてきました。基礎となるプロセスは離散マルコフ連鎖であり、観測値は基礎となるプロセスのノイズを含む実現値です。HMMの隠れ状態の数を決定することは、特に異種共分散を持つ一般的なガウスHMMの場合、まだ十分に解決されていないモデル選択問題です。本稿では、パラメータと隠れ状態の両方を統合して得られる周辺尤度に基づいて、HMMの隠れ状態の数を決定するための一貫した方法を提案します。さらに、HMMのモデル選択問題には、有限混合モデルの順序選択問題が特別なケースとして含まれることを示します。提案する周辺尤度法の一貫性を厳密に証明し、実際の実装のための効率的な計算方法を提供します。提案方法をベイズ情報量基準(BIC)と数値的に比較し、提案する周辺尤度法の有効性を実証します。
Scaling ResNets in the Large-depth Regime
大規模深度レジームにおけるResNetのスケーリング
Deep ResNets are recognized for achieving state-of-the-art results in complex machine learning tasks. However, the remarkable performance of these architectures relies on a training procedure that needs to be carefully crafted to avoid vanishing or exploding gradients, particularly as the depth $L$ increases. No consensus has been reached on how to mitigate this issue, although a widely discussed strategy consists in scaling the output of each layer by a factor $\alpha_L$. We show in a probabilistic setting that with standard i.i.d. initializations, the only non-trivial dynamics is for $\alpha_L = \frac{1}{\sqrt{L}}$—other choices lead either to explosion or to identity mapping. This scaling factor corresponds in the continuous-time limit to a neural stochastic differential equation, contrarily to a widespread interpretation that deep ResNets are discretizations of neural ordinary differential equations. By contrast, in the latter regime, stability is obtained with specific correlated initializations and $\alpha_L = \frac{1}{L}$. Our analysis suggests a strong interplay between scaling and regularity of the weights as a function of the layer index. Finally, in a series of experiments, we exhibit a continuous range of regimes driven by these two parameters, which jointly impact performance before and after training.
Deep ResNetは、複雑な機械学習タスクにおいて最先端の結果を達成することで知られています。しかし、これらのアーキテクチャの驚異的なパフォーマンスは、特に深度$L$が増加するにつれて、勾配の消失や爆発を回避するために慎重に構築する必要があるトレーニング手順に依存しています。この問題の軽減方法については合意が得られていませんが、広く議論されている戦略の一つは、各層の出力を係数$\alpha_L$でスケーリングすることです。確率的設定において、標準的なi.i.d.初期化において、$\alpha_L = \frac{1}{\sqrt{L}}$の場合のみ非自明なダイナミクスとなることを示します。他の選択肢は爆発または恒等写像のいずれかにつながります。このスケーリング係数は、連続時間極限においてニューラル確率微分方程式に対応しており、これは深層ResNetがニューラル常微分方程式の離散化であるという広く解釈されている解釈に反しています。対照的に、後者の領域では、特定の相関初期化と$\alpha_L = \frac{1}{L}$で安定性が得られます。私たちの分析は、層インデックスの関数としての重みのスケーリングと規則性の間に強い相互作用があることを示唆しています。最後に、一連の実験において、これら2つのパラメータによって駆動される連続的な領域の範囲を示し、これらはトレーニング前後のパフォーマンスに共同で影響を与えます。カーネル平均埋め込み(KME)の重要な特徴は、経験的KMEから真の分布KMEへの収束速度が、空間の次元、分布の特性、カーネルの滑らかさの特性とは独立に、有界化できることです。本稿では、再生カーネルヒルベルト空間における分散情報を活用することで収束を高速化する方法を示します。さらに、そのような情報が事前に不明な場合でも、データから効率的に推定できることを示し、偶然の設定において加速される分布非依存の境界という要件を回復します。さらに、独立データから定常混合シーケンスへと結果を拡張し、仮説検定とロバストなパラメトリック推定の文脈で本手法を示します。
A Comparative Evaluation of Quantification Methods
定量化手法の比較評価
Quantification represents the problem of estimating the distribution of class labels on unseen data. It also represents a growing research field in supervised machine learning, for which a large variety of different algorithms has been proposed in recent years. However, a comprehensive empirical comparison of quantification methods that supports algorithm selection is not available yet. In this work, we close this research gap by conducting a thorough empirical performance comparison of 24 different quantification methods on in total more than 40 datasets, considering binary as well as multiclass quantification settings. We observe that no single algorithm generally outperforms all competitors, but identify a group of methods that perform best in the binary setting, including the threshold selection-based median sweep and TSMax methods, the DyS framework including the HDy method, Forman’s mixture model, and Friedman’s method. For the multiclass setting, we observe that a different, broad group of algorithms yields good performance, including the HDx method, the generalized probabilistic adjusted count, the readme method, the energy distance minimization method, the EM algorithm for quantification, and Friedman’s method. We also find that tuning the underlying classifiers has in most cases only a limited impact on the quantification performance. More generally, we find that the performance on multiclass quantification is inferior to the results obtained in the binary setting. Our results can guide practitioners who intend to apply quantification algorithms and help researchers identify opportunities for future research.
数量化は、未知のデータにおけるクラスラベルの分布を推定する問題です。また、教師あり機械学習の研究分野として成長しており、近年、多種多様なアルゴリズムが提案されています。しかし、アルゴリズムの選択をサポートする包括的な数量化手法の実証的比較はまだありません。本研究では、合計40以上のデータセットで24の異なる数量化手法の徹底的な実証的パフォーマンス比較を実施し、バイナリおよびマルチクラス数量化設定を考慮することで、この研究ギャップを埋めます。一般的にすべての競合よりも優れたパフォーマンスを発揮する単一のアルゴリズムはありませんが、閾値選択ベースのメディアンスイープ法とTSMax法、HDy法を含むDySフレームワーク、Formanの混合モデル、およびFriedman法など、バイナリ設定で最高のパフォーマンスを発揮する一連の手法を特定しました。多クラス設定では、HDx法、一般化確率調整カウント、readme法、エネルギー距離最小化法、定量化のためのEMアルゴリズム、フリードマン法など、様々なアルゴリズムが良好なパフォーマンスを発揮することがわかりました。また、基盤となる分類器の調整は、ほとんどの場合、定量化のパフォーマンスに限られた影響しか与えないこともわかりました。より一般的には、多クラス定量化のパフォーマンスは、2値設定で得られた結果よりも劣ることがわかりました。私たちの結果は、定量化アルゴリズムを適用しようとする実務家にとって指針となり、研究者が将来の研究の機会を特定するのに役立ちます。
Lightning UQ Box: Uncertainty Quantification for Neural Networks
Lightning UQ Box:ニューラルネットワークの不確実性定量化
Although neural networks have shown impressive results in a multitude of application domains, the “black box” nature of deep learning and lack of confidence estimates have led to scepticism, especially in domains like medicine and physics where such estimates are critical. Research on uncertainty quantification (UQ) has helped elucidate the reliability of these models, but existing implementations of these UQ methods are sparse and difficult to reuse. To this end, we introduce Lightning UQ Box, a PyTorch-based Python library for deep learning-based UQ methods powered by PyTorch Lightning. Lightning UQ Box supports classification, regression, semantic segmentation, and pixelwise regression applications, and UQ methods from a variety of theoretical motivations. With this library, we provide an entry point for practitioners new to UQ, as well as easy-to-use components and tools for scalable deep learning applications.
ニューラルネットワークは多くの応用分野で素晴らしい成果を上げていますが、深層学習の「ブラックボックス」性や信頼性のある推定値の欠如は、特に推定値が重要な医療や物理学などの分野では懐疑的な見方につながっています。不確実性定量化(UQ)の研究はこれらのモデルの信頼性の解明に役立ってきましたが、これらのUQ手法の既存の実装はまばらで、再利用が困難です。そこで、PyTorch Lightningを搭載した深層学習ベースのUQ手法のためのPyTorchベースのPythonライブラリ、Lightning UQ Boxを紹介します。Lightning UQ Boxは、分類、回帰、セマンティックセグメンテーション、ピクセル単位の回帰アプリケーション、そして様々な理論的動機に基づくUQ手法をサポートしています。このライブラリは、UQを初めて使用する実践者にとってのエントリーポイントとなるだけでなく、スケーラブルな深層学習アプリケーションのための使いやすいコンポーネントとツールも提供します。数量化とは、未知のデータにおけるクラスラベルの分布を推定する問題です。また、教師あり機械学習においても成長を続ける研究分野であり、近年、多種多様なアルゴリズムが提案されています。しかし、アルゴリズムの選択を支援する包括的な数量化手法の実証的比較はまだ行われていません。本研究では、2クラスおよび多クラスの数量化設定を考慮し、合計40以上のデータセットで24種類の異なる数量化手法の徹底的な実証的性能比較を実施することで、この研究ギャップを埋めます。単一のアルゴリズムがすべての競合手法よりも一般的に優れているわけではありませんが、閾値選択ベースのメディアンスイープ法とTSMax法、HDy法を含むDySフレームワーク、Formanの混合モデル、Friedman法など、2クラス設定で最も優れた性能を発揮する手法群を特定しました。多クラス設定では、HDx法、一般化確率調整カウント法、readme法、エネルギー距離最小化法、定量化のためのEMアルゴリズム、フリードマン法など、様々なアルゴリズムが良好なパフォーマンスを示すことが確認されました。また、基盤となる分類器の調整は、ほとんどの場合、定量化のパフォーマンスに限られた影響しか与えないこともわかりました。より一般的には、多クラス定量化のパフォーマンスは、2クラス設定で得られた結果よりも劣ることがわかりました。私たちの結果は、定量化アルゴリズムを適用しようとする実務家にとっての指針となり、研究者が将来の研究の機会を見つけるのに役立つでしょう。
Scaling Data-Constrained Language Models
データ制約付き言語モデルのスケーリング
The current trend of scaling language models involves increasing both parameter count and training data set size. Extrapolating this trend suggests that training data set size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training data set with code data or removing commonly used filters. Models and data sets from our 400 training runs are freely available at https://github.com/huggingface/datablations.
言語モデルのスケーリングにおける現在の傾向は、パラメータ数と学習データセットのサイズの両方の増加を伴います。この傾向を外挿すると、学習データセットのサイズは近い将来、インターネット上で利用可能なテキストデータの量によって制限される可能性があることが示唆されます。この制限を踏まえ、データ制約のある環境における言語モデルのスケーリングを調査します。具体的には、データの繰り返しと計算予算を最大9,000億個の学習トークンと90億個のパラメータモデルまで変化させた大規模な実験を実施します。計算予算が固定された制約データの場合、最大4エポックの繰り返しデータを用いた学習では、一意のデータを用いた場合と比較して、損失への影響は無視できることがわかりました。しかし、繰り返し回数が増えると、計算量の追加による価値は最終的にゼロに減少します。繰り返しトークンと過剰なパラメータの価値の減少を考慮した、計算量の最適化に関するスケーリング則を提案し、実験的に検証します。最後に、学習データセットにコードデータを追加することや、一般的に使用されるフィルターを削除することなど、データ不足を緩和する手法を実験します。400回の訓練実行から得られたモデルとデータセットは、https://github.com/huggingface/datablationsで無料で入手できます。
Curvature-based Clustering on Graphs
グラフ上の曲率ベースクラスタリング
Unsupervised node clustering (or community detection) is a classical graph learning task. In this paper, we study algorithms that exploit the geometry of the graph to identify densely connected substructures, which form clusters or communities. Our method implements discrete Ricci curvatures and their associated geometric flows, under which the edge weights of the graph evolve to reveal its community structure. We consider several discrete curvature notions and analyze the utility of the resulting algorithms. In contrast to prior literature, we study not only single-membership community detection, where each node belongs to exactly one community, but also mixed-membership community detection, where communities may overlap. For the latter, we argue that it is beneficial to perform community detection on the line graph, i.e., the graph’s dual. We provide both theoretical and empirical evidence for the utility of our curvature-based clustering algorithms. In addition, we give several results on the relationship between the curvature of a graph and that of its dual, which enable the efficient implementation of our proposed mixed-membership community detection approach and which may be of independent interest for curvature-based network analysis.
教師なしノードクラスタリング(またはコミュニティ検出)は、古典的なグラフ学習タスクです。本稿では、グラフの幾何学的特徴を利用して、クラスターまたはコミュニティを形成する密に接続された部分構造を識別するアルゴリズムを検討します。我々の手法は、離散リッチ曲率とそれに関連する幾何学的フローを実装し、その下でグラフのエッジの重みが進化することでコミュニティ構造を明らかにします。我々はいくつかの離散曲率の概念を検討し、結果として得られるアルゴリズムの有用性を分析します。先行研究とは対照的に、我々は各ノードが正確に1つのコミュニティに属する単一メンバーシップコミュニティ検出だけでなく、コミュニティが重複する可能性がある混合メンバーシップコミュニティ検出も検討します。後者の場合、グラフの双対である線グラフ上でコミュニティ検出を行うことが有益であると主張します。曲率に基づくクラスタリングアルゴリズムの有用性について、理論的および経験的証拠を提示します。さらに、グラフの曲率とその双対グラフの曲率の関係に関するいくつかの結果を示す。これらの結果は、提案する混合メンバーシップコミュニティ検出アプローチの効率的な実装を可能にし、曲率に基づくネットワーク分析においても独立した関心事となる可能性があります。
Composite Goodness-of-fit Tests with Kernels
カーネルを用いた複合適合度検定
We propose kernel-based hypothesis tests for the challenging composite testing problem, where we are interested in whether the data comes from any distribution in some parametric family. Our tests make use of minimum distance estimators based on kernel-based distances such as the maximum mean discrepancy. As our main result, we show that we are able to estimate the parameter and conduct our test on the same data (without data splitting), while maintaining a correct test level. We also prove that the popular wild bootstrap will lead to an overly conservative test, and show that the parametric bootstrap is consistent and can lead to significantly improved performance in practice. Our approach is illustrated on a range of problems, including testing for goodness-of-fit of a non-parametric density model, and an intractable generative model of a biological cellular network.
データが何らかのパラメトリックファミリーの分布から来ているかどうかに関心を持つ、困難な複合検定問題に対するカーネルベースの仮説検定を提案します。検定では、最大平均乖離度などのカーネルベースの距離に基づく最小距離推定量を使用します。主な結果として、正しい検定レベルを維持しながら、同じデータ(データ分割なし)でパラメータを推定し、検定を実行できることを示します。また、一般的なワイルドブートストラップは過度に保守的な検定につながることを証明し、パラメトリックブートストラップは一貫性があり、実際には大幅に向上するパフォーマンスにつながることを示します。我々のアプローチは、ノンパラメトリック密度モデルの適合度検定や、生物細胞ネットワークの扱いにくい生成モデルなど、様々な問題で実証されています。
PFLlib: A Beginner-Friendly and Comprehensive Personalized Federated Learning Library and Benchmark
PFLlib:初心者向けで包括的なパーソナライズされた連合学習ライブラリおよびベンチマーク
Amid the ongoing advancements in Federated Learning (FL), a machine learning paradigm that allows collaborative learning with data privacy protection, personalized FL (pFL) has gained significant prominence as a research direction within the FL domain. Whereas traditional FL (tFL) focuses on jointly learning a global model, pFL aims to balance each client’s global and personalized goals in FL settings. To foster the pFL research community, we started and built PFLlib, a comprehensive pFL library with an integrated benchmark platform. In PFLlib, we implemented 37 state-of-the-art FL algorithms (8 tFL algorithms and 29 pFL algorithms) and provided various evaluation environments with three statistically heterogeneous scenarios and 24 datasets. At present, PFLlib has gained more than 1600 stars and 300 forks on GitHub.
データプライバシーを保護しながら協調学習を可能にする機械学習パラダイムであるFederated Learning(FL)の継続的な進歩の中で、パーソナライズされたFL(pFL)は、FL分野における研究方向として大きな注目を集めています。従来のFL(tFL)がグローバルモデルの共同学習に焦点を当てているのに対し、pFLはFL設定において各クライアントのグローバル目標とパーソナライズされた目標のバランスをとることを目指しています。pFL研究コミュニティを育成するために、私たちは統合ベンチマークプラットフォームを備えた包括的なpFLライブラリであるPFLlibを立ち上げ、構築した。PFLlibでは、37の最先端FLアルゴリズム(8つのtFLアルゴリズムと29のpFLアルゴリズム)を実装し、3つの統計的に異質なシナリオと24のデータセットを備えた様々な評価環境を提供しました。現在、PFLlibはGitHubで1600以上のスターと300以上のフォークを獲得しています。
The Effect of SGD Batch Size on Autoencoder Learning: Sparsity, Sharpness, and Feature Learning
SGDバッチサイズがオートエンコーダ学習に与える影響:スパース性、シャープネス、および特徴学習
In this work, we investigate the dynamics of stochastic gradient descent (SGD) when training a single-neuron autoencoder with linear or ReLU activation on orthogonal data. We show that for this non-convex problem, randomly initialized SGD with a constant step size successfully finds a global minimum for any batch size choice. However, the particular global minimum found depends upon the batch size. In the full-batch setting, we show that the solution is dense (i.e., not sparse) and is highly aligned with its initialized direction, showing that relatively little feature learning occurs. On the other hand, for any batch size strictly smaller than the number of samples, SGD finds a global minimum that is sparse and nearly orthogonal to its initialization, showing that the randomness of stochastic gradients induces a qualitatively different type of “feature selection” in this setting. Moreover, if we measure the sharpness of the minimum by the trace of the Hessian, the minima found with full-batch gradient descent are flatter than those found with strictly smaller batch sizes, in contrast to previous works which suggest that large batches lead to sharper minima. To prove convergence of SGD with a constant step size, we introduce a powerful tool from the theory of non-homogeneous random walks which may be of independent interest.
本研究では、線形またはReLU活性化を用いた単一ニューロンオートエンコーダを直交データで学習する際の確率的勾配降下法(SGD)のダイナミクスを調査します。この非凸問題において、一定のステップサイズでランダムに初期化されたSGDは、任意のバッチサイズ選択において大域的最小値を発見することを示す。しかし、発見される特定の大域的最小値はバッチサイズに依存します。フルバッチ設定では、解は稠密(つまり、スパースではない)であり、初期化された方向と非常によく一致していることを示し、特徴学習が比較的少ないことを示しています。一方、サンプル数より厳密に小さいバッチサイズでは、SGDはスパースであり、初期化とほぼ直交する大域的最小値を発見します。これは、確率的勾配のランダム性が、この設定において質的に異なるタイプの「特徴選択」を誘導することを示す。さらに、ヘッセ行列のトレースで最小値の鋭さを測定すると、フルバッチ勾配降下法で発見された最小値は、バッチサイズが小さいほど最小値が鋭くなることを示唆する以前の研究とは対照的に、より平坦です。一定のステップサイズでのSGDの収束を証明するために、非同次ランダムウォーク理論からの強力なツールを導入します。これは独立した関心事となる可能性があります。
Efficient and Robust Transfer Learning of Optimal Individualized Treatment Regimes with Right-Censored Survival Data
右打ち切り生存データを用いた最適個別治療レジームの効率的かつロバストな転移学習
An individualized treatment regime (ITR) is a decision rule that assigns treatments based on patients’ characteristics. The value function of an ITR is the expected outcome in a counterfactual world had this ITR been implemented. Recently, there has been increasing interest in combining heterogeneous data sources, such as leveraging the complementary features of randomized controlled trial (RCT) data and a large observational study (OS). Usually, a covariate shift exists between the source and target population, rendering the source-optimal ITR not optimal for the target population. We present an efficient and robust transfer learning framework for estimating the optimal ITR with right-censored survival data that generalizes well to the target population. The value function accommodates a broad class of functionals of survival distributions, including survival probabilities and restrictive mean survival times (RMSTs). We propose a doubly robust estimator of the value function, and the optimal ITR is learned by maximizing the value function within a pre-specified class of ITRs. We establish the cubic rate of convergence for the estimated parameter indexing the optimal ITR, and show that the proposed optimal value estimator is consistent and asymptotically normal even with flexible machine learning methods for nuisance parameter estimation. We evaluate the empirical performance of the proposed method by simulation studies and a real data application of sodium bicarbonate therapy for patients with severe metabolic acidaemia in the intensive care unit (ICU), combining a RCT and an observational study with heterogeneity.
個別化治療レジーム(ITR)は、患者の特性に基づいて治療を割り当てる決定ルールです。ITRの価値関数とは、反事実的世界でこのITRが実装されていた場合に期待される結果です。最近では、ランダム化比較試験(RCT)データと大規模観察研究(OS)の相補的特徴を活用するなど、異種のデータソースを組み合わせることに関心が高まっています。通常、ソース集団とターゲット集団の間には共変量シフトが存在するため、ソース最適ITRはターゲット集団にとって最適ではありません。本稿では、ターゲット集団に適切に一般化される右側打ち切り生存データを使用して最適ITRを推定するための、効率的で堅牢な転移学習フレームワークを紹介します。価値関数は、生存確率や制限平均生存時間(RMST)など、生存分布の広範な関数に対応します。本稿では価値関数の二重に堅牢な推定量を提案し、事前に指定されたITRのクラス内で価値関数を最大化することで最適なITRを学習します。最適なITRを指標とする推定パラメータの3次収束率を確立し、提案する最適値推定値は、柔軟な機械学習手法を用いて擬似パラメータを推定した場合でも、一貫性があり、漸近的に正規分布に従うことを示す。提案手法の実証的性能は、RCTと異質性を考慮した観察研究を組み合わせたシミュレーション研究と、集中治療室(ICU)における重症代謝性アシデミア患者に対する重炭酸ナトリウム療法の実データ適用によって評価します。
DAGs as Minimal I-maps for the Induced Models of Causal Bayesian Networks under Conditioning
条件付け下の因果ベイズネットワークの誘導モデルのための最小IマップとしてのDAG
Bayesian networks (BNs) are a powerful tool for knowledge representation and reasoning, especially for complex systems. A critical task in the applications of BNs is conditional inference or inference in the presence of selection bias. However, post-conditioning, the conditional distribution family of a BN can become complex for analysis, and the corresponding induced subgraph may not accurately encode the conditional independencies for the remaining variables. In this work, we first investigate the conditions under which a BN remains closed under conditioning, meaning that the induced subgraph is consistent with the structural information of conditional distributions. Conversely, when a BN is not closed, we aim to construct a new directed acyclic graph (DAG) as a minimal $\mathcal{I}$-map for the conditional model by incorporating directed edges into the original induced graph. We present an equivalent characterization of this minimal $\mathcal{I}$-map and develop an efficient algorithm for its identification. The proposed framework improves the efficiency of conditional inference of a BN. Additionally, the DAG minimal $\mathcal{I}$-map offers graphical criteria for the safe integration of knowledge from diverse sources (subpopulations/conditional distributions), facilitating correct parameter estimation. Both theoretical analysis and simulation studies demonstrate that using a DAG minimal $\mathcal{I}$-map for conditional inference is more effective than traditional methods based on the joint distribution of the original BN.
ベイジアンネットワーク(BN)は、特に複雑なシステムにおける知識表現と推論のための強力なツールです。BNの応用において重要なタスクは、条件付き推論、または選択バイアスが存在する場合の推論です。しかし、事後条件付けにより、BNの条件付き分布族は解析が複雑になる可能性があり、対応する誘導サブグラフは残りの変数の条件付き独立性を正確にエンコードしない可能性があります。本研究では、まず、BNが条件付け下で閉じた状態を維持する条件、つまり誘導サブグラフが条件付き分布の構造情報と整合する条件を調べる。逆に、BNが閉じていない場合、元の誘導グラフに有向エッジを組み込むことで、条件付きモデルの最小$\mathcal{I}$マップとして新しい有向非巡回グラフ(DAG)を構築することを目指します。この最小$\mathcal{I}$マップの同等の特性評価を提示し、その識別のための効率的なアルゴリズムを開発します。提案されたフレームワークは、BNの条件付き推論の効率を改善します。さらに、DAG最小$\mathcal{I}$マップは、多様な情報源(サブポピュレーション/条件付き分布)からの知識を安全に統合するためのグラフィカルな基準を提供し、正しいパラメータ推定を容易にします。理論分析とシミュレーション研究の両方により、条件付き推論にDAG最小$\mathcal{I}$マップを使用することは、元のBNの結合分布に基づく従来の方法よりも効果的であることが実証されています。
Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization
調整済み期待改善率ノイズベイズ最適化における累積リグレット最小化
The expected improvement (EI) is one of the most popular acquisition functions for Bayesian optimization (BO) and has demonstrated good empirical performances in many applications for the minimization of simple regret. However, under the evaluation metric of cumulative regret, the performance of EI may not be competitive, and its existing theoretical regret upper bound still has room for improvement. To adapt the EI for better performance under cumulative regret, we introduce a novel quantity called the evaluation cost which is compared against the acquisition function, and with this, develop the expected improvement-cost (EIC) algorithm. In each iteration of EIC, a new point with the largest acquisition function value is sampled, only if that value exceeds its evaluation cost. If none meets this criteria, the current best point is resampled. This evaluation cost quantifies the potential downside of sampling a point, which is important under the cumulative regret metric as the objective function value in every iteration affects the performance measure. We establish in theory a high-probability regret upper bound of EIC based on the maximum information gain, which is tighter than the bound of existing EI-based algorithms. It is also comparable to the regret bound of other popular BO algorithms such as Thompson sampling (GP-TS) and upper confidence bound (GP-UCB). We further perform experiments to illustrate the improvement of EIC over several popular BO algorithms.
期待改善度(EI)は、ベイズ最適化(BO)における最も一般的な獲得関数の1つであり、単純リグレットの最小化に対する多くのアプリケーションで良好な経験的パフォーマンスが実証されています。ただし、累積リグレットの評価基準では、EIのパフォーマンスは競争力がない可能性があり、既存の理論的なリグレットの上限にはまだ改善の余地があります。累積リグレットでEIのパフォーマンスを向上させるために、獲得関数と比較される評価コストと呼ばれる新しい量を導入し、これを使用して期待改善コスト(EIC)アルゴリズムを開発します。EICの各反復では、獲得関数の値が評価コストを超える場合にのみ、その値が最大になる新しいポイントがサンプリングされます。この基準を満たすポイントがない場合、現在の最良のポイントが再サンプリングされます。この評価コストは、ポイントをサンプリングすることの潜在的なマイナス面を定量化します。これは、各反復における目的関数の値がパフォーマンス指標に影響を与えるため、累積リグレット基準では重要です。我々は、最大情報利得に基づくEICの高確率リグレット上限を理論的に確立した。これは、既存のEIベースアルゴリズムの上限よりも厳密です。また、これは、トンプソンサンプリング(GP-TS)や信頼度上限(GP-UCB)といった他の一般的なBOアルゴリズムのリグレット上限にも匹敵します。さらに、いくつかの一般的なBOアルゴリズムに対するEICの改善を示す実験も行う。
Manifold Fitting under Unbounded Noise
無制限ノイズ下での多様体フィッティング
In the field of non-Euclidean statistical analysis, a trend has emerged in recent times, of attempts to recover a low dimensional structure, namely a manifold, underlying the high dimensional data. Recovering the manifold requires the noise to be of a certain concentration and prevailing methods address this requirement by constructing an approximated manifold that is based on the tangent space estimation at each sample point. Although theoretical convergence for these methods is guaranteed, the samples are either noiseless or the noise is bounded. However, if the noise is unbounded, as is commonplace, the tangent space estimation at the noisy samples will be blurred – an undesirable outcome since fitting a manifold from the blurred tangent space might be more greatly compromised in terms of its accuracy. In this paper, we introduce a new manifold-fitting method, whereby the output manifold is constructed by directly estimating the tangent spaces at the projected points on the latent manifold, rather than at the sample points, thus reducing the error caused by the noise. Assuming the noise is unbounded, our new method has a high probability of achieving theoretical convergence, in terms of the upper bound of the distance between the estimated and latent manifold. The smoothness of the estimated manifold is also evaluated by bounding the supremum of twice difference above. Numerical simulations are conducted as part of this new method to help validate our theoretical findings and demonstrate the advantages of our method over other relevant manifold fitting methods. Finally, our method is applied to real data examples.
非ユークリッド統計解析の分野では、近年、高次元データの基礎となる低次元構造、すなわち多様体を復元しようとする傾向が見られます。多様体を復元するには、ノイズが一定の濃度である必要があり、一般的な手法では、各サンプル点における接空間推定に基づく近似多様体を構築することでこの要件に対処しています。これらの手法は理論的収束が保証されていますが、サンプルはノイズレスであるか、ノイズが有界です。しかし、一般的にノイズが無界の場合、ノイズを含むサンプルにおける接空間推定は不鮮明になります。これは望ましくない結果です。なぜなら、不鮮明な接空間から多様体をフィッティングすると、精度の面でより大きく損なわれる可能性があるからです。本稿では、出力多様体の構築にあたり、サンプル点ではなく潜在多様体上の投影点における接空間を直接推定することでノイズによる誤差を低減する、新たな多様体フィッティング手法を提案します。ノイズが無制限であると仮定すると、この新手法は、推定多様体と潜在多様体間の距離の上限に関して、高い理論的収束確率を示す。推定多様体の滑らかさは、上記の二倍差の上限を定めることで評価されます。この新手法の一環として数値シミュレーションを実施し、理論的知見を検証し、他の関連する多様体フィッティング手法に対する本手法の優位性を実証します。最後に、本手法を実際のデータ例に適用します。
Learning Global Nash Equilibrium in Team Competitive Games with Generalized Fictitious Cross-Play
一般化架空クロスプレイを用いたチーム競争ゲームにおける大域ナッシュ均衡の学習
Self-play (SP) is a popular multi-agent reinforcement learning framework for competitive games. Despite the empirical success, the theoretical properties of SP are limited to two-player settings. For team competitive games where two teams of cooperative agents compete with each other, we show a counter-example where SP cannot converge to a global Nash equilibrium (NE) with high probability. Policy-Space Response Oracles (PSRO) is an alternative framework that finds NEs by iteratively learning the best response (BR) to previous policies. PSRO can be directly extended to team competitive games with unchanged convergence properties by learning team BRs, but its repeated training from scratch makes it hard to scale to complex games. In this work, we propose Generalized Fictitious Cross-Play (GFXP), a novel algorithm that inherits benefits from both frameworks. GFXP simultaneously trains an SP-based main policy and a counter population. The main policy is trained by fictitious self-play and cross-play against the counter population, while the counter policies are trained as the BRs to the main policy’s checkpoints. We evaluate GFXP in matrix games and gridworld domains where GFXP achieves the lowest exploitabilities. We further conduct experiments in a challenging football game where GFXP defeats SOTA models with over 94% win rate.
セルフプレイ(SP)は、競争ゲームのための人気のあるマルチエージェント強化学習フレームワークです。実験的な成功にもかかわらず、SPの理論的特性は2人のプレイヤーの設定に限定されています。協力エージェントの2つのチームが互いに競争するチーム競争ゲームの場合、SPが高確率でグローバル ナッシュ均衡(NE)に収束できない反例を示します。ポリシー空間応答オラクル(PSRO)は、以前のポリシーに対する最善の応答(BR)を反復的に学習することでNEを見つける代替フレームワークです。PSROは、チームBRを学習することで収束特性を変更せずにチーム競争ゲームに直接拡張できますが、最初から繰り返しトレーニングするため、複雑なゲームに拡張することが困難です。本研究では、両方のフレームワークの利点を継承した新しいアルゴリズムである一般化架空クロスプレイ(GFXP)を提案します。GFXPは、SPベースのメイン ポリシーとカウンター ポピュレーションを同時にトレーニングします。メイン ポリシーは、架空のセルフプレイとカウンター ポピュレーションに対するクロスプレイによってトレーニングされ、カウンター ポリシーは、メイン ポリシーのチェックポイントに対するBRとしてトレーニングされます。GFXPを、マトリックスゲームとグリッドワールド領域で評価します。これらの領域では、GFXPが最も低いエクスプロイト可能性を達成しています。さらに、難易度の高いフットボールゲームで実験を行い、GFXPがSOTAモデルを94%以上の勝率で破りました。
Wasserstein Convergence Guarantees for a General Class of Score-Based Generative Models
一般的なスコアベース生成モデルに対するワッサーシュタイン収束保証
Score-based generative models are a recent class of deep generative models with state-of-the-art performance in many applications. In this paper, we establish convergence guarantees for a general class of score-based generative models in the 2-Wasserstein distance, assuming accurate score estimates and smooth log-concave data distribution. We specialize our results to several concrete score-based generative models with specific choices of forward processes modeled by stochastic differential equations, and obtain an upper bound on the iteration complexity for each model, which demonstrates the impacts of different choices of the forward processes. We also provide a lower bound when the data distribution is Gaussian. Numerically, we experiment with score-based generative models with different forward processes for unconditional image generation on CIFAR-10. We find that the experimental results are in good agreement with our theoretical predictions on the iteration complexity.
スコアベースの生成モデルは、多くのアプリケーションで最先端のパフォーマンスを備えた最近のクラスの深層生成モデルです。本稿では、正確なスコア推定と滑らかな対数凹データ分布を仮定し、2-ワッサーシュタイン距離における一般的なクラスのスコアベースの生成モデルの収束保証を確立します。私たちは、確率微分方程式でモデル化された順方向プロセスの特定の選択を持ついくつかの具体的なスコアベースの生成モデルに結果を特化し、各モデルの反復複雑度の上限を取得します。これは、異なる順方向プロセスの選択の影響を示しています。また、データ分布がガウス分布の場合の下限も提供します。数値的には、CIFAR-10での無条件画像生成に対して、異なる順方向プロセスを持つスコアベースの生成モデルを実験します。実験結果は、反復複雑度に関する理論予測とよく一致することがわかりました。
Extremal graphical modeling with latent variables via convex optimization
凸最適化による潜在変数を用いた極値グラフィカルモデリング
Extremal graphical models encode the conditional independence structure of multivariate extremes and provide a powerful tool for quantifying the risk of rare events. Prior work on learning these graphs from data has focused on the setting where all relevant variables are observed. For the popular class of Husler-Reiss models, we propose the eglatent method, a tractable convex program for learning extremal graphical models in the presence of latent variables. Our approach decomposes the Husler-Reiss precision matrix into a sparse component encoding the graphical structure among the observed variables after conditioning on the latent variables, and a low-rank component encoding the effect of a few latent variables on the observed variables. We provide finite-sample guarantees of eglatent and show that it consistently recovers the conditional graph as well as the number of latent variables. We highlight the improved performances of our approach on synthetic and real data.
極値グラフィカルモデルは、多変量極値の条件付き独立性構造を符号化し、稀なイベントのリスクを定量化するための強力なツールを提供します。データからこれらのグラフを学習するこれまでの研究は、すべての関連変数が観測される設定に焦点を当ててきた。広く普及しているHusler-Reissモデルに対し、潜在変数が存在する極値グラフィカルモデルを学習するための扱いやすい凸プログラムであるeglatent法を提案します。本手法は、Husler-Reissの精度行列を、潜在変数を条件付けた後の観測変数間のグラフィカル構造を符号化するスパース成分と、少数の潜在変数が観測変数に与える影響を符号化する低ランク成分に分解します。eglatentの有限サンプル保証を提供し、条件付きグラフと潜在変数の数を一貫して復元できることを示す。合成データと実データにおける本手法の性能向上についても強調します。
On the Approximation of Kernel functions
カーネル関数の近似について
Various methods in statistical learning build on kernels considered in reproducing kernel Hilbert spaces. In applications, the kernel is often selected based on characteristics of the problem and the data. This kernel is then employed to infer response variables at points, where no explanatory data were observed. The data considered here are located in compact sets in higher dimensions and the paper addresses approximations of the kernel itself. The new approach considers Taylor series approximations of radial kernel functions. For the Gauss kernel on the unit cube, the paper establishes an upper bound of the associated eigenfunctions, which grows only polynomially with respect to the index. The novel approach substantiates smaller regularization parameters than considered in the literature, overall leading to better approximations. This improvement confirms low rank approximation methods such as the Nyström method.
統計学習のさまざまな手法は、再現カーネルヒルベルト空間で考慮されるカーネルに基づいています。応用分野においては、カーネルは問題とデータの特性に基づいて選択されることが多い。このカーネルは、説明データが観測されなかった点における応答変数の推定に用いられます。ここで検討するデータは高次元のコンパクトな集合に配置されており、本論文ではカーネル自体の近似について論じる。新しいアプローチでは、ラジアルカーネル関数のテイラー級数近似を考慮します。単位立方体上のガウスカーネルについては、本論文では関連する固有関数の上限を確立し、これはインデックスに関して多項式的にのみ増加します。この新しいアプローチは、文献で検討されているよりも小さい正則化パラメータを実証し、全体としてより優れた近似値をもたらす。この改善は、ニストローム法などの低ランク近似法の有効性を裏付けるものです。
Efficient and Robust Semi-supervised Estimation of Average Treatment Effect with Partially Annotated Treatment and Response
部分的に注釈が付けられた治療と反応を用いた平均治療効果の効率的かつロバストな半教師あり推定
A notable challenge of leveraging Electronic Health Records (EHR) for treatment effect assessment is the lack of precise information on important clinical variables, including the treatment received and the response. Both treatment information and response cannot be accurately captured by readily available EHR features in many studies and require labor-intensive manual chart review to precisely annotate, which limits the number of available gold standard labels on these key variables. We considered average treatment effect (ATE) estimation when 1) exact treatment and outcome variables are only observed together in a small labeled subset and 2) noisy surrogates of treatment and outcome, such as relevant prescription and diagnosis codes, along with potential confounders are observed for all subjects. We derived the efficient influence function for ATE and used it to construct a semi-supervised multiple machine learning (SMMAL) estimator. We justified that our SMMAL ATE estimator is semi-parametric efficient with B-spline regression under low-dimensional smooth models. We developed the adaptive sparsity/model doubly robust estimation under high-dimensional logistic propensity score and outcome regression models. Results from simulation studies demonstrated the validity of our SMMAL method and its superiority over supervised and unsupervised benchmarks. We applied SMMAL to the assessment of targeted therapies for metastatic colorectal cancer in comparison to chemotherapy.
治療効果評価に電子健康記録(EHR)を活用する際の顕著な課題は、受けた治療や反応などの重要な臨床変数に関する正確な情報が不足していることです。多くの研究では、治療情報と反応の両方をすぐに利用できるEHR機能で正確に取得することができず、正確に注釈を付けるには労働集約的な手作業によるカルテレビューが必要であり、そのため、これらの主要変数に利用可能なゴールドスタンダードラベルの数が制限されます。我々は、1)正確な治療変数と結果変数が小さなラベル付きサブセットでのみ一緒に観察され、2)治療と結果のノイズの多い代替変数(関連する処方箋や診断コードなど)が潜在的な交絡因子とともにすべての被験者で観察される場合に、平均治療効果(ATE)の推定を考慮しました。ATEの効率的な影響関数を導出し、それを使用して半教師あり多重機械学習(SMMAL)推定量を構築しました。低次元の滑らかなモデルでは、Bスプライン回帰を用いたSMMAL ATE推定量が半パラメトリックに効率的であることを実証しました。高次元のロジスティック傾向スコアと結果回帰モデルでは、適応型スパース性/モデル二重ロバスト推定を開発しました。シミュレーション研究の結果は、我々のSMMAL法の妥当性と、教師ありおよび教師なしベンチマークに対する優位性を実証しました。我々は、化学療法と比較して転移性大腸がんに対する標的療法の評価にSMMALを適用しました。
Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning
非凸確率的ブレグマン近似勾配法と深層学習への応用
Stochastic gradient methods for minimizing nonconvex composite objective functions typically rely on the Lipschitz smoothness of the differentiable part, but this assumption fails in many important problem classes like quadratic inverse problems and neural network training, leading to instability of the algorithms in both theory and practice. To address this, we propose a family of stochastic Bregman proximal gradient (SBPG) methods that only require smooth adaptivity. SBPG replaces the quadratic approximation in SGD with a Bregman proximity measure, offering a better approximation model that handles non-Lipschitz gradients in nonconvex objectives. We establish the convergence properties of vanilla SBPG and show it achieves optimal sample complexity in the nonconvex setting. Experimental results on quadratic inverse problems demonstrate SBPG’s robustness in terms of stepsize selection and sensitivity to the initial point. Furthermore, we introduce a momentum-based variant, MSBPG, which enhances convergence by relaxing the mini-batch size requirement while preserving the optimal oracle complexity. We apply MSBPG to the training of deep neural networks, utilizing a polynomial kernel function to ensure smooth adaptivity of the loss function. Experimental results on benchmark datasets confirm the effectiveness and robustness of MSBPG in training neural networks. Given its negligible additional computational cost compared to SGD in large-scale optimization, MSBPG shows promise as a universal open-source optimizer for future applications.
非凸複合目的関数を最小化する確率的勾配法は、通常、微分可能部分のLipschitz滑らかさに依存しますが、この仮定は、二次逆問題やニューラル ネットワークのトレーニングなど、多くの重要な問題クラスで当てはまらず、理論と実践の両方でアルゴリズムの不安定性につながります。これに対処するために、滑らかな適応性のみを必要とする確率的Bregman近似勾配(SBPG)法のファミリーを提案します。SBPGは、SGDの二次近似をBregman近接測度に置き換え、非凸目的関数の非Lipschitz勾配を処理するより優れた近似モデルを提供します。バニラSBPGの収束特性を確立し、非凸設定で最適なサンプル複雑度を実現することを示します。二次逆問題に関する実験結果により、ステップサイズの選択と初期点に対する感度に関してSBPGが堅牢であることが実証されています。さらに、我々はモメンタムベースのバリアントであるMSBPGを導入します。これは、最適なオラクルの複雑性を維持しながらミニバッチサイズ要件を緩和することで収束を強化します。我々は、損失関数の滑らかな適応性を確保するために多項式カーネル関数を利用して、ディープニューラルネットワークのトレーニングにMSBPGを適用します。ベンチマークデータセットでの実験結果は、ニューラルネットワークのトレーニングにおけるMSBPGの有効性と堅牢性を確認しました。大規模最適化においてSGDと比較して追加の計算コストが無視できることを考えると、MSBPGは将来のアプリケーションのための汎用オープンソース最適化ツールとして有望です。
Optimizing Data Collection for Machine Learning
機械学習のためのデータ収集の最適化
Modern deep learning systems require huge data sets to achieve impressive performance, but there is little guidance on how much or what kind of data to collect. Over-collecting data incurs unnecessary present costs, while under-collecting may incur future costs and delay workflows. We propose a new paradigm to model the data collection workflow as a formal optimal data collection problem that allows designers to specify performance targets, collection costs, a time horizon, and penalties for failing to meet the targets. This formulation generalizes to tasks with multiple data sources, such as labeled and unlabeled data used in semi-supervised learning, and can be easily modified to customized analyses such as how to introduce data from new classes to an existing model. To solve our problem, we develop Learn-Optimize-Collect (LOC), which minimizes expected future collection costs. Finally, we numerically compare our framework to the conventional baseline of estimating data requirements by extrapolating from neural scaling laws. We significantly reduce the risks of failing to meet desired performance targets on several classification, segmentation, and detection tasks, while maintaining low total collection costs.
現代の深層学習システムは、優れた性能を達成するために膨大なデータセットを必要としますが、どの程度の量やどのような種類のデータを収集すべきかについての指針はほとんどありません。データの収集が多すぎると不必要な現在のコストが発生し、収集が少なすぎると将来のコストが発生し、ワークフローが遅延する可能性があります。本研究では、データ収集ワークフローを形式的な最適データ収集問題としてモデル化する新しいパラダイムを提案します。これにより、設計者は性能目標、収集コスト、対象期間、目標達成に失敗した際のペナルティを指定できます。この定式化は、半教師あり学習で使用されるラベル付きデータとラベルなしデータなど、複数のデータソースを持つタスクに一般化され、新しいクラスのデータを既存のモデルに導入する方法などのカスタマイズされた分析にも簡単に変更できます。この問題を解決するために、将来の収集コストを最小化する学習・最適化・収集(LOC)手法を開発しました。最後に、ニューラルネットワークのスケーリング則から外挿してデータ要件を推定する従来のベースラインと、このフレームワークを数値的に比較しました。これにより、総収集コストを低く抑えながら、複数の分類、セグメンテーション、検出タスクにおいて、望ましいパフォーマンス目標を達成できないリスクを大幅に低減します。
Unbalanced Kantorovich-Rubinstein distance, plan, and barycenter on nite spaces: A statistical perspective
有限空間における不均衡カントロビッチ-ルビンシュタイン距離、平面、重心:統計的観点
We analyze statistical properties of plug-in estimators for unbalanced optimal transport quantities between finitely supported measures in different prototypical sampling models. Specifically, our main results provide non-asymptotic bounds on the expected error of empirical Kantorovich-Rubinstein (KR) distance, plans, and barycenters for mass penalty parameter $C>0$. The impact of the mass penalty parameter $C$ is studied in detail. Based on this analysis, we mathematically justify randomized computational schemes for KR quantities which can be used for fast approximate computations in combination with any exact solver. Using synthetic and real datasets, we empirically analyze the behavior of the expected errors in simulation studies and illustrate the validity of our theoretical bounds.
我々は、異なるプロトタイプサンプリングモデルにおける有限支持測度間の不均衡な最適輸送量のプラグイン推定値の統計的特性を分析します。具体的には、我々の主な結果は、質量ペナルティパラメータ$C>0$の場合の経験的カントロビッチ-ルビンスタイン(KR)距離、プラン、および重心の期待誤差に関する非漸近的な境界を提供します。質量ペナルティパラメータ$C$の影響を詳細に検討します。この分析に基づき、任意の厳密解法と組み合わせて高速近似計算に使用できるKR量のランダム化計算スキームを数学的に正当化します。合成データセットと実データセットを用いて、シミュレーション研究における期待誤差の挙動を経験的に分析し、理論的限界の妥当性を示します。
Copula-based Sensitivity Analysis for Multi-Treatment Causal Inference with Unobserved Confounding
観測されない交絡因子を含む多重治療因果推論のためのコピュラに基づく感度分析
Recent work has focused on the potential and pitfalls of causal identification in observational studies with multiple simultaneous treatments. Building on previous work, we show that even if the conditional distribution of unmeasured confounders given treatments were known exactly, the causal effects would not in general be identifiable, although they may be partially identified. Given these results, we propose a sensitivity analysis method for characterizing the effects of potential unmeasured confounding, tailored to the multiple treatment setting, that can be used to characterize a range of causal effects that are compatible with the observed data. Our method is based on a copula factorization of the joint distribution of outcomes, treatments, and confounders, and can be layered on top of arbitrary observed data models. We propose a practical implementation of this approach making use of the Gaussian copula, and establish conditions under which causal effects can be bounded. We also describe approaches for reasoning about effects, including calibrating sensitivity parameters, quantifying robustness of effect estimates, and selecting models that are most consistent with prior hypotheses.
最近の研究は、複数の同時治療を伴う観察研究における因果同定の可能性と落とし穴に焦点を当てています。先行研究に基づき、たとえ治療を与えられた際の測定されていない交絡因子の条件付き分布が正確に分かっていたとしても、因果効果は部分的には同定できるものの、一般的には同定できないことを示す。これらの結果に基づき、複数の治療設定に合わせて調整された、潜在的な測定されていない交絡因子の影響を特徴付けるための感度分析手法を提案します。この手法は、観測データと整合する様々な因果効果を特徴付けるために使用できます。我々の手法は、結果、治療、および交絡因子の同時分布のコピュラ分解に基づいており、任意の観測データモデルの上に重ねることができます。我々は、ガウスコピュラを用いたこのアプローチの実際的な実装を提案し、因果効果を有界化できる条件を確立します。また、感度パラメータの較正、効果推定値の堅牢性の定量化、事前仮説と最も整合するモデルの選択など、効果について推論するためのアプローチについても説明します。
Rank-one Convexification for Sparse Regression
スパース回帰におけるランク1凸化
Sparse regression models are increasingly prevalent due to their ease of interpretability and superior out-of-sample performance. However, the exact model of sparse regression with an $\ell_0$-constraint restricting the support of the estimators is a challenging (\NP-hard) non-convex optimization problem. In this paper, we derive new strong convex relaxations for sparse regression. These relaxations are based on the convex-hull formulations for rank-one quadratic terms with indicator variables. The new relaxations can be formulated as semidefinite optimization problems in an extended space and are stronger and more general than the state-of-the-art formulations, including the perspective reformulation and formulations with the reverse Huber penalty and the minimax concave penalty functions. Furthermore, the proposed rank-one strengthening can be interpreted as a non-separable, non-convex, unbiased sparsity-inducing regularizer, which dynamically adjusts its penalty according to the shape of the error function without inducing bias for the sparse solutions. In our computational experiments with benchmark datasets, the proposed conic formulations are solved within seconds and result in near-optimal solutions (with 0.4\% optimality gap on average) for non-convex $\ell_0$-problems. Moreover, the resulting estimators also outperform alternative convex approaches, such as lasso and elastic net regression, from a statistical perspective, achieving high prediction accuracy and good interpretability.
スパース回帰モデルは、その解釈の容易さと優れたアウトオブサンプル性能から、ますます普及しています。しかし、推定値のサポートを制限する$\ell_0$制約を伴うスパース回帰の正確なモデルは、困難な(\NP困難)非凸最適化問題です。本稿では、スパース回帰のための新しい強力な凸緩和を導出します。これらの緩和は、指標変数を含むランク1の2次項の凸包定式に基づいています。新しい緩和は、拡張空間における半正定値最適化問題として定式化でき、パースペクティブ再定式化、逆Huberペナルティ関数、ミニマックス凹ペナルティ関数を含む最新の定式化よりも強力で汎用性があります。さらに、提案されたランク1強化は、非分離、非凸、不偏スパース性誘導正則化として解釈でき、スパース解にバイアスを誘導することなく、誤差関数の形状に応じてペナルティを動的に調整します。ベンチマークデータセットを用いた計算実験において、提案された円錐定式化は数秒以内に解かれ、非凸$\ell_0$問題に対してほぼ最適な解(平均0.4%の最適性ギャップ)が得られます。さらに、得られた推定値は統計的観点からLasso回帰やElastic Net Regressionなどの代替凸アプローチよりも優れており、高い予測精度と良好な解釈可能性を実現しています。
gsplat: An Open-Source Library for Gaussian Splatting
gsplat:ガウシアンスポッティングのオープンソースライブラリ
gsplat is an open-source library designed for training and developing Gaussian Splatting methods. It features a front-end with Python bindings compatible with the PyTorch library and a back-end with highly optimized CUDA kernels. gsplat offers numerous features that enhance the optimization of Gaussian Splatting models, which include optimization improvements for speed, memory, and convergence times. Experimental results demonstrate that gsplat achieves up to 10% less training time and 4x less memory than the original implementation. Utilized in several research projects, gsplat is actively maintained on GitHub. Source code is available at https://github.com/nerfstudio-project/gsplat under Apache License 2.0. We welcome contributions from the open-source community.
gsplatは、ガウススプラッティング手法のトレーニングと開発のために設計されたオープンソースライブラリです。PyTorchライブラリと互換性のあるPythonバインディングを備えたフロントエンドと、高度に最適化されたCUDAカーネルを持つバックエンドを特徴としています。gsplatは、速度、メモリ、および収束時間の最適化改善を含む、ガウススプラッティングモデルの最適化を強化する多数の機能を提供します。実験結果は、gsplatが元の実装に比べて最大10%のトレーニング時間の短縮と4倍のメモリ削減を達成することを示しています。いくつかの研究プロジェクトで利用されているgsplatは、GitHubで積極的にメンテナンスされています。ソースコードは、Apache License 2.0の下でhttps://github.com/nerfstudio-project/gsplatで入手可能です。私たちはオープンソースコミュニティからの貢献を歓迎します。
Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming
スケッチされた逐次二次計画法による制約付き確率最適化の統計的推論
We consider online statistical inference of constrained stochastic nonlinear optimization problems. We apply the Stochastic Sequential Quadratic Programming (StoSQP) method to solve these problems, which can be regarded as applying second-order Newton’s method to the Karush-Kuhn-Tucker (KKT) conditions. In each iteration, the StoSQP method computes the Newton direction by solving a quadratic program, and then selects a proper adaptive stepsize $\bar{\alpha}_t$ to update the primal-dual iterate. To reduce dominant computational cost of the method, we inexactly solve the quadratic program in each iteration by employing an iterative sketching solver. Notably, the approximation error of the sketching solver need not vanish as iterations proceed, meaning that the per-iteration computational cost does not blow up. For the above StoSQP method, we show that under mild assumptions, the rescaled primal-dual sequence $1/\sqrt{\bar{\alpha}_t}\cdot (x_t -x^\star, \lambda_t – \lambda^\star)$ converges to a mean-zero Gaussian distribution with a nontrivial covariance matrix depending on the underlying sketching distribution. To perform inference in practice, we also analyze a plug-in covariance matrix estimator. We illustrate the asymptotic normality result of the method both on benchmark nonlinear problems in CUTEst test set and on linearly/nonlinearly constrained regression problems.
制約付き確率的非線形最適化問題のオンライン統計的推論について考察します。これらの問題を解決するために、Stochastic Sequential Quadratic Programming (StoSQP) 法を適用し、これは Karush-Kuhn-Tucker (KKT) 条件に 2 次ニュートン法を適用したと見なすことができます。各反復で、StoSQP法は二次計画法を解いてニュートン方向を計算し、適切な適応ステップサイズ$bar{alpha}_t$を選択して主双対反復を更新します。この手法の主要な計算コストを削減するために、反復スケッチソルバーを使用して、各反復で二次計画を不正確に解きます。特に、スケッチ ソルバーの近似誤差は、反復が進行しても消える必要がないため、反復ごとの計算コストが爆発的に増加することはありません。上記のStoSQP法では、穏やかな仮定の下で、再スケーリングされた主双対列$1/sqrt{bar{alpha}_t}cdot(x_t -x^star, lambda_t – lambda^star)$が、基礎となるスケッチ分布に応じて非自明な共分散行列を持つ平均ゼロのガウス分布に収束することを示します。実際に推論を実行するために、プラグイン共分散行列推定器も分析します。この手法の漸近正規性の結果を、CUTEst テスト セットのベンチマーク非線形問題と線形/非線形制約付き回帰問題の両方で説明します。
Sliced-Wasserstein Distances and Flows on Cartan-Hadamard Manifolds
スライス・ワッサースタイン距離とカルタン・ハダマール多様体上のフロー
While many Machine Learning methods have been developed or transposed on Riemannian manifolds to tackle data with known non-Euclidean geometry, Optimal Transport (OT) methods on such spaces have not received much attention. The main OT tool on these spaces is the Wasserstein distance, which suffers from a heavy computational burden. On Euclidean spaces, a popular alternative is the Sliced-Wasserstein distance, which leverages a closed-form solution of the Wasserstein distance in one dimension, but which is not readily available on manifolds. In this work, we derive general constructions of Sliced-Wasserstein distances on Cartan-Hadamard manifolds, Riemannian manifolds with non-positive curvature, which include among others Hyperbolic spaces or the space of Symmetric Positive Definite matrices. Then, we propose different applications such as classification of documents with a suitably learned ground cost on a manifold, and data set comparison on a product manifold. Additionally, we derive non-parametric schemes to minimize these new distances by approximating their Wasserstein gradient flows.
多くの機械学習手法が既知の非ユークリッド幾何を持つデータに対処するためにリーマン多様体に発展または転送されてきた一方で、そのような空間における最適輸送(OT)手法はあまり注目されていません。これらの空間における主なOTツールはワッサースタイン距離であり、重い計算負担に悩まされています。ユークリッド空間では、人気のある代替案はスライスワッサースタイン距離であり、これは1次元におけるワッサースタイン距離の閉形式解を利用しますが、多様体上では容易に利用できるわけではありません。この研究では、双曲空間や対称正定値行列の空間を含む、非正曲率のリーマン多様体であるカルタン-ハダマール多様体上のスライス-ワッサースタイン距離の一般的な構成を導出します。その後、適切に学習された基準コストを多様体上で用いた文書の分類や、積多様体上でのデータセットの比較など、さまざまな応用を提案します。さらに、これらの新しい距離をワッサースタイン勾配流を近似することで最小化する非パラメトリック手法を導出します。
Accelerating optimization over the space of probability measures
確率測度の空間における最適化の加速
The acceleration of gradient-based optimization methods is a subject of significant practical and theoretical importance, particularly within machine learning applications. While much attention has been directed towards optimizing within Euclidean space, the need to optimize over spaces of probability measures in machine learning motivates the exploration of accelerated gradient methods in this context, too. To this end, we introduce a Hamiltonian-flow approach analogous to momentum-based approaches in Euclidean space. We demonstrate that, in the continuous-time setting, algorithms based on this approach can achieve convergence rates of arbitrarily high order. We complement our findings with numerical examples.
勾配ベースの最適化手法の加速は、特に機械学習の応用において、実用的および理論的に重要なテーマです。ユークリッド空間内の最適化に向けられた多くの関心がある一方で、機械学習において確率測度の空間に対して最適化する必要性が、この文脈における加速勾配法の探求を促しています。そのために、ユークリッド空間におけるモーメントベースのアプローチに類似したハミルトン流アプローチを導入します。このアプローチに基づくアルゴリズムは、連続時間設定において、任意の高次の収束率を達成できることを示します。また、数値例をもって結果を補完します。
Bayesian Multi-Group Gaussian Process Models for Heterogeneous Group-Structured Data
異種グループ構造データのためのベイズ多群ガウス過程モデル
Gaussian processes are pervasive in functional data analysis, machine learning, and spatial statistics for modeling complex dependencies. Scientific data are often heterogeneous in their inputs and contain multiple known discrete groups of samples; thus, it is desirable to leverage the similarity among groups while accounting for heterogeneity across groups. We propose multi-group Gaussian processes (MGGPs) defined over $\mathbb{R}^p\times \mathscr{C}$, where $\mathscr{C}$ is a finite set representing the group label, by developing general classes of valid (positive definite) covariance functions on such domains. MGGPs are able to accurately recover relationships between the groups and efficiently share strength across samples from all groups during inference, while capturing distinct group-specific behaviors in the conditional posterior distributions. We demonstrate inference in MGGPs through simulation experiments, and we apply our proposed MGGP regression framework to gene expression data to illustrate the behavior and enhanced inferential capabilities of multi-group Gaussian processes by jointly modeling continuous and categorical variables.
ガウス過程は、機能データ分析、機械学習、空間統計において、複雑な依存関係をモデル化するために広く用いられています。科学データは、その入力がしばしば異質であり、複数の既知の離散サンプル群を含むため、群間の異質性を考慮しながら群間の類似性を活用することが望ましいです。我々は、群ラベルを表す有限集合である(mathscr{C}) の上で定義された多群ガウス過程(MGGP)を提案し、そのようなドメイン上で一般的な有効(正定値)共分散関数のクラスを開発します。MGGPは、推論中にすべてのグループからのサンプル間で関係を正確に回復し、強度を効率的に共有しながら、条件付き後分布における特定のグループの特性を捉えることができます。私たちはシミュレーション実験を通じてMGGPでの推論を示し、遺伝子発現データに対して提案したMGGP回帰フレームワークを適用して、連続変数とカテゴリカル変数を共同モデル化することにより、多グループガウス過程の挙動と強化された推論能力を示します。
Orthogonal Bases for Equivariant Graph Learning with Provable k-WL Expressive Power
証明可能なk-WL表現力を持つ対称グラフ学習のための直交基底
Graph neural network (GNN) models have been widely used for learning graph-structured data. Due to the permutation-invariant requirement of graph learning tasks, a basic element in graph neural networks is the invariant and equivariant linear layers. Previous work (Maron et al., 2019b) provided a maximal collection of invariant and equivariant linear layers and a simple deep neural network model, called k-IGN, for graph data defined on k-tuples of nodes. It is shown that the expressive power of k-IGN is at least as good as the k-Weisfeiler-Leman (WL) algorithm in graph isomorphism tests. However, the dimension of the invariant layer and equivariant layer is the k-th and 2k-th bell numbers, respectively. Such high complexity makes it computationally infeasible for k-IGNs with k >= 3. In this paper, we show that a much smaller dimension for the linear layers is sufficient to achieve the same expressive power. We provide two sets of orthogonal bases for the linear layers, each with only 3(2^k-1)-k basis elements. Based on these linear layers, we develop neural network models GNN-a and GNN-b and show that for the graph data defined on k-tuples of data, GNN-a and GNN-b achieve the expressive power of the k-WL algorithm and the (k+1)-WL algorithm in graph isomorphism tests, respectively. In molecular prediction tasks on benchmark datasets, we demonstrate that low-order neural network models consisting of the proposed linear layers achieve better performance than other neural network models. In particular, order-2 GNN-b and order-3 GNN-a both have 3-WL expressive power, but use a much smaller basis and hence much less computation time than known neural network models.
グラフニューラルネットワーク(GNN)モデルは、グラフ構造データの学習に広く使用されています。グラフ学習タスクの置換不変要件により、グラフニューラルネットワークの基本的な要素は不変かつ共変な線形層です。以前の研究(Maron et al., 2019b)では、不変かつ共変の線形層の最大コレクションと、k-タプルノード上で定義されたグラフデータ向けのシンプルな深層ニューラルネットワークモデルであるk-IGNが提供されました。k-IGNの表現力は、グラフ同型性テストにおけるk-Weisfeiler-Leman(WL)アルゴリズムと同等以上であることが示されました。しかし、不変層と共変層の次元はそれぞれk番目と2k番目のベル数です。このような高い複雑さは、k >= 3のk-IGNには計算上不可能です。本論文では、線形層においてはるかに小さい次元が同じ表現力を達成するのに十分であることを示します。我々は、線形層のために直交基底の2セットを提供し、それぞれに3(2^k-1)-kの基底要素のみを含んでいます。これらの線形層に基づいて、ニューラルネットワークモデルGNN-aとGNN-bを開発し、データのkタプル上で定義されたグラフデータに対して、GNN-aとGNN-bがグラフ同型性テストにおけるk-WLアルゴリズムと(k+1)-WLアルゴリズムの表現力をそれぞれ達成することを示します。ベンチマークデータセットにおける分子予測タスクでは、提案された線形層から成る低次のニューラルネットワークモデルが、他のニューラルネットワークモデルよりも優れた性能を達成することを示します。特に、順序2のGNN-bと順序3のGNN-aの両方が3-WLの表現力を持っていますが、知られているニューラルネットワークモデルよりもはるかに小さな基底を使用し、したがってはるかに少ない計算時間を要します。
Optimal Experiment Design for Causal Effect Identification
因果効果の特定のための最適実験デザイン
Pearl’s do calculus is a complete axiomatic approach to learn the identifiable causal effects from observational data. When such an effect is not identifiable, it is necessary to perform a collection of often costly interventions in the system to learn the causal effect. In this work, we consider the problem of designing a collection of interventions with the minimum cost to identify the desired effect. First, we prove that this problem is NP-complete and subsequently propose an algorithm that can either find the optimal solution or a logarithmic-factor approximation of it. This is done by establishing a connection between our problem and the minimum hitting set problem. Additionally, we propose several polynomial time heuristic algorithms to tackle the computational complexity of the problem. Although these algorithms could potentially stumble on sub-optimal solutions, our simulations show that they achieve small regrets on random graphs.
パールの因果計算は、観察データから因果効果を学ぶための完全な公理的アプローチです。このような効果が特定できない場合、因果効果を学ぶために、しばしば高価な介入の集合をシステムに対して行う必要があります。本研究では、望ましい効果を特定するために、最小コストで介入の集合を設計する問題を考えます。まず、この問題がNP完全であることを証明し、その後、最適解を見つけるか、対数的近似を提供するアルゴリズムを提案します。これは、私たちの問題と最小ヒット集合問題との間に関係を確立することで実現されます。さらに、問題の計算の複雑さに対処するために、いくつかの多項式時間ヒューリスティックアルゴリズムを提案します。これらのアルゴリズムは、最適でない解に出くわす可能性がありますが、シミュレーションではランダムグラフに対して小さな後悔を達成することが示されています。
Mean Aggregator is More Robust than Robust Aggregators under Label Poisoning Attacks on Distributed Heterogeneous Data
平均集約器は、分散した異種データに対するラベルポイズニング攻撃において、堅牢な集約器よりもより堅牢です。
Robustness to malicious attacks is of paramount importance for distributed learning. Existing works usually consider the classical Byzantine attacks model, which assumes that some workers can send arbitrarily malicious messages to the server and disturb the aggregation steps of the distributed learning process. To defend against such worst-case Byzantine attacks, various robust aggregators have been proposed. They are proven to be effective and much superior to the often-used mean aggregator. In this paper, however, we demonstrate that the robust aggregators are too conservative for a class of weak but practical malicious attacks, known as label poisoning attacks, where the sample labels of some workers are poisoned. Surprisingly, we are able to show that the mean aggregator is more robust than the state-of-the-art robust aggregators in theory, given that the distributed data are sufficiently heterogeneous. In fact, the learning error of the mean aggregator is proven to be order-optimal in this case. Experimental results corroborate our theoretical findings, showing the superiority of the mean aggregator under label poisoning attacks.
悪意のある攻撃に対する堅牢性は、分散学習において極めて重要です。既存の研究は通常、いくつかの作業者がサーバーに恣意的な悪意のあるメッセージを送信し、分散学習プロセスの集約ステップを妨害できるという、古典的なビザンチン攻撃モデルを考慮しています。このような最悪のケースのビザンチン攻撃に対抗するために、さまざまな堅牢な集約器が提案されています。これらは効果的であり、しばしば使用される平均集約器よりも優れていることが証明されています。しかし本論文では、堅牢な集約器が、いくつかの作業者のサンプルラベルが汚染される「ラベル汚染攻撃」として知られる弱いが実用的な悪意のある攻撃のクラスに対して過度に保守的であることを示します。驚くべきことに、分散データが十分に異種である場合、平均集約器が最新のロバスト集約器よりも理論的にロバストであることを示すことができます。実際、この場合の平均集約器の学習誤差は順序最適であることが証明されています。実験結果は私たちの理論的結果を裏付けており、ラベルポイズニング攻撃の下での平均集約器の優位性を示しています。
The Blessing of Heterogeneity in Federated Q-Learning: Linear Speedup and Beyond
連合Q学習における異質性の祝福:線形スピードアップとその先
In this paper, we consider federated Q-learning, which aims to learn an optimal Q-function by periodically aggregating local Q-estimates trained on local data alone. Focusing on infinite-horizon tabular Markov decision processes, we provide sample complexity guarantees for both the synchronous and asynchronous variants of federated Q-learning, which exhibit a linear speedup with respect to the number of agents and near-optimal dependencies on other salient problem parameters. In the asynchronous setting, existing analyses of federated Q-learning, which adopt an equally weighted averaging of local Q-estimates, require that every agent covers the entire state-action space. In contrast, our improved sample complexity scales inverse proportionally to the minimum entry of the average stationary state-action occupancy distribution of all agents, thus only requiring the agents to collectively cover the entire state-action space, unveiling the blessing of heterogeneity. However, its sample complexity still suffers when the local trajectories are highly heterogeneous. In response, we propose a novel federated Q-learning algorithm with importance averaging, giving larger weights to more frequently visited state-action pairs, which achieves a robust linear speedup as if all trajectories are centrally processed, regardless of the heterogeneity of local behavior policies.
本論文では、ローカルデータのみに基づいて訓練されたローカルQ推定値を定期的に集約することで最適なQ関数を学習することを目的とした連合Q学習を考察します。無限ホライズンのタブラー形式のマルコフ決定プロセスに焦点を当て、エージェントの数に対して線形のスピードアップを示し、他の重要な問題パラメータに対してほぼ最適な依存関係を持つ連合Q学習の同期および非同期のバリアントについてサンプルの複雑性保証を提供します。非同期設定では、ローカルQ推定値の等重み平均を採用した既存の連合Q学習の分析は、すべてのエージェントが完全な状態-行動空間をカバーする必要があります。対照的に、我々の改善されたサンプル複雑性は、全てのエージェントの平均定常状態-行動占有分布の最小エントリーに対して逆比例的にスケールし、したがってエージェントが全体の状態-行動空間を集団でカバーすることだけを要求し、異質性の祝福を明らかにします。しかし、ローカルの軌道が非常に異質である場合、そのサンプル複雑性は依然として影響を受けます。それに応えて、我々は重要度平均を用いた新しい連合Q学習アルゴリズムを提案し、より頻繁に訪問される状態-行動ペアにより大きな重みを与え、ローカル行動ポリシーの異質性にかかわらず、全ての軌道が中央で処理されたかのように堅牢な線形スピードアップを実現します。
depyf: Open the Opaque Box of PyTorch Compiler for Machine Learning Researchers
depyf:機械学習研究者のためのPyTorchコンパイラーの不透明なボックスを開ける
PyTorch 2.x introduces a compiler designed to accelerate deep learning programs. However, for machine learning researchers, fully leveraging the PyTorch compiler can be challenging due to its operation at the Python bytecode level, making it appear as an opaque box. To address this, we introduce depyf, a tool designed to demystify the inner workings of the PyTorch compiler. depyf decompiles the bytecode generated by PyTorch back into equivalent source code and establishes connections between the code objects in the memory and their counterparts in source code format on the disk. This feature enables users to step through the source code line by line using debuggers, thus enhancing their understanding of the underlying processes. Notably, depyf is non-intrusive and user-friendly, primarily relying on two convenient context managers for its core functionality. The project is openly available at https://github.com/thuml/depyf and is recognized as a PyTorch ecosystem project at https://pytorch.org/blog/introducing-depyf.
PyTorch 2.xは、深層学習プログラムを加速するためのコンパイラを導入しました。しかし、機械学習研究者にとって、PyTorchコンパイラを完全に活用することは、Pythonバイトコードレベルでの動作のために難しいことがあります。それはあたかも不透明な箱のように見えるためです。これを解決するために、PyTorchコンパイラの内部動作を明らかにすることを目的としたツールであるdepyfを紹介します。depyfは、PyTorchによって生成されたバイトコードを同等のソースコードにデコンパイルし、メモリ内のコードオブジェクトとディスク上のソースコードフォーマットの対応するオブジェクトの間の接続を確立します。この機能は、ユーザーがデバッガを使用してソースコードを1行ずつステップ実行できるようにし、基本的なプロセスの理解を深めます。特に、depyfは非侵襲的で使いやすく、主に2つの便利なコンテキストマネージャに依存してそのコア機能を提供します。このプロジェクトは https://github.com/thuml/depyf で公開されており、 https://pytorch.org/blog/introducing-depyf ではPyTorchエコシステムプロジェクトとして認識されています。
The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise
マルコフノイズを伴う確率近似と強化学習のためのODE法
Stochastic approximation is a class of algorithms that update a vector iteratively, incrementally, and stochastically, including, e.g., stochastic gradient descent and temporal difference learning. One fundamental challenge in analyzing a stochastic approximation algorithm is to establish its stability, i.e., to show that the stochastic vector iterates are bounded almost surely. In this paper, we extend the celebrated Borkar-Meyn theorem for stability from the Martingale difference noise setting to the Markovian noise setting, which greatly improves its applicability in reinforcement learning, especially in those off-policy reinforcement learning algorithms with linear function approximation and eligibility traces. Central to our analysis is the diminishing asymptotic rate of change of a few functions, which is implied by both a form of the strong law of large numbers and a form of the law of the iterated logarithm.
確率近似は、ベクトルを反復的かつ漸次的に確率的に更新するアルゴリズムのクラスであり、例えば、確率的勾配降下法や時間差学習を含みます。確率近似アルゴリズムを分析する際の基本的な課題は、その安定性を確立すること、すなわち確率ベクトル反復がほぼ確実に有界であることを示すことです。本論文では、マーチンゲール差ノイズ設定からマルコフノイズ設定への安定性に関する著名なボルカー・メイン定理を拡張し、特に線形関数近似と適格トレースを用いたオフポリシー強化学習アルゴリズムにおける適用可能性を大幅に向上させます。私たちの分析の中心には、強い大数の法則の一形態と反復対数の法則の一形態の両方から示されるいくつかの関数の漸近的変化率の減少があります。
Improving Graph Neural Networks on Multi-node Tasks with the Labeling Trick
ラベリングトリックを用いたマルチノードタスクにおけるグラフニューラルネットワークの改善
In this paper, we study using graph neural networks (GNNs) for multi-node representation learning, where a representation for a set of more than one node (such as a link) is to be learned. Existing GNNs are mainly designed to learn single-node representations. When used for multi-node representation learning, a common practice is to directly aggregate the single-node representations obtained by a GNN. In this paper, we show a fundamental limitation of such an approach, namely the inability to capture the dependence among multiple nodes in the node set. A straightforward solution is to distinguish target nodes from others. Formalizing this idea, we propose \text{labeling trick}, which first labels nodes in the graph according to their relationships with the target node set before applying a GNN and then aggregates node representations obtained in the labeled graph for multi-node representations. Besides node sets in graphs, we also extend labeling tricks to posets, subsets and hypergraphs. Experiments verify that the labeling trick technique can boost GNNs on various tasks, including undirected link prediction, directed link prediction, hyperedge prediction, and subgraph prediction. Our work explains the superior performance of previous node-labeling-based methods and establishes a theoretical foundation for using GNNs for multi-node representation learning.
本論文では、複数のノード(リンクなど)を対象とした表現学習のためにグラフニューラルネットワーク(GNN)を使用する研究を行います。既存のGNNは主に単一ノードの表現を学習するように設計されています。複数ノードの表現学習に使用される際の一般的な手法は、GNNによって得られた単一ノードの表現を直接集約することです。本論文では、そのようなアプローチの根本的な制限、つまりノードセット内の複数ノード間の依存関係を捉えることができないことを示します。直接的な解決策は、ターゲットノードと他のノードを区別することです。このアイデアを形式化し、
Directed Cyclic Graphs for Simultaneous Discovery of Time-Lagged and Instantaneous Causality from Longitudinal Data Using Instrumental Variables
長期データからの器具変数を使用した時間遅延および瞬時因果関係の同時発見のための有向サイクリックグラフ
We consider the problem of causal discovery from longitudinal observational data. We develop a novel framework that simultaneously discovers the time-lagged causality and the possibly cyclic instantaneous causality. Under common causal discovery assumptions, combined with additional instrumental information typically available in longitudinal data, we prove the proposed model is generally identifiable. To the best of our knowledge, this is the first causal identification theory for directed graphs with general cyclic patterns that achieves unique causal identifiability. Structural learning is carried out in a fully Bayesian fashion. Through extensive simulations and an application to the Women’s Interagency HIV Study, we demonstrate the identifiability, utility, and superiority of the proposed model against state-of-the-art alternative methods.
我々は、縦断的観察データからの因果発見の問題を考察します。時間的遅延因果関係と、場合によっては循環的瞬間因果関係を同時に発見する新しいフレームワークを開発します。一般的な因果発見の仮定に基づき、縦断的データで通常利用可能な追加の計器情報と結び付けて、提案されたモデルが一般に同定可能であることを証明します。我々の知る限り、これは一般的な循環パターンを持つ有向グラフに対する最初の因果同定理論で、ユニークな因果同定性を達成します。構造学習は完全にベイズ的な方法で行われます。広範なシミュレーションと女性間HIV研究への応用を通じて、提案されたモデルの同定可能性、実用性、そして最新の代替手法に対する優位性を示します。
Bayesian Sparse Gaussian Mixture Model for Clustering in High Dimensions
高次元でのクラスタリングのためのベイジアン・スパース・ガウス混合モデル
We study the sparse high-dimensional Gaussian mixture model when the number of clusters is allowed to grow with the sample size. A minimax lower bound for parameter estimation is established, and we show that a constrained maximum likelihood estimator achieves the minimax lower bound. However, this optimization-based estimator is computationally intractable because the objective function is highly nonconvex and the feasible set involves discrete structures. To address the computational challenge, we propose a computationally tractable Bayesian approach to estimate high-dimensional Gaussian mixtures whose cluster centers exhibit sparsity using a continuous spike-and-slab prior. We further prove that the posterior contraction rate of the proposed Bayesian method is minimax optimal. The mis- clustering rate is obtained as a by-product using tools from matrix perturbation theory. The proposed Bayesian sparse Gaussian mixture model does not require pre-specifying the number of clusters, which can be adaptively estimated. The validity and usefulness of the proposed method is demonstrated through simulation studies and the analysis of a real-world single-cell RNA sequencing data set.
サンプルサイズに応じてクラスタ数が増加することを許可したときのスパース高次元ガウス混合モデルについて研究します。パラメータ推定のためのミニマックス下限が確立され、制約付き最尤推定量がミニマックス下限を達成することを示します。しかし、最適化ベースの推定量は、目的関数が非常に非凸であり、許可される集合が離散構造を含むため、計算上の処理が困難です。この計算上の課題に対処するために、連続スパイク・スラブ事前分布を使用してスパース性を示すクラスタ中心を持つ高次元ガウス混合を推定するための計算上実行可能なベイジアンアプローチを提案します。我々はさらに、提案されたベイズ手法の事後収束率がミニマックス最適であることを証明します。ミスクラスタリング率は、行列摂動理論のツールを使用して副産物として得られます。提案されたベイズスパースガウス混合モデルは、クラスタ数を事前に指定する必要がなく、適応的に推定可能です。提案された手法の妥当性と有用性は、シミュレーション研究および実世界の単細胞RNAシーケンシングデータセットの分析を通じて示されています。
Regularizing Hard Examples Improves Adversarial Robustness
難例の正則化が敵対的ロバスト性を向上させる
Recent studies have validated that pruning hard-to-learn examples from training improves the generalization performance of neural networks (NNs). In this study, we investigate this intriguing phenomenon—the negative effect of hard examples on generalization—in adversarial training. Particularly, we theoretically demonstrate that the increase in the difficulty of hard examples in adversarial training is significantly greater than the increase in the difficulty of easy examples. Furthermore, we verify that hard examples are only fitted through memorization of the label in adversarial training. We conduct both theoretical and empirical analyses of this memorization phenomenon, showing that pruning hard examples in adversarial training can enhance the model’s robustness. However, the challenge remains in finding the optimal threshold for removing hard examples that degrade robustness performance. Based upon these observations, we propose a new approach, difficulty proportional label smoothing (DPLS), to adaptively mitigate the negative effect of hard examples, thereby improving the adversarial robustness of NNs. Notably, our experimental result indicates that our method can successfully leverage hard examples while circumventing the negative effect.
最近の研究では、学習が難しい例をトレーニングから剪定することで、ニューラルネットワーク(NN)の一般化性能が向上することが確認されています。本研究では、この興味深い現象、すなわち逆襲トレーニングにおける一般化への難しい例の負の影響を調査します。特に、逆襲トレーニングにおける難しい例の難易度の増加は、簡単な例の難易度の増加よりも著しく大きいことを理論的に示します。さらに、逆襲トレーニングにおいて、難しい例はラベルの記憶を通じてのみ適合することを確認します。この記憶現象に関する理論的および実証的分析を行い、逆襲トレーニングで難しい例を剪定することがモデルの堅牢性を向上させることを示します。しかし、ロバスト性のパフォーマンスを低下させるハードな例を除去するための最適なしきい値を見つけることは依然として課題です。これらの観察に基づいて、我々はハードな例の悪影響を自動的に緩和し、ニューラルネットワークの対敵ロバスト性を向上させるための新しいアプローチ、難易度比例ラベルスムージング(DPLS)を提案します。特に、我々の実験結果は、我々の方法がハードな例を効果的に活用しながら、その悪影響を回避できることを示しています。
Random ReLU Neural Networks as Non-Gaussian Processes
非ガウス過程としてのランダムReLUニューラルネットワーク
We consider a large class of shallow neural networks with randomly initialized parameters and rectified linear unit activation functions. We prove that these random neural networks are well-defined non-Gaussian processes. As a by-product, we demonstrate that these networks are solutions to stochastic differential equations driven by impulsive white noise (combinations of random Dirac measures). These processes are parameterized by the law of the weights and biases as well as the density of activation thresholds in each bounded region of the input domain. We prove that these processes are isotropic and wide-sense self-similar with Hurst exponent 3/2. We also derive a remarkably simple closed-form expression for their autocovariance function. Our results are fundamentally different from prior work in that we consider a non-asymptotic viewpoint: The number of neurons in each bounded region of the input domain (i.e., the width) is itself a random variable with a Poisson law with mean proportional to the density parameter. Finally, we show that, under suitable hypotheses, as the expected width tends to infinity, these processes can converge in law not only to Gaussian processes, but also to non-Gaussian processes depending on the law of the weights. Our asymptotic results provide a new take on several classical results (wide networks converge to Gaussian processes) as well as some new ones (wide networks can converge to non-Gaussian processes).
我々は、ランダムに初期化されたパラメータと整流線形ユニット活性化関数を持つ大規模な浅いニューラルネットワークのクラスを考察します。これらのランダムニューラルネットワークが良く定義された非ガウス過程であることを証明します。その副産物として、これらのネットワークが衝撃的なホワイトノイズ(ランダムなディラック測度の組み合わせ)によって駆動される確率微分方程式の解であることを示します。これらの過程は、重みとバイアスの法則、および入力領域の各有界領域における活性化閾値の密度によってパラメータ化されます。これらの過程が各方向に等方的であり、広義の自己相似性を持ち、ハースト指数が3/2であることを証明します。また、自己共分散関数の驚くほど単純な閉形式の表現を導出します。私たちの結果は、非漸近的な視点を考慮するという点で、以前の研究とは根本的に異なります。入力領域の各有界領域におけるニューロンの数(すなわち幅)は、密度パラメータに比例する平均を持つポアソン法則に従うランダム変数です。最後に、適切な仮定の下で、期待される幅が無限大に近づくとき、これらのプロセスは法則においてガウス過程だけでなく、重みの法則に依存する非ガウス過程にも収束することを示します。私たちの漸近的な結果は、いくつかの古典的な結果(広いネットワークはガウス過程に収束する)に新たな視点を提供するだけでなく、いくつかの新しい結果(広いネットワークは非ガウス過程に収束する可能性がある)も示しています。
Riemannian Bilevel Optimization
リーマン二層最適化
In this work, we consider the bilevel optimization problem on Riemannian manifolds. We inspect the calculation of the hypergradient of such problems on general manifolds and thus enable the utilization of gradient-based algorithms to solve such problems. The calculation of the hypergradient requires utilizing the notion of Riemannian cross-derivative and we inspect the properties and the numerical calculations of Riemannian cross-derivatives. Algorithms in both deterministic and stochastic settings, named respectively RieBO and RieSBO, are proposed that include the existing Euclidean bilevel optimization algorithms as special cases. Numerical experiments on robust optimization on Riemannian manifolds are presented to show the applicability and efficiency of the proposed methods.
本研究では、リーマン多様体上の二層最適化問題を考察します。このような問題の一般的な多様体におけるハイパー勾配の計算を検討し、勾配ベースのアルゴリズムを用いてこれらの問題を解決できるようにします。ハイパー勾配の計算にはリーマン交差微分の概念を利用する必要があり、リーマン交差微分の特性と数値計算を検討します。決定論的および確率的な設定において、それぞれRieBOおよびRieSBOと名付けられたアルゴリズムが提案され、既存のユークリッド二層最適化アルゴリズムが特別なケースとして含まれています。リーマン多様体上のロバスト最適化に関する数値実験が提示され、提案された手法の適用性と効率性を示します。
Supervised Learning with Evolving Tasks and Performance Guarantees
進化するタスクとパフォーマンス保証を伴う教師あり学習
Multiple supervised learning scenarios are composed by a sequence of classification tasks. For instance, multi-task learning and continual learning aim to learn a sequence of tasks that is either fixed or grows over time. Existing techniques for learning tasks that are in a sequence are tailored to specific scenarios, lacking adaptability to others. In addition, most of existing techniques consider situations in which the order of the tasks in the sequence is not relevant. However, it is common that tasks in a sequence are evolving in the sense that consecutive tasks often have a higher similarity. This paper presents a learning methodology that is applicable to multiple supervised learning scenarios and adapts to evolving tasks. Differently from existing techniques, we provide computable tight performance guarantees and analytically characterize the increase in the effective sample size. Experiments on benchmark datasets show the performance improvement of the proposed methodology in multiple scenarios and the reliability of the presented performance guarantees.
複数の教師あり学習シナリオは、一連の分類タスクで構成されています。例えば、マルチタスク学習や継続学習は、固定されたタスクのシーケンスまたは時間とともに成長するタスクのシーケンスを学習することを目的としています。シーケンス内のタスクを学習するための既存の技術は特定のシナリオに特化しており、他のシナリオへの適応性に欠けています。さらに、既存の技術のほとんどは、シーケンス内のタスクの順序が重要でない状況を考慮しています。しかし、シーケンス内のタスクは進化していることが一般的であり、連続するタスクはしばしば高い類似性を持っています。本論文では、複数の教師あり学習シナリオに適用可能で、進化するタスクに適応する学習方法論を提示します。既存の技術とは異なり、計算可能な厳密な性能保証を提供し、有効サンプルサイズの増加を分析的に特徴付けます。ベンチマークデータセットに関する実験は、提案された方法論の複数のシナリオにおける性能向上と、提示された性能保証の信頼性を示しています。
Error estimation and adaptive tuning for unregularized robust M-estimator
非正則化ロバストM推定量の誤差推定と適応調整
We consider unregularized robust M-estimators for linear models under Gaussian design and heavy-tailed noise, in the proportional asymptotics regime where the sample size n and the number of features p are both increasing such that $p/n \to \gamma\in (0,1)$. An estimator of the out-of-sample error of a robust M-estimator is analyzed and proved to be consistent for a large family of loss functions that includes the Huber loss. As an application of this result, we propose an adaptive tuning procedure of the scale parameter $\lambda>0$ of a given loss function $\rho$: choosing $\hat \lambda$ in a given interval $I$ that minimizes the out-of-sample error estimate of the M-estimator constructed with loss $\rho_\lambda(\cdot) = \lambda^2 \rho(\cdot/\lambda)$ leads to the optimal out-of-sample error over $I$. The proof relies on a smoothing argument: the unregularized M-estimation objective function is perturbed, or smoothed, with a Ridge penalty that vanishes as $n\to+\infty$, and shows that the unregularized M-estimator of interest inherits properties of its smoothed version.
ガウス設計とヘビーテールノイズの下で、サンプルサイズnと特徴pの数の両方が$p/n to gammain (0,1)$のように増加する比例漸近領域で、線形モデルの非正則化されたロバストなM推定量を考慮します。ロバストな M 推定量のサンプル外誤差の推定量が分析され、Huber 損失を含む損失関数の大規模なファミリに対して一貫していることが証明されます。この結果の応用として、与えられた損失関数ρのスケールパラメータλ>0の適応的調整手順を提案します。損失ρλ(・)=λ2ρ(・/λ)を用いて構築されたM推定量の外部サンプル誤差推定を最小化するように、与えられた区間I内でλを選択することは、Iにおける最適な外部サンプル誤差につながります。証明はスムージングの議論に依存しています:正則化されていないM推定の目的関数は、n→+∞のときに消失するリッジペナルティで摂動またはスムージングされ、関心のある正則化されていないM推定量がそのスムージングされたバージョンの特性を引き継ぐことを示します。
From Sparse to Dense Functional Data in High Dimensions: Revisiting Phase Transitions from a Non-Asymptotic Perspective
高次元におけるスパースからデンス機能データへの移行:非漸近的視点からの位相遷移の再考
Nonparametric estimation of the mean and covariance functions is ubiquitous in functional data analysis and local linear smoothing techniques are most frequently used. Zhang and Wang (2016) explored different types of asymptotic properties of the estimation, which reveal interesting phase transition phenomena based on the relative order of the average sampling frequency per subject $T$ to the number of subjects $n$, partitioning the data into three categories: “sparse”, “semi-dense”, and “ultra-dense”. In an increasingly available high-dimensional scenario, where the number of functional variables $p$ is large in relation to $n$, we revisit this open problem from a non-asymptotic perspective by deriving comprehensive concentration inequalities for the local linear smoothers. Besides being of interest by themselves, our non-asymptotic results lead to elementwise maximum rates of $L_2$ convergence and uniform convergence serving as a fundamentally important tool for further convergence analysis when $p$ grows exponentially with $n$ and possibly $T$. With the presence of extra $\log p$ terms to account for the high-dimensional effect, we then investigate the scaled phase transitions and the corresponding elementwise maximum rates from sparse to semi-dense to ultra-dense functional data in high dimensions. We also discuss a couple of applications of our theoretical results. Finally, numerical studies are carried out to confirm the established theoretical properties.
平均と共分散関数の非パラメトリック推定は、機能データ分析において広く行われており、局所線形スムージング技術が最も頻繁に使用されます。ZhangとWang(2016)は、推定のさまざまなタイプの漸近特性を探求し、被験者ごとの平均サンプリング頻度$T$と被験者数$n$の相対的な順序に基づいて興味深い位相転移現象を明らかにし、データを「スパース」、「セミデンス」、「ウルトラデンス」の3つのカテゴリに分けました。機能変数の数$p$が$n$に対して大きい高次元のシナリオにおいて、局所線形スムーザーのための包括的な集中不等式を導出することによって、この未解決の問題を非漸近的な視点から再考します。それ自体が興味深いだけでなく、非漸近的な結果は、$L_2$の収束と一様収束の要素ごとの最大レートにつながり、$p$が$n$、場合によっては$T$と指数関数的に成長するときに、さらなる収束解析のための基本的に重要なツールとして機能します。高次元効果を説明するために追加の $log p$ 項が存在するため、スケーリングされた相転移と、高次元でのスパースから半高密度、超高密度の関数データに対応する要素ごとの最大レートを調査します。また、理論的な結果のいくつかの応用についても説明します。最後に、確立された理論的特性を確認するために数値研究が行われます。
Locally Private Causal Inference for Randomized Experiments
ランダム化実験のためのローカルプライベート因果推論
Local differential privacy is a differential privacy paradigm in which individuals first apply a privacy mechanism to their data (often by adding noise) before transmitting the result to a curator. The noise for privacy results in additional bias and variance in their analyses. Thus it is of great importance for analysts to incorporate the privacy noise into valid inference. In this article, we develop methodologies to infer causal effects from locally privatized data under randomized experiments. First, we present frequentist estimators under various privacy scenarios with their variance estimators and plug-in confidence intervals. We show a na\”ive debiased estimator results in inferior mean-squared error (MSE) compared to minimax lower bounds. In contrast, we show that using a customized privacy mechanism, we can match the lower bound, giving minimax optimal inference. We also develop a Bayesian nonparametric methodology along with a blocked Gibbs sampling algorithm, which can be applied to any of our proposed privacy mechanisms, and which performs especially well in terms of MSE for tight privacy budgets. Finally, we present simulation studies to evaluate the performance of our proposed frequentist and Bayesian methodologies for various privacy budgets, resulting in useful suggestions for performing causal inference for privatized data.
ローカル差分プライバシーは、個人がデータにプライバシー機構を適用した後(通常はノイズを追加することによって)、その結果をキュレーターに送信する差分プライバシーのパラダイムです。プライバシーのためのノイズは、分析において追加のバイアスと分散をもたらします。したがって、分析者がプライバシーノイズを有効な推論に組み込むことが非常に重要です。本記事では、ランダム化実験の下でローカルにプライバシー化されたデータから因果効果を推測する方法論を開発します。まず、さまざまなプライバシーシナリオにおける頻度主義推定量とその分散推定量、プラグイン信頼区間を提示します。私たちは、ナイーブなデバイアス推定量がミニマックス下限と比較して劣る平均二乗誤差(MSE)をもたらすことを示します。対照的に、カスタマイズされたプライバシー機構を使用することで、下限に一致させることができ、ミニマックス最適推論を実現できることを示します。また、提案したプライバシー機構のいずれにも適用できるブロックギブスサンプリングアルゴリズムとともに、ベイズ非パラメトリック手法を開発し、特に厳しいプライバシーバジェットに対してMSEの観点で優れた性能を発揮します。最後に、提案した頻度主義およびベイズ手法の性能をさまざまなプライバシーバジェットで評価するためのシミュレーション研究を提示し、プライバシー化されたデータに対する因果推論を行うための有用な提案を得ました。
Estimating Network-Mediated Causal Effects via Principal Components Network Regression
主成分ネットワーク回帰を通じたネットワーク媒介因果効果の推定
We develop a method to decompose causal effects on a social network into an indirect effect mediated by the network, and a direct effect independent of the social network. To handle the complexity of network structures, we assume that latent social groups act as causal mediators. We develop principal components network regression models to differentiate the social effect from the non-social effect. Fitting the regression models is as simple as principal components analysis followed by ordinary least squares estimation. We prove asymptotic theory for regression coefficients from this procedure and show that it is widely applicable, allowing for a variety of distributions on the regression errors and network edges. We carefully characterize the counterfactual assumptions necessary to use the regression models for causal inference, and show that current approaches to causal network regression may result in over-control bias. The method is very general, so that it is applicable to many types of structured data beyond social networks, such as text, areal data, psychometrics, images and omics.
私たちは、社会ネットワークにおける因果効果を、ネットワークによって媒介される間接効果と、社会ネットワークに依存しない直接効果に分解する方法を開発します。ネットワーク構造の複雑さに対処するために、潜在的な社会グループが因果媒介者として機能することを仮定します。私たちは、社会的効果と非社会的効果を区別するために主成分ネットワーク回帰モデルを開発します。回帰モデルの適合は、主成分分析に続く通常の最小二乗推定と同じくらい簡単です。この手法から得られる回帰係数の漸近理論を証明し、回帰誤差やネットワークエッジにさまざまな分布を許容する広範な適用性を示します。私たちは、因果推論のために回帰モデルを使用するために必要な反事実的仮定を慎重に特定し、因果ネットワーク回帰に対する現在のアプローチが過剰制御バイアスを引き起こす可能性があることを示します。この方法は非常に一般的であり、ソーシャルネットワークを超えた多くの種類の構造化データ、例えばテキスト、地域データ、心理測定、画像、オミクスに適用可能です。
Selective Inference with Distributed Data
分散データを用いた選択的推論
When data are distributed across multiple sites or machines rather than centralized in one location, researchers face the challenge of extracting meaningful information without directly sharing individual data points. While there are many distributed methods for point estimation using sparse regression, few options are available for estimating uncertainties or conducting hypothesis tests based on the estimated sparsity. In this paper, we introduce a procedure for performing selective inference with distributed data. We consider a scenario where each local machine solves a lasso problem and communicates the selected predictors to a central machine. The central machine then aggregates these selected predictors to form a generalized linear model (GLM). Our goal is to provide valid inference for the selected GLM while reusing data that have been used in the model selection process. Our proposed procedure only requires low-dimensional summary statistics from local machines, thus keeping communication costs low and preserving the privacy of individual data sets. Furthermore, this procedure can be applied in scenarios where model selection is repeatedly conducted on randomly subsampled data sets, addressing the p-value lottery problem linked with model selection. We demonstrate the effectiveness of our approach through simulations and an analysis of a medical data set on ICU admissions.
データが一箇所に集中するのではなく、複数のサイトやマシンに分散されている場合、研究者は個々のデータポイントを直接共有することなく、有意義な情報を抽出するという課題に直面します。スパース回帰を用いた点推定のための多くの分散手法が存在する一方で、推定されたスパース性に基づいて不確実性を推定したり仮説検定を行ったりするための選択肢はほとんどありません。本論文では、分散データを用いた選択的推論を行う手順を紹介します。各ローカルマシンがラッソ問題を解決し、選択された予測因子を中央マシンに伝達するシナリオを考えます。中央マシンは、これらの選択された予測因子を集約して一般化線形モデル(GLM)を形成します。私たちの目標は、モデル選択プロセスで使用されたデータを再利用しながら、選択されたGLMに対して有効な推論を提供することです。提案された手順は、ローカルマシンからの低次元の要約統計のみを必要とし、通信コストを低く抑え、個々のデータセットのプライバシーを保護します。さらに、この手順は、ランダムにサブサンプリングされたデータセットでモデル選択が繰り返し行われるシナリオにも適用でき、モデル選択に関連するp値のロッタリー問題に対処します。シミュレーションとICU入院に関する医療データセットの分析を通じて、私たちのアプローチの有効性を示します。
Two-Timescale Gradient Descent Ascent Algorithms for Nonconvex Minimax Optimization
非凸ミニマックス最適化のための二重時間スケール勾配降下上昇アルゴリズム
We provide a unified analysis of two-timescale gradient descent ascent (TTGDA) for solving structured nonconvex minimax optimization problems in the form of $\min_x \max_{y \in Y} f(x, y)$, where the objective function $f(x, y)$ is nonconvex in $x$ and concave in $y$, and the constraint set $Y \subseteq \mathbb{R}^n$ is convex and bounded. In the convex-concave setting, the single-timescale gradient descent ascent (GDA) algorithm is widely used in applications and has been shown to have strong convergence guarantees. In more general settings, however, it can fail to converge. Our contribution is to design TTGDA algorithms that are effective beyond the convex-concave setting, efficiently finding a stationary point of the function $\Phi(\cdot) := \max_{y \in Y} f(\cdot, y)$. We also establish theoretical bounds on the complexity of solving both smooth and nonsmooth nonconvex-concave minimax optimization problems. To the best of our knowledge, this is the first systematic analysis of TTGDA for nonconvex minimax optimization, shedding light on its superior performance in training generative adversarial networks (GANs) and in other real-world application problems.
構造化された非凸ミニマックス最適化問題を $min_x max_{y in Y} f(x, y)$ の形で解くための 2 時間スケール勾配降下上昇 (TTGDA) の統一解析を提供します。ここで、目的関数 $f(x, y)$ は $x$ で非凸型、$y$ では凹型であり、subseteq mathbb{R}^n$ $Y設定された制約は凸型で有界です。凸凹型設定では、シングルタイムスケールの勾配降下上昇(GDA)アルゴリズムがアプリケーションで広く使用されており、強力な収束保証があることが示されています。ただし、より一般的な設定では、収束に失敗することがあります。私たちの貢献は、凸凹の設定を超えて効果的なTTGDAアルゴリズムを設計し、関数$Phi(cdot) := max_{y in Y} f(cdot, y)$の静止点を効率的に見つけることです。我々は、滑らかな非滑らか非凸凹最小最大最適化問題の解決における複雑さの理論的限界も確立します。我々の知る限り、これは非凸最小最大最適化のためのTTGDAの初の体系的分析であり、生成的敵対ネットワーク(GAN)のトレーニングや他の実世界の応用問題におけるその優れた性能に光を当てています。
An Axiomatic Definition of Hierarchical Clustering
階層的クラスタリングの公理的定義
In this paper, we take an axiomatic approach to defining a population hierarchical clustering for piecewise constant densities, and in a similar manner to Lebesgue integration, extend this definition to more general densities. When the density satisfies some mild conditions, e.g., when it has connected support, is continuous, and vanishes only at infinity, or when the connected components of the density satisfy these conditions, our axiomatic definition results in Hartigan’s definition of cluster tree.
本論文では、区分定数密度のための母集団階層クラスタリングを定義するために公理的アプローチを採用し、ルベーグ積分と同様の方法でこの定義をより一般的な密度に拡張します。密度がいくつかの緩やかな条件、例えば、連結サポートを持ち、連続であり、無限大でのみ消失する場合、または密度の連結成分がこれらの条件を満たす場合、私たちの公理的定義はハーティガンのクラスターツリーの定義に至ります。
Test-Time Training on Video Streams
ビデオストリームにおけるテスト時トレーニング
Prior work has established Test-Time Training (TTT) as a general framework to further improve a trained model at test time. Before making a prediction on each test instance, the model is first trained on the same instance using a self-supervised task such as reconstruction. We extend TTT to the streaming setting, where multiple test instances – video frames in our case – arrive in temporal order. Our extension is online TTT: The current model is initialized from the previous model, then trained on the current frame and a small window of frames immediately before. Online TTT significantly outperforms the fixed-model baseline for four tasks, on three real-world datasets. The improvements are more than 2.2x and 1.5x for instance and panoptic segmentation. Surprisingly, online TTT also outperforms its offline variant that accesses strictly more information, training on all frames from the entire test video regardless of temporal order. This finding challenges those in prior work using synthetic videos. We formalize a notion of locality as the advantage of online over offline TTT, and analyze its role with ablations and a theory based on bias-variance trade-off.
以前の研究により、テスト時トレーニング(TTT)がトレーニングされたモデルをテスト時にさらに改善するための一般的なフレームワークとして確立されました。各テストインスタンスに対して予測を行う前に、モデルは再構成などの自己教師ありタスクを使用して同じインスタンスで最初にトレーニングされます。私たちはTTTをストリーミング設定に拡張します。ここでは、複数のテストインスタンス(私たちの場合はビデオフレーム)が時間的順序で到着します。私たちの拡張はオンラインTTTです:現在のモデルは前のモデルから初期化され、次に現在のフレームとその直前の小さなフレームウィンドウでトレーニングされます。オンラインTTTは、3つの実世界データセットにおいて4つのタスクで固定モデルのベースラインを大幅に上回ります。改善は、インスタンスセグメンテーションで2.2倍、パンオプティックセグメンテーションで1.5倍以上です。驚くべきことに、オンラインTTTは、時間的順序に関係なく、テストビデオ全体のすべてのフレームでトレーニングを行うオフラインバリアントよりも優れています。この発見は、合成ビデオを使用した以前の研究に挑戦します。私たちは、オンラインTTTがオフラインTTTに対して持つ利点としての局所性の概念を形式化し、アブレーションとバイアス-バリアンストレードオフに基づく理論を用いてその役割を分析します。
Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback
バンディットフィードバックを用いたオンライン学習によるフェデレーテッドラーニングにおける適応的クライアントサンプリング
Due to the high cost of communication, federated learning (FL) systems need to sample a subset of clients that are involved in each round of training. As a result, client sampling plays an important role in FL systems as it affects the convergence rate of optimization algorithms used to train machine learning models. Despite its importance, there is limited work on how to sample clients effectively. In this paper, we cast client sampling as an online learning task with bandit feedback, which we solve with an online stochastic mirror descent (OSMD) algorithm designed to minimize the sampling variance. We then theoretically show how our sampling method can improve the convergence speed of federated optimization algorithms over the widely used uniform sampling. Through both simulated and real data experiments, we empirically illustrate the advantages of the proposed client sampling algorithm over uniform sampling and existing online learning-based sampling strategies. The proposed adaptive sampling procedure is applicable beyond the FL problem studied here and can be used to improve the performance of stochastic optimization procedures such as stochastic gradient descent and stochastic coordinate descent.
通信コストが高いため、連合学習(FL)システムは、各トレーニングラウンドに関与するクライアントのサブセットをサンプリングする必要があります。その結果、クライアントのサンプリングはFLシステムにおいて重要な役割を果たし、機械学習モデルをトレーニングするために使用される最適化アルゴリズムの収束速度に影響を与えます。その重要性にもかかわらず、クライアントを効果的にサンプリングする方法に関する研究は限られています。本論文では、クライアントのサンプリングをバンディットフィードバックを伴うオンライン学習タスクとして定式化し、サンプリングの分散を最小化するように設計されたオンライン確率的ミラー降下(OSMD)アルゴリズムを用いて解決します。次に、理論的に我々のサンプリング手法が広く使用されている均一サンプリングに対して連合最適化アルゴリズムの収束速度を改善できることを示します。シミュレーションデータと実データの実験を通じて、提案されたクライアントサンプリングアルゴリズムが均一サンプリングおよび既存のオンライン学習ベースのサンプリング戦略に対して持つ利点を実証的に示します。提案された適応型サンプリング手法は、ここで研究されたFL問題を超えて適用可能であり、確率的勾配降下法や確率的座標降下法などの確率的最適化手法の性能を向上させるために使用できます。
A Random Matrix Approach to Low-Multilinear-Rank Tensor Approximation
低多重線形ランクテンソル近似へのランダム行列アプローチ
This work presents a comprehensive understanding of the estimation of a planted low-rank signal from a general spiked tensor model near the computational threshold. Relying on standard tools from the theory of large random matrices, we characterize the large-dimensional spectral behavior of the unfoldings of the data tensor and exhibit relevant signal-to-noise ratios governing the detectability of the principal directions of the signal. These results allow to accurately predict the reconstruction performance of truncated multilinear SVD (MLSVD) in the non-trivial regime. This is particularly important since it serves as an initialization of the higher-order orthogonal iteration (HOOI) scheme, whose convergence to the best low-multilinear-rank approximation depends entirely on its initialization. We give a sufficient condition for the convergence of HOOI and show that the number of iterations before convergence tends to $1$ in the large-dimensional limit.
この研究は、計算の閾値近くにある一般的なスパイクテンソルモデルから植えられた低ランク信号の推定に関する包括的な理解を提供します。大規模ランダム行列の理論からの標準的なツールに依存して、データテンソルの展開の大次元スペクトル挙動を特徴付け、信号の主方向の検出可能性を支配する関連する信号対雑音比を示します。これらの結果は、非自明な領域における切断多線形SVD(MLSVD)の再構成性能を正確に予測することを可能にします。これは、最良の低多線形ランク近似への収束がその初期化に完全に依存する高次直交反復(HOOI)スキームの初期化として重要です。HOOIの収束のための十分条件を示し、収束前の反復回数が大次元の限界で$1$に近づくことを示します。
Memory Gym: Towards Endless Tasks to Benchmark Memory Capabilities of Agents
メモリジム:エージェントのメモリ能力をベンチマークするための無限のタスクに向けて
Memory Gym presents a suite of 2D partially observable environments, namely Mortar Mayhem, Mystery Path, and Searing Spotlights, designed to benchmark memory capabilities in decision-making agents. These environments, originally with finite tasks, are expanded into innovative, endless formats, mirroring the escalating challenges of cumulative memory games such as “I packed my bag”. This progression in task design shifts the focus from merely assessing sample efficiency to also probing the levels of memory effectiveness in dynamic, prolonged scenarios. To address the gap in available memory-based Deep Reinforcement Learning baselines, we introduce an implementation within the open-source CleanRL library that integrates Transformer-XL (TrXL) with Proximal Policy Optimization. This approach utilizes TrXL as a form of episodic memory, employing a sliding window technique. Our comparative study between the Gated Recurrent Unit (GRU) and TrXL reveals varied performances across our finite and endless tasks. TrXL, on the finite environments, demonstrates superior effectiveness over GRU, but only when utilizing an auxiliary loss to reconstruct observations. Notably, GRU makes a remarkable resurgence in all endless tasks, consistently outperforming TrXL by significant margins. Website and Source Code: https://marcometer.github.io/jmlr_2024.github.io/
Memory Gymは、意思決定エージェントの記憶能力をベンチマークするために設計された、モルターメイヘム、ミステリーパス、シアリングスポットライトという2D部分観測環境のスイートを提供します。これらの環境は、元々有限のタスクを持っていましたが、累積記憶ゲーム「私はバッグを詰めました」のような挑戦の高まりを反映した革新的で無限の形式に拡張されています。このタスクデザインの進展は、サンプル効率の評価から、動的で長期的なシナリオにおける記憶の効果のレベルを探ることにも焦点を移します。利用可能な記憶ベースの深層強化学習のベースラインのギャップに対処するために、Transformer-XL(TrXL)を近接ポリシー最適化と統合した実装をオープンソースのCleanRLライブラリ内に導入します。このアプローチは、スライディングウィンドウ技術を用いて、エピソード記憶の一形態としてTrXLを利用します。Gated Recurrent Unit(GRU)とTrXLの比較研究は、有限タスクと無限タスクの間で異なるパフォーマンスを示しています。TrXLは有限環境において、観察を再構築するために補助損失を利用する場合に限り、GRUよりも優れた効果を示します。しかし、GRUはすべての無限タスクで顕著な復活を遂げ、TrXLを大きな差で一貫して上回っています。ウェブサイトとソースコード: https://marcometer.github.io/jmlr_2024.github.io/
Enhancing Graph Representation Learning with Localized Topological Features
局所的トポロジー特徴を用いたグラフ表現学習の強化
Representation learning on graphs is a fundamental problem that can be crucial in various tasks. Graph neural networks, the dominant approach for graph representation learning, are limited in their representation power. Therefore, it can be beneficial to explicitly extract and incorporate high-order topological and geometric information into these models. In this paper, we propose a principled approach to extract the rich connectivity information of graphs based on the theory of persistent homology. Our method utilizes the topological features to enhance the representation learning of graph neural networks and achieve state-of-the-art performance on various node classification and link prediction benchmarks. We also explore the option of end-to-end learning of the topological features, i.e., treating topological computation as a differentiable operator during learning. Our theoretical analysis and empirical study provide insights and potential guidelines for employing topological features in graph learning tasks.
グラフ上の表現学習は、さまざまなタスクにおいて重要な問題です。グラフ表現学習の主要なアプローチであるグラフニューラルネットワークは、その表現力に限界があります。したがって、これらのモデルに高次のトポロジーおよび幾何学的情報を明示的に抽出して組み込むことが有益です。本論文では、持続的ホモロジーの理論に基づいてグラフの豊富な接続情報を抽出するための原則的アプローチを提案します。我々の方法は、トポロジー的特徴を利用してグラフニューラルネットワークの表現学習を強化し、さまざまなノード分類およびリンク予測ベンチマークで最先端の性能を達成します。また、トポロジー的計算を学習中の微分可能な演算子として扱う、トポロジー的特徴のエンドツーエンド学習のオプションも探ります。我々の理論的分析と実証研究は、グラフ学習タスクにおけるトポロジー的特徴の利用に関する洞察と潜在的なガイドラインを提供します。
Deep Out-of-Distribution Uncertainty Quantification via Weight Entropy Maximization
重みエントロピー最大化による分布外不確実性の深層定量化
This paper deals with uncertainty quantification and out-of-distribution detection in deep learning using Bayesian and ensemble methods. It proposes a practical solution to the lack of prediction diversity observed recently for standard approaches when used out-of-distribution (Ovadia et al., 2019; Liu et al., 2021). Considering that this issue is mainly related to a lack of weight diversity, we claim that standard methods sample in “over-restricted” regions of the weight space due to the use of “over-regularization” processes, such as weight decay and zero-mean centered Gaussian priors. We propose to solve the problem by adopting the maximum entropy principle for the weight distribution, with the underlying idea to maximize the weight diversity. Under this paradigm, the epistemic uncertainty is described by the weight distribution of maximal entropy that produces neural networks “consistent” with the training observations. Considering stochastic neural networks, a practical optimization is derived to build such a distribution, defined as a trade-off between the average empirical risk and the weight distribution entropy. We provide both theoretical and numerical results to assess the efficiency of the approach. In particular, the proposed algorithm appears in the top three best methods in all configurations of an extensive out-of-distribution detection benchmark including more than thirty competitors.
この論文は、ベイズ法とアンサンブル法を用いた深層学習における不確実性定量化と分布外検出について扱っています。最近、分布外で使用された標準的アプローチにおいて観察された予測の多様性の欠如に対する実用的な解決策を提案します(Ovadia et al., 2019; Liu et al., 2021)。この問題は主に重みの多様性の欠如に関連していると考えられるため、標準的な手法は「過度に制限された」重み空間の領域でサンプリングを行っていると主張します。これは、重み減衰やゼロ平均中心のガウス事前分布などの「過度の正則化」プロセスの使用によるものです。重みの多様性を最大化するという基本的なアイデアを持って、重み分布に対して最大エントロピー原理を採用することでこの問題を解決することを提案します。このパラダイムの下で、認識的不確実性は、トレーニング観察と「一貫性」のあるニューラルネットワークを生成する最大エントロピーの重み分布によって説明されます。確率的ニューラルネットワークを考慮すると、平均経験リスクと重み分布エントロピーのトレードオフとして定義されるそのような分布を構築するための実用的な最適化が導出されます。アプローチの効率を評価するために、理論的および数値的な結果を提供します。特に、提案されたアルゴリズムは、30以上の競合を含む広範な分布外検出ベンチマークのすべての構成において、トップ3の最良の方法に現れます。
DisC2o-HD: Distributed causal inference with covariates shift for analyzing real-world high-dimensional data
DisC2o-HD:実世界の高次元データを分析するための共変量シフトを伴う分散因果推論
High-dimensional healthcare data, such as electronic health records (EHR) data and claims data, present two primary challenges due to the large number of variables and the need to consolidate data from multiple clinical sites. The third key challenge is the potential existence of heterogeneity in terms of covariate shift. In this paper, we propose a distributed learning algorithm accounting for covariate shift to estimate the average treatment effect (ATE) for high-dimensional data, named DisC2o-HD. Leveraging the surrogate likelihood method, our method calibrates the estimates of the propensity score and outcome models to approximately attain the desired covariate balancing property, while accounting for the covariate shift across multiple clinical sites. We show that our distributed covariate balancing propensity score estimator can approximate the pooled estimator, which is obtained by pooling the data from multiple sites together. The proposed estimator remains consistent if either the propensity score model or the outcome regression model is correctly specified. The semiparametric efficiency bound is achieved when both the propensity score and the outcome models are correctly specified. We conduct simulation studies to demonstrate the performance of the proposed algorithm; additionally, we conduct an empirical study to present the readiness of implementation and validity.
電子健康記録(EHR)データや請求データなどの高次元医療データは、多数の変数と複数の臨床サイトからデータを統合する必要性により、主に二つの課題を提示します。第三の重要な課題は、共変量シフトに関する異質性の潜在的な存在です。本論文では、高次元データの平均治療効果(ATE)を推定するために、共変量シフトを考慮した分散学習アルゴリズムDisC2o-HDを提案します。代理尤度法を活用し、我々の方法は、複数の臨床サイトにおける共変量シフトを考慮しながら、傾向スコアと結果モデルの推定値を調整し、望ましい共変量バランス特性を概ね達成します。私たちは、分散共変量バランシング傾向スコア推定量が、複数のサイトからデータをプールして得られるプール推定量を近似できることを示します。提案された推定量は、傾向スコアモデルまたは結果回帰モデルのいずれかが正しく指定されている場合に一貫性を保ちます。傾向スコアと結果モデルの両方が正しく指定されている場合、半パラメトリック効率境界が達成されます。提案されたアルゴリズムの性能を示すためにシミュレーション研究を行い、さらに実装の準備状況と妥当性を示すために実証研究を行います。
Bayes Meets Bernstein at the Meta Level: an Analysis of Fast Rates in Meta-Learning with PAC-Bayes
メタレベルでのベイズとバーンスタインの出会い:PACベイズを用いたメタ学習における高速率の分析
Bernstein’s condition is a key assumption that guarantees fast rates in machine learning. For example, under this condition, the Gibbs posterior with prior $\pi$ has an excess risk in $O(d_{\pi}/n)$, as opposed to $O(\sqrt{d_{\pi}/n})$ in the general case, where $n$ denotes the number of observations and $d_{\pi}$ is a complexity parameter which depends on the prior $\pi$. In this paper, we examine the Gibbs posterior in the context of meta-learning, i.e., when learning the prior $\pi$ from $T$ previous tasks. Our main result is that Bernstein’s condition always holds at the meta level, regardless of its validity at the observation level. This implies that the additional cost to learn the Gibbs prior $\pi$, which will reduce the term $d_\pi$ across tasks, is in $O(1/T)$, instead of the expected $O(1/\sqrt{T})$. We further illustrate how this result improves on the standard rates in three different settings: discrete priors, Gaussian priors and mixture of Gaussian priors.
バーンスタインの状態は、機械学習の高速速度を保証する重要な仮定です。例えば、この条件下では、事前の $pi$ を持つギブス事後波は $O(d_{pi}/n)$ に過剰なリスクを持ちますが、一般的なケースでは $O(sqrt{d_{pi}/n})$ では、$n$ は観測数を示し、$d_{pi}$ は事前の $pi$ に依存する複雑さのパラメータです。この論文では、メタ学習の文脈で、つまり、$T$個の前のタスクから前の$pi$を学習するときに、ギブス事後分布を調べます。私たちの主な結果は、バーンスタインの状態は、観測レベルでの有効性に関係なく、常にメタレベルで保持されるということです。これは、ギブスの事前 $pi$ を学習するための追加コスト (タスク間での項 $d_pi$ を減らす) が、予想される $O(1/sqrt{T})$ ではなく $O(1/T)$ であることを意味します。さらに、この結果が3つの異なる設定(離散事前確率、ガウス事前分布、およびガウス事前確率の混合)で標準レートをどのように改善するかを示します。
Efficiently Escaping Saddle Points in Bilevel Optimization
バイレベル最適化における鞍点からの効率的な脱出
Bilevel optimization is one of the fundamental problems in machine learning and optimization. Recent theoretical developments in bilevel optimization focus on finding the first-order stationary points for nonconvex-strongly-convex cases. In this paper, we analyze algorithms that can escape saddle points in nonconvex-strongly-convex bilevel optimization. Specifically, we show that the perturbed approximate implicit differentiation (AID) with a warm start strategy finds an $\epsilon$-approximate local minimum of bilevel optimization in $\tilde{O}(\epsilon^{-2})$ iterations with high probability. Moreover, we propose an inexact NEgative-curvature-Originated-from-Noise Algorithm (iNEON), an algorithm that can escape saddle point and find local minimum of stochastic bilevel optimization. As a by-product, we provide the first nonasymptotic analysis of perturbed multi-step gradient descent ascent (GDmax) algorithm that converges to local minimax point for minimax problems.
バイレベル最適化は、機械学習と最適化における基本的な問題の1つです。バイレベル最適化の最近の理論的発展は、非凸-強-凸の場合の 1 次定常点を見つけることに焦点を当てています。この論文では、非凸-強-凸二水準最適化で鞍点をエスケープできるアルゴリズムを解析します。具体的には、ウォームスタート戦略を用いた摂動近似陰的微分(AID)が、$tilde{O}(epsilon^{-2})$反復でバイレベル最適化の$epsilon$-approximate局所最小値を高い確率で見つけることを示しています。さらに、サドルポイントをエスケープして確率的二値最適化の局所的な最小値を見つけることができるアルゴリズムである、不正確なNEgative-curvature-Originated-from-Noise Algorithm(iNEON)を提案します。副産物として、ミニマックス問題の局所的なミニマックスポイントに収束する摂動多段階勾配降下上昇(GDmax)アルゴリズムの最初の非漸近解析を提供します。