Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective.
arxiv.org/abs/2403.14917
Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective.
arxiv.org/abs/2403.14917
Gradient descent induces alignment between weights and the empirical NTK for deep non-linear networks
https://arxiv.org/abs/2402.05271
Gradient descent induces alignment between weights and the empirical NTK for deep non-linear networks
https://arxiv.org/abs/2402.05271
勾配法によるハイパーパラメータ最適化で超勾配のダイナミクスの推定にKoopman作用素を使ってみた話
arxiv.org/abs/2402.02741
Self-attentionの偏在、遍在と重み行列の固有値の関係を評価して、正則化で制御できるようにした話
arxiv.org/abs/2402.02098
勾配法によるハイパーパラメータ最適化で超勾配のダイナミクスの推定にKoopman作用素を使ってみた話
arxiv.org/abs/2402.02741
Self-attentionの偏在、遍在と重み行列の固有値の関係を評価して、正則化で制御できるようにした話
arxiv.org/abs/2402.02098