BabyVision: Visual Reasoning Beyond Language
www.arxiv.org/abs/2601.06521
Baby Visionというベンチマークを導入し、人間の様々な年齢でも評価しているのが面白い。まだまだスコアの差は大きく、特にOpenモデルはこうしてみるとかなりまだ届いていない。
ただQwenVL3の中では、サイズが小さくなってもそこまで悪化していないので、それはありがたいところ。
画像生成・ビデオ生成で問題を解かせるというのもまともな点数が出るようになってきた。こちらの方向性も強そう。その一部に強化学習があるといいが
BabyVision: Visual Reasoning Beyond Language
www.arxiv.org/abs/2601.06521
Baby Visionというベンチマークを導入し、人間の様々な年齢でも評価しているのが面白い。まだまだスコアの差は大きく、特にOpenモデルはこうしてみるとかなりまだ届いていない。
ただQwenVL3の中では、サイズが小さくなってもそこまで悪化していないので、それはありがたいところ。
画像生成・ビデオ生成で問題を解かせるというのもまともな点数が出るようになってきた。こちらの方向性も強そう。その一部に強化学習があるといいが
On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning
arxiv.org/abs/2601.06748
Vision-Language-Action-Critic(VLAC) のProgressベースのCriticをそのまま使ってTest-Time RLができるという話。VLACが強いだけでは? みたいな気持ちも若干ある。Algorithm1を見るとエピソードごとに初期化しているらしい。流石にそのままオンラインチューニングを続けていくというのはダメだったのだろうか。
On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning
arxiv.org/abs/2601.06748
Vision-Language-Action-Critic(VLAC) のProgressベースのCriticをそのまま使ってTest-Time RLができるという話。VLACが強いだけでは? みたいな気持ちも若干ある。Algorithm1を見るとエピソードごとに初期化しているらしい。流石にそのままオンラインチューニングを続けていくというのはダメだったのだろうか。
Fresh in memory: Training-order recency is linearly encoded in language model activations
arxiv.org/abs/2509.14223
LLMがデータを提示された順番を暗黙的にactivationに持っているというのを線形probeで確認している。これができるならちょっとした時系列記憶も実現できないかとか思いたくなる。いろんな可視化含め、発想と実験設定が面白い。こういう研究ができると面白そうだけど着眼点が見つかるかどうか。
Fresh in memory: Training-order recency is linearly encoded in language model activations
arxiv.org/abs/2509.14223
LLMがデータを提示された順番を暗黙的にactivationに持っているというのを線形probeで確認している。これができるならちょっとした時系列記憶も実現できないかとか思いたくなる。いろんな可視化含め、発想と実験設定が面白い。こういう研究ができると面白そうだけど着眼点が見つかるかどうか。
InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
arxiv.org/abs/2601.02456
世界モデル予測を行動生成後にやるのではなくて、行動生成前にやって行動生成モジュールに渡すアーキテクチャが面白かった。ある意味でサブゴール設定みたいな形になる? その方向性は結構広がりがあるかもしれない。Pretrainingデータの工夫については、まぁきっと事前学習モデルがどんどんすごくなって手元では必要なくなっていくでしょうということを期待しつつ
InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
arxiv.org/abs/2601.02456
世界モデル予測を行動生成後にやるのではなくて、行動生成前にやって行動生成モジュールに渡すアーキテクチャが面白かった。ある意味でサブゴール設定みたいな形になる? その方向性は結構広がりがあるかもしれない。Pretrainingデータの工夫については、まぁきっと事前学習モデルがどんどんすごくなって手元では必要なくなっていくでしょうということを期待しつつ
π^{*}_{0.6}: a VLA That Learns From Experience
arxiv.org/abs/2511.14759
Advantageを2値化した情報を先頭に与える。学習方法はCFGみたいなことになる。これが安定しているというなら真似するべきなんだろう。カテゴリカル価値関数を使っている
結局こういう論文を徹底的に真似するのをやるべきな気もする
π^{*}_{0.6}: a VLA That Learns From Experience
arxiv.org/abs/2511.14759
Advantageを2値化した情報を先頭に与える。学習方法はCFGみたいなことになる。これが安定しているというなら真似するべきなんだろう。カテゴリカル価値関数を使っている
結局こういう論文を徹底的に真似するのをやるべきな気もする
tokumini.hatenablog.com/entry/2026/0...
tokumini.hatenablog.com/entry/2026/0...
VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
www.arxiv.org/abs/2601.03309
(1)VLMとしての性能とVLAとしての性能が相関しないところもあり、とりあえずは2Bサイズでも良さそう
(2)補助タスクでのVLMの強化も上手くいっていない
(3)Vision Encoderの学習は重要。Sim-Realのギャップというより、VLMのタスクとVLAのタスクの違いが大きいのではという考察
VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
www.arxiv.org/abs/2601.03309
(1)VLMとしての性能とVLAとしての性能が相関しないところもあり、とりあえずは2Bサイズでも良さそう
(2)補助タスクでのVLMの強化も上手くいっていない
(3)Vision Encoderの学習は重要。Sim-Realのギャップというより、VLMのタスクとVLAのタスクの違いが大きいのではという考察
FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning
www.arxiv.org/abs/2601.03938
パラメータの変更量(L2ノルム)で時間を計測してエビングハウス曲線でリプレイするという発想は面白いが、発想一発勝負感がある。教師あり学習での継続学習って問題設定自体がどの程度実用的なのかイマイチよくわかっていない。タスクでの分割ではなく本当に常なる継続の方が? 図がやたら凝っているがなんらかで生成しているのかなと思ってしまう。別に悪いことではないが
FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning
www.arxiv.org/abs/2601.03938
パラメータの変更量(L2ノルム)で時間を計測してエビングハウス曲線でリプレイするという発想は面白いが、発想一発勝負感がある。教師あり学習での継続学習って問題設定自体がどの程度実用的なのかイマイチよくわかっていない。タスクでの分割ではなく本当に常なる継続の方が? 図がやたら凝っているがなんらかで生成しているのかなと思ってしまう。別に悪いことではないが
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
www.arxiv.org/abs/2601.03192
RAGの弱点を受動的なところだと見て、RAGに保存する情報に意図や結果、強化学習における行動価値のようなものを追加する。記憶の検索も類似度と価値を半分ずつ混ぜてランキングづけする。
ベンチマークとしてはHLE, BigCodeBench, ALFWorld, Lifelong Agent Benchが使われている
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
www.arxiv.org/abs/2601.03192
RAGの弱点を受動的なところだと見て、RAGに保存する情報に意図や結果、強化学習における行動価値のようなものを追加する。記憶の検索も類似度と価値を半分ずつ混ぜてランキングづけする。
ベンチマークとしてはHLE, BigCodeBench, ALFWorld, Lifelong Agent Benchが使われている
Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
arxiv.org/abs/2511.16602
強化学習で正答率によりちょうどいい難易度のデータセットを作りながら、教師あり学習でやっていくというが、結局教師作成のモデルの能力が上限づけられている?
研究自体の内容というよりも書きぶりの面で、同じ結果を自分が手元に得ていたとしてもこういう書き方はできないだろうなと思ってしまう。こういう力が必要なのか……
Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
arxiv.org/abs/2511.16602
強化学習で正答率によりちょうどいい難易度のデータセットを作りながら、教師あり学習でやっていくというが、結局教師作成のモデルの能力が上限づけられている?
研究自体の内容というよりも書きぶりの面で、同じ結果を自分が手元に得ていたとしてもこういう書き方はできないだろうなと思ってしまう。こういう力が必要なのか……
arxiv.org/abs/2509.16189
Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences
エピソード記憶というかRAGを使って良いデータを持ってくれば性能が上がるというのはまぁそうなのかもしれないと思う。やっぱりそれをどうやって取得するかという問題の方が大きいのでは。あと、迷路でのRLタスクもやっているとはいえ、基本的に言語空間だけの問題でやっているので、そこはどうかというところ
arxiv.org/abs/2509.16189
Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences
エピソード記憶というかRAGを使って良いデータを持ってくれば性能が上がるというのはまぁそうなのかもしれないと思う。やっぱりそれをどうやって取得するかという問題の方が大きいのでは。あと、迷路でのRLタスクもやっているとはいえ、基本的に言語空間だけの問題でやっているので、そこはどうかというところ