Lightnews — Scholar-powered news

tokumini.bsky.social

@tokumini.bsky.social

VLMのアーキテクチャに満足しているかというとそうではないけど、そこを変更して学習を試せるような計算資源もなく

January 15, 2026 at 11:28 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
BabyVision: Visual Reasoning Beyond Language
www.arxiv.org/abs/2601.06521

Baby Visionというベンチマークを導入し、人間の様々な年齢でも評価しているのが面白い。まだまだスコアの差は大きく、特にOpenモデルはこうしてみるとかなりまだ届いていない。
ただQwenVL3の中では、サイズが小さくなってもそこまで悪化していないので、それはありがたいところ。
画像生成・ビデオ生成で問題を解かせるというのもまともな点数が出るようになってきた。こちらの方向性も強そう。その一部に強化学習があるといいが

January 15, 2026 at 12:46 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning
arxiv.org/abs/2601.06748

Vision-Language-Action-Critic(VLAC) のProgressベースのCriticをそのまま使ってTest-Time RLができるという話。VLACが強いだけでは？みたいな気持ちも若干ある。Algorithm1を見るとエピソードごとに初期化しているらしい。流石にそのままオンラインチューニングを続けていくというのはダメだったのだろうか。

January 14, 2026 at 11:56 AM

tokumini.bsky.social

@tokumini.bsky.social

エージェントにおけるメモリ機能の論文、毎日2,3本出るくらいのすごい勢いに見える。これは中途半端に触らない方が良い分野かもしれない……

January 14, 2026 at 3:42 AM

tokumini.bsky.social

@tokumini.bsky.social

強化学習本当に繊細すぎる。ちょっとしたパラメータ変更ですぐ学習できなくなる

January 13, 2026 at 11:36 PM

tokumini.bsky.social

@tokumini.bsky.social

チューブ型滑り台がある家に引っ越す夢を見た。だいたいチューブがメインで傾かずに横になれるところはなかった。

January 13, 2026 at 9:23 PM

tokumini.bsky.social

@tokumini.bsky.social

物語を読まないと破壊されることがありえる

January 13, 2026 at 1:35 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
Fresh in memory: Training-order recency is linearly encoded in language model activations
arxiv.org/abs/2509.14223

LLMがデータを提示された順番を暗黙的にactivationに持っているというのを線形probeで確認している。これができるならちょっとした時系列記憶も実現できないかとか思いたくなる。いろんな可視化含め、発想と実験設定が面白い。こういう研究ができると面白そうだけど着眼点が見つかるかどうか。

January 13, 2026 at 12:57 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
arxiv.org/abs/2601.02456

世界モデル予測を行動生成後にやるのではなくて、行動生成前にやって行動生成モジュールに渡すアーキテクチャが面白かった。ある意味でサブゴール設定みたいな形になる？その方向性は結構広がりがあるかもしれない。Pretrainingデータの工夫については、まぁきっと事前学習モデルがどんどんすごくなって手元では必要なくなっていくでしょうということを期待しつつ

January 12, 2026 at 2:01 AM

tokumini.bsky.social

@tokumini.bsky.social

行動で条件付けるのではなく、良い遷移を出させるとか？

January 12, 2026 at 1:11 AM

tokumini.bsky.social

@tokumini.bsky.social

昨日の夜「ひょっとした明日休みでは」と気づいたが確認しないことで普段通りの時間から活動

January 11, 2026 at 11:20 PM

tokumini.bsky.social

@tokumini.bsky.social

Complete

January 11, 2026 at 10:54 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
π^{*}_{0.6}: a VLA That Learns From Experience
arxiv.org/abs/2511.14759

Advantageを2値化した情報を先頭に与える。学習方法はCFGみたいなことになる。これが安定しているというなら真似するべきなんだろう。カテゴリカル価値関数を使っている
結局こういう論文を徹底的に真似するのをやるべきな気もする

January 11, 2026 at 1:29 PM

tokumini.bsky.social

@tokumini.bsky.social

ブログ更新『GUI環境での強化学習準備（その２）』
tokumini.hatenablog.com/entry/2026/0...

GUI環境での強化学習準備（その２） - 水たまり

前回はGUIで強化学習を行うための準備をしていましたが、最終的に上手く学習できないことを確認しました。今回はよりタスクを簡単にしてGUI環境からの学習を試しました。簡易化したタスク : 4つのうちのどこかをクリックする文字を描くのは複雑すぎると思われたため、まずは画面を4分割したうち、赤色になっているところをクリックするタスクとしました。バージョン1 : numpyでの実装簡易化したタス...

tokumini.hatenablog.com

January 11, 2026 at 10:44 AM

tokumini.bsky.social

@tokumini.bsky.social

Coding AIなどと音声でのやり取り（音声入力とか）を試してすらいないのはわりと良くない

January 11, 2026 at 5:20 AM

tokumini.bsky.social

@tokumini.bsky.social

環境が意味不明にフリーズする問題をなんとかデバッグしなければいけない

January 11, 2026 at 12:39 AM

tokumini.bsky.social

@tokumini.bsky.social

なんで今まで朝起きられなかったのだろう

January 10, 2026 at 11:35 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
www.arxiv.org/abs/2601.03309

(1)VLMとしての性能とVLAとしての性能が相関しないところもあり、とりあえずは2Bサイズでも良さそう
(2)補助タスクでのVLMの強化も上手くいっていない
(3)Vision Encoderの学習は重要。Sim-Realのギャップというより、VLMのタスクとVLAのタスクの違いが大きいのではという考察

January 10, 2026 at 1:22 AM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning
www.arxiv.org/abs/2601.03938

パラメータの変更量（L2ノルム）で時間を計測してエビングハウス曲線でリプレイするという発想は面白いが、発想一発勝負感がある。教師あり学習での継続学習って問題設定自体がどの程度実用的なのかイマイチよくわかっていない。タスクでの分割ではなく本当に常なる継続の方が？図がやたら凝っているがなんらかで生成しているのかなと思ってしまう。別に悪いことではないが

January 9, 2026 at 12:47 PM

tokumini.bsky.social

@tokumini.bsky.social

方策の変化させるのに、勾配法でパラメータが変化するまで待つのは遅すぎる（サンプル効率が悪すぎる）と思っているから記憶による高速適応を考えているのに、その記憶が勾配法でのパラメータ変化で実現されるとするのは本末転倒だ

January 8, 2026 at 1:24 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
www.arxiv.org/abs/2601.03192

RAGの弱点を受動的なところだと見て、RAGに保存する情報に意図や結果、強化学習における行動価値のようなものを追加する。記憶の検索も類似度と価値を半分ずつ混ぜてランキングづけする。
ベンチマークとしてはHLE, BigCodeBench, ALFWorld, Lifelong Agent Benchが使われている

January 8, 2026 at 2:59 AM

tokumini.bsky.social

@tokumini.bsky.social

書類準備がやはり審査の一部になっていると感じる

January 7, 2026 at 11:56 PM

tokumini.bsky.social

@tokumini.bsky.social

日々の生活に落ち着きがなく、わけがわからなくなっている

January 7, 2026 at 9:29 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
arxiv.org/abs/2511.16602

強化学習で正答率によりちょうどいい難易度のデータセットを作りながら、教師あり学習でやっていくというが、結局教師作成のモデルの能力が上限づけられている？
研究自体の内容というよりも書きぶりの面で、同じ結果を自分が手元に得ていたとしてもこういう書き方はできないだろうなと思ってしまう。こういう力が必要なのか……

January 7, 2026 at 12:41 PM

tokumini.bsky.social

@tokumini.bsky.social

今日読んだ論文
arxiv.org/abs/2509.16189
Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences

エピソード記憶というかRAGを使って良いデータを持ってくれば性能が上がるというのはまぁそうなのかもしれないと思う。やっぱりそれをどうやって取得するかという問題の方が大きいのでは。あと、迷路でのRLタスクもやっているとはいえ、基本的に言語空間だけの問題でやっているので、そこはどうかというところ

January 6, 2026 at 1:29 PM

Add to Home Screen

Light up
your news

Add to Home Screen

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news