tokumini.bsky.social
@tokumini.bsky.social
3 followers 1 following 900 posts
Posts Media Videos Starter Packs
予約送信の方が気が楽なのは不思議な作用だ。そして送られてしまった
逆に解放感でボタンを押してしまうこともある
重い業務があるとちゃんと精神に影響出ているんだなと最近は実感している
スケーリングするべきは報酬でも収益でもなくて価値観数の値なのではという気がしてきた。そして、それってTD誤差のスケーリングとほぼ同じになったり?
できないことができない
問題は、直接的にはこういう文章で学習されていない可能性が高いことか。言語モデルの汎用性を信じるとなんとかなるのではと期待してしまうが
強化学習エージェントに与えるプロンプトテキストについて考えていたけど、外部から与える「〜してください」という指示じゃなくて、「これから〜ということをするぞ」という文にした方が良い気がしてきた
流石にワールドシリーズ面白すぎた
www.beren.io/2025-10-11-C...
脳の中に、比較的安定度の高い記憶形式と、安定度の低い記憶形式があり、それらが紐つけられつつ保存されていて、安定している方を頼りにして不安定な方も復元しやすく微修正できないか
Continual learning explains some interesting phenomena in human memory
Epistemic Status: Far from certain and mostly speculation, but it does make sense. Recently, I was pondering how continual learning works in the brain and realized that the interaction of our brain’s ...
www.beren.io
思想的・精神的な粘り強さが、(もともと低い方だったが、)本当になくなってしまっている気がする。すぐに安易な考えに飛びつく
肌のかゆみが酷かったので加湿器購入
内省・内言と見ているものの紐付け
田舎に行ったら行ったで本当に気が狂ってしまう予感もある
自分の見落としが酷すぎて呆れちゃうな
自分はなんて心が狭いんだという感じである
メールが来るたびビビる日々になるのか
正しい内省、内言、言語思考とはなんだ? というのがわからない中でReasoning付きVLAとかやっていけないな
GigaBrain-0: A World Model-Powered Vision-Language-Action Model
パッチリした世界モデルというよりは超強力なデータ拡張という感じかもしれない? 工夫による性能改善度も思ったほどではないかも
arxiv.org/abs/2510.19430
どうやって996に勝つかを考えていたら実際に胸が痛くなってきたし、無理ということらしい
Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
かなり素朴に系列を圧縮しているだけに見える。方策オフのときも適当な長さを取るということかな?
結局学習コストは高そう。A40を16基で2.5日
arxiv.org/abs/2510.19732