Paper
banner
paper.bsky.social
Paper
@paper.bsky.social
1.2K followers 0 following 8.4K posts
Summarize the top 30 most popular arXiv papers on Reddit, Hacker News and Hugging Face in the last 30 days. Source: https://github.com/susumuota/arxiv-reddit-summary Maintained by @ota.bsky.social
Posts Media Videos Starter Packs
Top 30 most popular arXiv papers in the last 30 days.
[1/30] [2/30] [3/30] [4/30] [5/30] [6/30] [7/30] [8/30] [9/30] [10/30] [11/30] [12/30] [13/30] [14/30] [15/30] [16/30] [17/30] [18/30] [19/30] [20/30] [21/30] [22/30] [23/30] [24/30] [25/30] [26/30] [27/30] [28/30] [29/30] [30/30]
2510.16888
しかし、教師ありの微調整によってのみ学習されたモデルは、しばしば注釈付きパターンに過剰に適合し、学習分布を超えて探索し汎化する能力を妨げている。この目的のために、我々はEdit-R1を紹介する。Edit-R1は、ポリシーの最適化に基づく、指示ベースの画像編集のための新しい事後学習フレームワークである...
[20/30] 193 Likes, 18 Comments, 2 Posts
2510.16888, cs․CV, 21 Oct 2025

🆕Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Feize Wu, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu,...
2510.17800
大規模言語モデル(LLM)は、文書理解、コード解析、多段階推論などのタスクにおいて、ロングコンテキストモデリングに依存することが多くなっている。しかし、コンテキストウィンドウを100万トークンレベルまで拡大すると、計算コストとメモリコストが膨大になり、ロングコンテキストLLMの実用性が制限され...
[29/30] 146 Likes, 26 Comments, 2 Posts
2510.17800, cs․CV | cs․CL | cs․LG, 21 Oct 2025

🆕Glyph: Scaling Context Windows via Visual-Text Compression

Jiale Cheng, Yusen Liu, Xinyu Zhang, Yulin Fei, Wenyi Hong, Ruiliang Lyu, Weihan Wang, Zhe Su, Xiaotao Gu, Xiao Liu, Yushi Bai, Jie Tang, Hongni...
Top 30 most popular arXiv papers in the last 30 days.
[1/30] [2/30] [3/30] [4/30] [5/30] [6/30] [7/30] [8/30] [9/30] [10/30] [11/30] [12/30] [13/30] [14/30] [15/30] [16/30] [17/30] [18/30] [19/30] [20/30] [21/30] [22/30] [23/30] [24/30] [25/30] [26/30] [27/30] [28/30] [29/30] [30/30]
2510.15742
インストラクションベースのビデオ編集は、コンテンツ制作の民主化を約束するものだが、その進歩は、大規模で高品質なトレーニングデータの不足によって著しく妨げられている。この基本的な課題に取り組むためにデザインされた総合的なフレームワーク、Dittoを紹介する。Dittoの核心は、主要な画像エディター...
[15/30] 248 Likes, 13 Comments, 2 Posts
2510.15742, cs․CV, 17 Oct 2025

🆕Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Sh...
2510.15831
テキストからビデオへの合成が急速に進歩しているにもかかわらず、生成されるビデオの品質は、正確なユーザープロンプトに決定的に依存している。他の領域で成功している既存のテスト時間最適化手法は、ビデオの多面的な性質に苦戦している。この研究では、VISTA(Video Iterative Self-improvemenT Agent)を...
[19/30] 191 Likes, 10 Comments, 4 Posts
2510.15831, cs․CV, 17 Oct 2025

🆕VISTA: A Test-Time Self-Improving Video Generation Agent

Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık
2509.22878
この論文では、「ラディカル・マンダニティ」の原則を適用し、銀河系にテクノロジーを駆使した地球外文明(ETC)が存在するという有力な証拠がないことの説明、つまりフェルミのパラドックスについて考察する。この原則に従えば、銀河系にはそこそこの数の文明が存在し、大規模な宇宙工学を達成するのに十分...