Crypto Knight
cryptoknightai.bsky.social
Crypto Knight
@cryptoknightai.bsky.social
15 followers 4 following 340 posts
It’s Crypto Knight, crypto, and AI, Innovations are my playground.
Posts Media Videos Starter Packs
最近AI机器人公司Generalist推出10B+参数量具身基础模型GEN-0,靠27万小时真实物理交互数据训练(每周新增1万小时),覆盖家庭、工厂等多场景

核心亮点是“和谐推理”架构,打破感知与行动的分离局限,实现异步协同决策;还支持跨机体适配,兼容6DoF到16+DoF各类机器人

实验证实7B参数达“相变”临界点,10B+模型能快速适配新任务,其Scaling Law让数据与算力增长直接驱动性能提升,为通用机器人落地开辟可预测路径
昆仑万维SkyReels平台颠覆AI视频创作逻辑,以“无限画布+AI对话框”为核心,集成全球顶尖多模态模型,实现图片、音频、视频无缝融合。用户可拖拽素材自由组合,与28个专家Agent实时互动,所见即所得

自研SkyReels V3模型堪称硬核,支持单镜头多人多轮对话、32种电影级运镜,还能智能续拍视频、高保真风格迁移。从零门槛模板创作到专业影视预演,彻底拉满创作自由度与效率,让创意快速落地
首届nof1 AI交易大赛(“币圈版图灵测试”)收官,6款顶尖大模型携1万美元真实资金,在加密货币市场展开两周全自主博弈

阿里Qwen3 Max以22.3%收益率夺冠,靠精准择时与理性杠杆策略制胜;DeepSeek V3.1以4.89%收益紧随其后,稳健风格斩获最优风险收益比。反观GPT-5等海外模型表现拉胯,GPT-5亏损超62%。这场实盘对决印证AI金融潜力,也揭示静态跑分与动态交易的巨大差异
两位20岁辍学生打造的Turbo AI,半年内用户从100万飙升至500万且持续盈利。这款AI笔记工具精准击中课堂痛点,支持上传录音、PDF、视频等,自动生成笔记、闪卡与测验题,帮学生高效巩固知识

靠送饼干等接地气方式在校内裂变,凭口碑破圈吸引高盛、麦肯锡等企业客户。虽定价偏高、理工科功能待优化,但15人年轻团队持续迭代,正从校园工具向通用知识管理平台进阶
伊利诺伊大学研发LiveTradeBench平台,让大模型“下场”真实金融市场博弈——50天实盘覆盖美股与PolyMarket,实时对接数据杜绝信息泄露,还要求模型做组合级投资决策,权衡收益与风险

测试颠覆认知:高智商模型未必能盈利,每个模型都有专属“投资风格”,而实时上下文能显著提升决策表现。它打破静态推理局限,为大模型智能体的动态决策能力评测打开新维度,项目主页:trade-bench.live
上海人工智能实验室发布了混合扩散语言模型SDAR,这是首个突破6600tps的开源扩散语言模型

SDAR通过“训练-推理解耦”的设计,在训练阶段沿用成熟的AR模型进行预训练,在推理阶段引入短暂且低成本的“适配”阶段,教会模型以“块”为单位进行并行扩散,从而融合了AR模型的高性能与扩散模型的并行推理优势,能将任意自回归模型低成本改造为并行解码模型

目前,该团队已全面开源从1.7B到30B的全系列SDAR模型、高效推理引擎及迄今最强的开源扩散类推理模型SDAR-30B-A3B-Sci,arxiv.org/pdf/2510.06303
最近字节跳动Seed团队发布通用型游戏智能体Game-TARS

Game-TARS基于超5000亿标注量级的多模态训练数据,结合稀疏推理和衰减持续损失技术,将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型中

它通过模拟人类使用键盘和鼠标的方式玩游戏,定义了可扩展、统一的动作空间,实现了与人类用户物理交互方式的直接对齐。其训练过程包括持续预训练和后训练,重点强化了指令遵循、稀疏思维能力和长期记忆等核心能力

在FPS、开放世界、WEB游戏等任务中,Game-TARS的表现超越了GPT-5、Gemini-2.5-Pro等知名模型,arxiv.org/pdf/2510.23691
最近快手策略算法团队推出端到端多目标融合排序EMER框架,彻底抛弃传统人工公式排序模式。核心亮点是让模型学会“比较”视频相对好坏,而非单独打分,搭配Transformer架构捕捉视频关联,用“相对满意度+多维代理指标”精准定义用户偏好

内置优势评估器(AE)可动态调整目标权重,实现模型“自我进化”,完美解决个性化不足、多目标平衡难等行业痛点

落地后快手主App及极速版七日留存提升0.23%-0.3%,停留时长涨1.2%-1.4%,重塑短视频推荐效率标杆,arxiv.org/pdf/2508.05093
最近Cursor正式发布2.0版本,带来两大核心亮点。一是自研编码模型Composer,这是一款混合专家(MoE)模型,生成速度达每秒250个Token,是同类前沿系统的四倍,多数交互能在30秒内完成,且具备前沿水平的编码智能。它专为低延迟交互式编码设计,通过强化学习优化软件工程任务,还包含代码库级别的语义搜索引擎,能准确理解大型代码库上下文

二是全新的多智能体界面,用户可同时启动多达8个独立的AI智能体,每个智能体都有自己的工作空间,且互不干扰。新界面以“智能体”为中心,更聚焦于用户想要的结果,让开发者能像管理团队一样指挥AI智能体并行处理代码编写、审查、测试等任务,显著提升开发效率
月之暗面开源Kimi Linear混合线性注意力架构,堪称大模型效率“黑科技”!核心KDA模块靠细粒度门控+改进Delta Rule,解决传统线性注意力“记不住”的痛点

3:1混合层设计兼顾全局建模与效率,百万token场景KV缓存减75%,解码吞吐量飙6倍,训练速度提6.3倍

无缝对接vLLM框架,一键升级现有系统,长文档处理、Agent任务等场景直接受益,https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf
Lightricks公司近日发布的AI视频生成模型LTX-2,为视频创作带来革命性进展。它能一次性生成长达20秒的4K叙事高清视频,且声音与口型同步

LTX-2在同一个扩散过程中同时生成画面与声音,确保视频的真实性和连贯性。其支持最高4K分辨率和50帧每秒的输出,是首个能稳定生成原生4K视频的开源AI模型。该模型还支持多种输入方式,内置LoRA微调机制,并可在消费级GPU上本地运行

Lightricks计划2025年11月下旬开源LTX-2的代码、模型权重等,用户可通过官方平台体验该模型
蚂蚁集团发布的Ling 2.0技术报告解密了万亿参数模型Ling-1T的开源配方。Ling-1T作为非推理模型,性能直逼顶尖闭源模型,关键在于强化了思维链(CoT)

报告阐述了蚂蚁构建模型基础的方法,Ling 2.0系列采用“高稀疏、细粒度”MoE架构,激活率低至3.5%,实现近7倍计算效率提升

通过Ling Scaling Laws,可通过小规模模型实验高保真预测万亿参数模型性能。在训练阶段,预训练引入大量推理数据,中训练创新性引入思维链数据,后训练采用LPO算法,将句子作为RL策略更新基础单元,提升了训练稳定性和泛化性,报告地址arxiv.org/pdf/2510.22115
最近AI应用初创公司Flowith正式发布本地智能体操作系统Flowith OS,这是一整套为其Agent Neo设计的运行系统

Flowith OS以浏览器形态存在,需下载到电脑使用,支持macOS和Windows系统。它基于自研的“代码+视觉”双模态理解框架,能够自主跨越多网页搜索,通过“代码+视觉”理解用户屏幕画面,完成点击、编辑、发送等操作

该系统搭载了上下文改进系统,并通过在线强化学习持续优化,还引入了双层记忆系统,在测试中,平均准确率达到95.4%,在Easy和Medium任务中分别高达96.3%和97.7%,远超ChatGPT Atlas与Gemini 2.5等对手
最近华为联合上海交通大学和华中科技大学推出的WorldGrow,是一个用于生成无限3D世界层次结构的框架

WorldGrow能够在单张A100显卡上30分钟生成272平方米的室内场景。它通过数据精准预处理、3D块补全机制和粗到精生成策略,解决了传统3D场景生成技术中的诸多问题,生成的场景具备连贯的几何拓扑和照片级真实感外观

在3D-FRONT数据集上,WorldGrow的几何重建指标达到SOTA水平,生成速度是同类技术的6倍,为虚拟场景生成和智能体导航提供了高效、高质量的解决方案,论文地址https://arxiv.org/pdf/2510.21682
上海MiniMax发布M2模型,以61分登顶Artificial Analysis开源榜首,仅次于Claude 4.5 Sonnet

作为230B参数量的稀疏MoE模型,其专为智能体与编程设计,交错思维格式+全注意力机制加持,工具调用、深度搜索能力比肩海外顶尖模型

推理速度是Claude 3.5的2倍,API价格仅8%,还开源完整权重(MIT协议),限时免费开放Agent平台,堪称开发者高效低成本“外挂”
美团重磅开源13.6B参数视频生成模型LongCat-Video,支持文生视频、图生视频、视频延长三大核心任务

基于Diffusion Transformer架构,通过Block-Causual Attention、二阶段生成等技术优化,实现5分钟级连贯长视频输出,物理建模真实、时序一致性拉满

推理速度提升10.1倍,VBench基准测试表现亮眼,部分维度媲美谷歌Veo3,为开源视频生成领域再添强将,论文地址https://arxiv.org/pdf/2510.22200
上海人工智能实验室与中山大学联合推出地球科学领域首个智能体Earth-Agent,革新科研分析范式

其核心是“LLM决策大脑+专业工具库”架构,可处理RGB图像、原始光谱等三大模态数据,自主完成预处理、指数计算、时空分析全流程

配套基准测试Earth-Bench含248个多步任务、13729张图像,实测中部分开源模型工具调用表现超GPT-5,放开工具后准确率最高提升至65%,https://arxiv.org/pdf/2509.23141
《Nature》报道,Neuralink联合创始人创立的Science Corporation研发的PRIMA视网膜植入物,实现人工视觉重大突破——2mm×2mm的微型芯片植入视网膜下,搭配AR眼镜与AI算法,将图像转化为电脉冲传递至大脑

38名黄斑变性失明患者参与临床试验,84%恢复功能性中央视力,能识别文字、填写字谜,手术全程不到2小时且无周边视力损伤。该系统已提交欧洲上市申请,计划明年推出
NVIDIA、香港大学与MIT联合推出Fast-dLLM v2,创新将AR模型适配为并行解码的Block-dLLM,仅需1B tokens微调即可实现“无损”迁移,训练成本大降

核心依托块内双向+块间因果的AR友好注意力、层级缓存及置信度感知解码技术,在A100/H100上吞吐量最高提升2.5倍

实测7B规模模型吞吐量超Qwen2.5-7B-Instruct 2.54倍,且准确率更优,为大模型高效推理提供高性价比新方案。论文地址 arxiv.org/pdf/2509.26328
苹果研究团队开源40万级图像编辑数据集Pico-Banana-400K,基于OpenImages真实图像,由Nano-Banana生成编辑对,Gemini 2.5 Pro评分+人工筛选保障质量

数据集涵盖35类编辑场景,包含25.8万单轮SFT数据、7.2万多轮编辑序列等四大子集,适配模型训练、对齐研究等多元需求

它的自动化编辑评估流程+真实场景适配特性,为文本引导图像编辑模型研发筑牢基础,论文地址 arxiv.org/pdf/2510.19808
AI新锐团队Thinking Machine推出“在线策略蒸馏”训练方法,掀起行业关注热潮

该方法创新融合强化学习与监督学习,以强大教师模型为“实时教练”,通过逐词动态评分与KL散度优化,将稀疏奖励转化为密集过程反馈,避免传统训练“只学结果、不学过程”的弊端

实测中,8B小模型仅需1/7-1/10训练步数便接近32B大模型性能,训练效率提升50-100倍,还破解了“灾难性遗忘”难题,新知识学习与旧能力保留兼得,由前OpenAI核心成员主导的这一突破,契合AI垂直化落地趋势,大幅降低中小企业开发门槛
西湖大学AGI Lab推出Auto-Slides系统,支持学术论文PDF一键转化为高质量PPT,核心依托多智能体协作框架

它通过解析智能体精准还原公式、表格等多模态信息,规划智能体将论文结构重组为更易理解的叙事逻辑,搭配验证-修正机制保障学术严谨性

用户可通过自然语言实时个性化修改,经实验验证,大幅提升学术汇报效率与质量,适配会议演讲、课堂教学等场景 论文地址 arxiv.org/pdf/2509.11062
Anthropic联合Thinking Machines Lab团队发起30万次AI模型规范压力测试,揭示当前规范存在内部矛盾、解释歧义等核心缺陷

测试覆盖OpenAI、谷歌等12个前沿LLM,超7万场景中模型表现显著分歧,OpenAI旗下5款模型在高分歧场景中集体违规概率暴增5-13倍

研究凸显规范改进紧迫性,为AI行为一致性与可靠性筑牢基础,有兴趣看下论文 arxiv.org/pdf/2510.07686
斯坦福大学联合多机构推出AgentFlow智能体框架,以规划器、执行器等四大模块化Agent协同,搭配Flow-GRPO算法实现“流中强化学习”

其核心通过广播终局奖励解决稀疏奖励问题,训练效率与推理鲁棒性双升。在10项跨领域基准测试中,基于7B小模型的AgentFlow在搜索、数学等任务上大幅超越GPT-4o、Llama3.1-405B,论文地址 arxiv.org/pdf/2510.05592
最近阿里夸克正式上线全新AI对话助手,作为其“C计划”的首个落地成果

该助手基于Qwen最新闭源模型打造,性能超越GPT-5与Claude Opus 4,稳居全球大模型前三。它实现了AI搜索与对话的深度融合,用户可在夸克App首页的AI超级框下方自由切换传统搜索与AI对话模式

夸克对话助手集成了深度搜索、拍照搜题、AI写作、翻译等多项实用功能,还能处理复杂问题和多轮对话。凭借自建的专业知识库,其回答具有高质量、可溯源的特点