| 2026-06-05 | ThoughtFold:让推理模型把"想得太多"的废话自己折叠掉 |
| 2026-06-05 | MemTrain:不靠下游标注,光啃维基百科就把"记忆代理"训出来了 |
| 2026-06-05 | MMG2Skill:把网上现成的多模态攻略,喂成 Agent 自我进化的技能包 |
| 2026-06-05 | 你的多模态大模型,其实根本"不会记"——M³Eval 用认知心理学把视频记忆这件事彻底拆开 |
| 2026-06-05 | 先把烂轨迹扔了,再给好 token 加权——FiRe-OPD 把 OPD 的优化粒度重新做了一遍 |
| 2026-06-05 | 给 reward hacking 装上一面"放大镜":rubric-based RL 的可控复现环境 |
| 2026-06-05 | AutoLab:把模型扔进 12 小时的"科研闭环",看谁还能坚持下去 |
| 2026-06-04 | TrOPD 论文解读 信任区域在线策略蒸馏 |
| 2026-06-04 | 让大模型也学会"睡一觉":Google 把 NREM 和 REM 直接搬进了 LLM 训练协议 |
| 2026-06-04 | 教师不给 logit 也能搞 on-policy 蒸馏?OmniOPD 用 chunk 级语义投票把 Claude/Gemini 拉进了蒸馏管线 |
| 2026-06-04 | 多域RL训练完Math就忘?这篇论文给出了"局部扰动"层面的解释 |
| 2026-06-04 | KVarN:方差归一化让 2-bit KV 缓存扛住长链推理 |
| 2026-06-04 | 答案已经对了,模型却还在絮叨——这段"多说的"才是 SFT 数据真正的毒 |
| 2026-06-04 | 自动 harness 在线上部署越跑越烂?这篇论文把"进化"和"适应"两个损失彻底拆开了 |
| 2026-06-03 | 失败一整条轨迹,到底该怪哪一步?SkillAdaptor 用步级归因把 Agent 的技能库改对了 |
| 2026-06-03 | PEFT 不只是省钱的小补丁——它能撑起百万级人格模型 |
| 2026-06-03 | 观测掩码不是免费午餐:搜索智能体的 Regime Map 与机制拆解 |
| 2026-06-03 | 让 Agent 自己长记忆:用代码覆盖率当奖励,把"探索"和"记住"绑在一起训 |
| 2026-06-03 | Harness-1:把"思考过程"写到外面去——一个 20B 搜索智能体如何打过 Opus 和 GPT-5 |
| 2026-06-03 | RL 训练时模型已经走错了,还非要让它写完 8192 个 token?阿里 Tongyi Lab 这篇 ESPO 把失败 rollout 提前掐了 |
| 2026-06-03 | Draft-OPD:让推测解码的草稿模型,从"自己犯的错"里学习 |
| 2026-06-02 | SAAS:让 Agent 学会"我自己其实知道"——用自感知 RL 治理过度搜索 |
| 2026-06-02 | 长上下文 RL 训练数据该怎么造?让搜索 Agent 帮你筛干扰项 |
| 2026-06-02 | Harness 更新 ≠ Harness 受益:把自进化 Agent 的两种能力彻底拆开 |
| 2026-06-02 | GrepSeek:让搜索智能体扔掉向量索引,直接用 grep 翻语料 |
| 2026-06-02 | 把一个"懂事的同事"打包成 Skill:从异构痕迹蒸馏可检查、可修正、可回滚的 AI 技能 |
| 2026-06-02 | 让 AI 自己当数据工程师:从零自主策划训练数据,把学生模型涨了 57.29% |
| 2026-06-01 | 让 8B 小模型学会"我不知道":TIAR 用 GRPO 轨迹给弃权 reward 动态加权 |
| 2026-06-01 | ROSD:让自蒸馏去"改错",而不是去"抄答案" |
| 2026-06-01 | 3%的注意力头,扛起了LLM整个演绎推理过程——一篇可解释性论文的硬核拆解 |
| 2026-06-01 | 不要再卷神经验证器了:用维基百科"共现次数"当奖励,事实问答RL训练快 8 倍 |
| 2026-05-31 | TCP-MCP:把多 Agent 系统的 prompt 和拓扑当作"基因组"一起进化 |
| 2026-05-31 | Focal Reward:当 RL 把"容易拿分的维度"刷爆了,剩下的硬骨头怎么办 |
| 2026-05-31 | Entity-Collision:把 Agent 记忆系统的检索增益拆开归因 |
| 2026-05-31 | 两万真实会话揭示 Coding Agent 七大失配模式:开发者-Agent 错位的大规模实证 |
| 2026-05-31 | 进化搜索的算力分配重构:从深度-广度到多臂老虎机 |
| 2026-05-30 | 密集检索凭什么给高分?Xetrieval 用稀疏特征把黑箱掰开了 |
| 2026-05-30 | 别只盯着最终答案:Agent 幻觉真正危险的地方在轨迹里 |
| 2026-05-30 | 把 Agent 的 Skill 当参数来训:SkillOpt 让一个 Markdown 文件涨 23 个点 |
| 2026-05-30 | 25% 的 Agent 技能其实在帮倒忙:一篇把"技能生命周期"拆到底的系统研究 |
| 2026-05-30 | 技能到底该"记住"还是"带着"?Skill0.5 给出了一个折中但有效的答案 |
| 2026-05-30 | 单向量 Embedding 模型其实"早就会"多向量检索——SMART 把被压扁的隐藏状态用起来了 |
| 2026-05-30 | 长程智能体不是缺上下文,而是缺会翻旧账的记忆 |
| 2026-05-30 | 8K 条合成任务,把开源深度研究 Agent 拉到闭源水平 —— QUEST 论文细读 |
| 2026-05-30 | Agent的"空闲时间"被浪费了——ProAct想用它干点正事 |
| 2026-05-30 | 该不该把这条会话存进 Agent 记忆?这篇论文说:先看是哪个用户 |
| 2026-05-30 | LoRA 到底能记住多少东西?一个优雅的幂律定律告诉你答案 |
| 2026-05-30 | LLM 记忆系统也会“甩锅”:MemTrace 把错误追到具体操作 |
| 2026-05-30 | MemForest:当 Agent 的"记忆"被当成数据库问题来做,写吞吐量直接 6 倍 |
| 2026-05-30 | MUSE-Autoskill:把 Agent 技能从"一次性产物"管成"有生命周期的资产" |
| 2026-05-30 | 搜索智能体的皇帝新衣:它们真的在搜索,还是在用Google验证自己的记忆? |
| 2026-05-30 | 用合成数据喂出来的终端智能体,凭什么只用 1 万条轨迹就能打平 50 万条的效果? |
| 2026-05-30 | HINT-SD:长程 Agent 训练里,"在哪里反馈"比"反馈多稠密"更值钱 |
| 2026-05-30 | FluxMem:当智能体的记忆不再是"死档案",而是一张活着的网 |
| 2026-05-30 | 把"40000层迭代"写成吸引子收敛:CMU 团队让 5M 小模型在 Sudoku-Extreme 上从 2.6% 干到 99.8% |
| 2026-05-30 | 别总找更强老师了,让推理模型从错误里爬出来 |
| 2026-05-30 | 多奖励 RL 训练崩了?阿里云这篇 DVAO 给了 GRPO 一个真正干净的多目标解 |
| 2026-05-30 | 并行推理别再各想各的:CPT 让多条思维链学会“共享情报” |
| 2026-05-30 | 你以为在测 CoT 忠实度?这篇论文说现有指标基本都接近瞎猜 |
| 2026-05-30 | BES:别只让模型往前猜,倒着拆目标再重组答案 |
| 2026-05-30 | 当AI智能体学会"一心多用":AsyncTool揭示大模型异步工具调用的真实水平 |
| 2026-05-30 | Agent训练越练越爱乱调工具?这篇论文让模型自己学会"什么时候该闭嘴查工具" |
| 2026-05-24 | TransMamba:把 Transformer 和 Mamba 塞进同一套参数里,按 token 长度自由切换 |
| 2026-05-24 | 别再只看准确率了:用认知负荷理论给工具智能体画一张"能力边界图" |
| 2026-05-24 | ToolACE-R:让模型自己决定训练吃什么、推理时改几遍 |
| 2026-05-24 | 当 RAG 检索到的内容跟模型脑子里的"记忆"打起来——AAAI 2026 这篇用信息瓶颈给出了一个有理论支撑的解法 |
| 2026-05-24 | KV Cache 还能再砍一刀:SparK 在通道维度上做了一件被忽略多年的事 |
| 2026-05-24 | Reasoning-SAE 论文解读:用稀疏自编码器抓住 DeepSeek-R1 的"思考时刻" |
| 2026-05-24 | RALM 真的"知道自己不知道"吗?AAAI 2026 揭开检索增强模型的过度拒答陷阱 |
| 2026-05-24 | RAG-R1:让模型自己决定要搜几次,把 RAG 从串行链改成自适应多查询并行 |
| 2026-05-24 | LogicRAG:把图谱从离线建变成推理时即时拼,GraphRAG 这条路是不是走偏了 |
| 2026-05-24 | 给Claude 3.7一个GitHub仓库让它干活,54个真实任务它只做对了48% |
| 2026-05-24 | 给投机解码的草稿模型加一个"耳麦":从验证器隐藏态算 steering 向量,接受 token 数最多多 35 个百分点 |
| 2026-05-24 | 长篇小说推理卡壳怎么办?ComoRAG 让 RAG 学会"想到一半再去翻书" |
| 2026-05-24 | CoT-SAE 论文解读:用稀疏自编码器看穿"思维链是否真在思考" |
| 2026-05-24 | 多Agent投票投出个寂寞?这篇AAAI 2026把冷战时期的情报学方法搬了进来 |
| 2026-05-23 | UnPRM:用"不确定性"省 60% PRM 标注成本,再回头修一遍多数投票 |
| 2026-05-23 | SubGCache 论文解读:子图级 KV 缓存把图谱 RAG 推理首字延迟砍到原来的 1/6 |
| 2026-05-23 | 用数学训出来的 PRM,跑到代码任务上还能涨 4 个点——这事让我对"PRM 是不是被高估了"重新想了一遍 |
| 2026-05-23 | PPPO 论文解读:前缀决定推理,RLVR 只优化开头就够了 |
| 2026-05-23 | MEML-GRPO 论文解读:异构多专家互学习破解 RLVR 的奖励稀疏 |
| 2026-05-23 | Length Bias Causal 论文解读:用因果反事实拆掉 RLHF 奖励模型的"啰嗦偏好" |
| 2026-05-23 | Latent Reasoning Refinement:在不训练任何参数的前提下,给 Coconut 套一层"心理调节器" |
| 2026-05-23 | LLMdoctor:用小模型 doctor 在 token 级别给冻结的 patient 大模型做"对齐处方" |
| 2026-05-23 | GenPRM:让 1.5B 的过程奖励模型,靠"边写边推理边跑代码"打赢 GPT-4o |
| 2026-05-23 | DeCoRL:把推理链拆成"乐团合奏"——AAAI 2026 一篇把 RLHF 推到 32B 打 GPT-4o 的工作 |
| 2026-05-23 | 一个 query 写五份草稿、互评后再选最好的那一条去更新——DRAFT-RL 把 RL 训练里的"独白"改成了"群聊" |
| 2026-05-23 | DEPO:把"少 token + 少步骤"同时塞进 KTO 的偏好优化 |
| 2026-05-23 | Conformal CPO:把保形预测嵌入 LLM Agent 编排策略,可证明可靠性 + 30% 成本节省 |
| 2026-05-22 | 不要任何人工标注,PRM 也能训出来——EPFL 这套 uPRM 把"+/-"两个 token 玩出花了 |
| 2026-05-22 | 大模型工具调用的"知行差距":它知道该调用工具,但就是不动手 |
| 2026-05-22 | Solvita:四智能体闭环 + 可训练知识网络,让大模型在 Codeforces 打到 Legendary Grandmaster |
| 2026-05-22 | SkillsVote:当智能体技能库长到百万级,怎么不让它把Agent带歪? |
| 2026-05-22 | LLM 智能体的记忆「悄悄过期」问题:最强模型也只能拿 55 分 |
| 2026-05-22 | SDAR:让每个 token 自己决定蒸馏强度——多轮 Agent RL 的一次"非对称信任"修补 |
| 2026-05-22 | Attention 自己就是检索器:NVIDIA 把外挂 retriever 拆了,多跳 QA 反而更强 |
| 2026-05-22 | RLVR 训练只跑前 15% 步,剩下的可以"算"出来——一篇让我重新审视 RL 训练动力学的论文 |
| 2026-05-22 | 把多跳 RAG 写成一段 Python 程序:当推理过程从"自由发挥"变成"编译器说话" |
| 2026-05-22 | π-Bench:当 AI 助理被要求"猜你想说但没说的话",9 个旗舰模型集体翻车 |
| 2026-05-22 | 当模型已经"想明白"了还在絮叨——这篇论文教你怎么让它闭嘴 |
| 2026-05-22 | 给智能体一张"地图":PEEK 把长上下文里反复重学的那部分缓存了下来 |
| 2026-05-22 | 用策略提示把模型推出舒适区:NudgeRL 让 8 个 rollout 跑赢 64 个 |
| 2026-05-22 | 一篇综述把多智能体的"协作—归因—自演化"串成一条因果链:LIFE 框架的意义 |
| 2026-05-22 | MetaAgent-X:让设计器和执行器一起进化,自动 MAS 的天花板被端到端 RL 撞穿了 |
| 2026-05-22 | Many-Shot CoT-ICL:把上下文窗口当课程表来排,几何任务直接拉高 5.42 个点 |
| 2026-05-22 | 当 Prompt 优化器在 6 个任务里 4 个原地踏步:MOCHA 用切比雪夫退火给 Agent 技能找出路 |
| 2026-05-22 | 把 7B 视觉语言模型从 32K 拉到 128K,他们只花了 50 亿 token——还顺便外推到了 512K |
| 2026-05-22 | 给Agent记忆系统泼一盆冷水:长时程多目标干扰下,所有主流方案平均只有27.9% |
| 2026-05-22 | OPD 为什么这么快?腾讯混元从参数动力学给了一个让人服气的答案 |
| 2026-05-22 | 工业质检领域的 MLLM 卡在哪了?这篇论文给了一个把工具调用塞进 RL 的解法 |
| 2026-05-22 | 把 Agent 的"技能"从文本提示升级成可执行护栏:HASP 框架到底解决了什么 |
| 2026-05-22 | HAGE:让 Agent 的记忆图自己学会该走哪条边 |
| 2026-05-22 | 30B 小模型拿 IMO 金牌:SU-01 把"会做题"和"会证明"拆开来打 |
| 2026-05-22 | 全注意力的反击:百步训练把稠密注意力"翻译"成稀疏,1M 上下文 prefill 提速 9.36 倍 |
| 2026-05-22 | EvolveMem:让 Agent 的记忆系统自己改自己的检索配置 |
| 2026-05-22 | EnvFactory:85 个环境如何打掉 500+ 的工具调用 RL 数据工厂 |
| 2026-05-22 | EndPrompt:短序列也能撑起 64K——给 LLM 长上下文塞一个"终点路标" |
| 2026-05-22 | 2011 年的 DAgger 被搬回来训 SWE 智能体,4B 模型干翻一票 8B 系统 |
| 2026-05-22 | 三个推理模型轮流接力解一道题,蒸出来的学生反超老师 |
| 2026-05-22 | 42 位作者联手发声:代码不再只是 Agent 的"输出",而是它赖以生存的"操作系统" |
| 2026-05-22 | 答对了题,却抄错了出处——CiteVQA 把多模态大模型的"归因幻觉"摆上了台面 |
| 2026-05-22 | 论文不再线性跑流水线:AutoResearchClaw 用辩论、自愈和跨次进化把 AI 科学家推上一个台阶 |
| 2026-05-22 | 长前缀的第三条路:把注意力"提前算好存起来",推理时直接查表 |
| 2026-05-22 | AstraFlow:把Agentic RL训练系统拆开重写,2.7×加速背后是一套被忽视的抽象 |
| 2026-05-22 | 教蒸馏教师"少看一点",反而学生学得更好——LLM 推理自蒸馏的一个隐藏旋钮 |
| 2026-05-22 | ActGuide-RL:把 SFT 冷启动换成"动作引导"的智能体 RL 新范式 |
| 2026-05-22 | Agent 轨迹的"监督盲区":把多轮工具调用编译成长上下文训练数据,30B 干到 235B |
| 2026-05-14 | Web2BigTable:用 GPT-5 mini + Gemini 3 Flash 干翻 GPT-5 High——双层 Agent + 自演化 skill bank 把 SR 拉到 7.5 倍 |
| 2026-05-14 | UniSD:不靠"更强的老师",LLM 能不能自己教自己变强? |
| 2026-05-14 | UniPrefill:当稀疏注意力遇到混合架构,长上下文 Prefill 该怎么加速? |
| 2026-05-14 | ThinC:让模型用代码"思考",而不是用代码"验证" |
| 2026-05-14 | TMAS:当并行多路推理不够用,怎么让多 Agent 真正"协同"起来? |
| 2026-05-14 | 让 Agent 先「想清楚再动手」:StraTA 给长程 Agent RL 加上一层策略抽象 |
| 2026-05-14 | SkillOS:与其训练 Agent 自己变强,不如训练一个专门管"技能库"的小模型 |
| 2026-05-14 | Skill1:用一个奖励信号,把 Agent 的"选、用、攒"三件事一起练出来 |
| 2026-05-14 | SSL:把 SKILL.md 拆成三层结构化图谱——技能检索 MRR 涨 8 个点、风险评估 F1 涨 10 个点 |
| 2026-05-14 | SLIM:Agent 的"技能仓库"不应该一味变大或变小——技能要有生命周期 |
| 2026-05-14 | SEIF:让模型自己出题考自己——指令跟随能力的自演化训练 |
| 2026-05-14 | S2G-RAG:让 RAG 学会回答"我到底还差什么"——HotpotQA 上 F1 暴涨 13 个点 |
| 2026-05-14 | RubricEM:当 Deep Research Agent 没有 ground truth,RL 还怎么训? |
| 2026-05-14 | Ψ-RAG:把 Tree-RAG 从"单文档玩具"推到"语料库级跨文档多跳"——比 RAPTOR 强 25.9%、比 HippoRAG 2 强 7.4% |
| 2026-05-14 | 多智能体 LLM 的 RL 该往哪走?这篇 84 篇综述把"编排轨迹"作为新单元 |
| 2026-05-14 | NanoResearch:研究自动化跑得起来不算赢,跑出"你这个研究员要的东西"才算赢 |
| 2026-05-14 | 往 Prompt 前面拼一段 Lorem 乱码,GRPO 居然就训出来了——LoPE 是怎么靠"废话"破开零优势困境的 |
| 2026-05-14 | LenVM:把"还剩多少 token"建模成 value——给 LLM 装上了一个 token 级长度刻度尺 |
| 2026-05-14 | LPO:把 GRPO 的"隐式投影"翻到台面上——RLVR 的几何统一视角 |
| 2026-05-14 | HeavySkill 论文解读 重思考即智能体内化技能 |
| 2026-05-14 | G-Zero:开放域任务里,没有 verifier 也能跑出 self-play 的奇迹? |
| 2026-05-14 | 当工具库膨胀到4万个,Agent该怎么"找工具"?UCLA这篇FitText把检索塞进了推理循环 |
| 2026-05-14 | 当 LLM 不断"总结过去的经验",记忆反而变坏:Agentic Memory 的隐性陷阱 |
| 2026-05-14 | Faithful Uncertainty:把"幻觉"重新定义为"自信地说错"——Google 在告诉你下一步该怎么走 |
| 2026-05-14 | Fast-Slow Training:让 LLM 的"参数"和"上下文"一起学 |
| 2026-05-14 | Eywa:当 LLM 不再"什么都自己来",让科学基础模型上桌一起聊 |
| 2026-05-14 | δ-mem:一个 8×8 的矩阵,能给 LLM 当"长期记忆"吗? |
| 2026-05-14 | 扔掉向量库,让 Agent 直接 grep 原始语料库——一篇打破检索神话的论文 |
| 2026-05-14 | Ctx2Skill:让模型读完一份文档就"自己出题考自己"——无反馈下的 skill 自演化 |
| 2026-05-14 | Claw-Eval-Live:连 Opus 都过不了 70%,工作流 Agent 离"自动化"还差一个数量级 |
| 2026-05-14 | BRIGHT-Pro 与 RTriever:把"推理密集型检索"从静态榜单拉回 Deep Research 真实战场 |
| 2026-05-14 | 把"提想法-写代码-跑实验-改下一版"整个交给Agent:CMU这篇把ML自动研究跑成了一条可审计的轨迹 |
| 2026-05-14 | Agentic Architect:让 LLM 帮你"进化"出 CPU 微架构——预取器跑赢 SMS 21% |
| 2026-05-14 | 多跳RAG总在桥接事实上栽跟头:NYU这套AdaGATE把证据装配当成了"修补题" |
| 2026-05-14 | ARIS:当你怀疑 AI 在"看起来很对"地胡说八道——上海交大开源的跨模型对抗科研 Harness |
| 2026-05-14 | 不要再给Agent硬塞PRM了:百度这篇AEM用一个"熵的呼吸节奏"把信用分配做了 |
| 2026-05-07 | iTool:合成数据加越多越没用?哈工大+华为用 MCTS 找出"那一小片错",8B 反超 GPT-4o |
| 2026-05-07 | 让 Web Agent 自学不停滞——WebEvolver 用一个共演化世界模型撑起多步 Look-Ahead |
| 2026-05-07 | WebAgent-R1:8B小模型在网页操作上把o3拉下马,多轮RL把分从8.5%硬拉到44.8% |
| 2026-05-07 | TurboRAG:把RAG的Prefill搬到离线,TTFT直接快9.4倍 |
| 2026-05-07 | TokenSelect:把 KV Cache 的"块级粗筛"砸碎到 Token 级,128K→1M 上下文加速 23.84 倍 |
| 2026-05-07 | Think-Search-Patch:让 7B-14B 模型把仓库级 bug 修出 GPT-4 三倍的命中率 |
| 2026-05-07 | 部署即固化的Agent,怎么在线学新规则?ARIA给了一个能落地的答案 |
| 2026-05-07 | 让 o1 学会自己上网查资料:Search-o1 给大推理模型补上的那块知识短板 |
| 2026-05-07 | 把 Reward Model 拆成五个"专科医生"——SRM 用工程套路在 RM 上又榨了 8 个点 |
| 2026-05-07 | Agent别再"想都不想就动手"了:SAND教大模型先在脑子里把候选动作走一遍 |
| 2026-05-07 | RethinkMCTS:让MCTS会"反省",把走歪的思路改对再继续搜代码 |
| 2026-05-07 | 让奖励模型先"想清楚"再打分:R-PRM 把 PRM 从打分器升级成推理者 |
| 2026-05-07 | PPO 不是 RLHF 的最优解:Google 跑了 3500 次实验、烧了 30000 TPU 小时给出最终排名 |
| 2026-05-07 | 代码生成里 Process Reward 第一次被认真验证:PRLCoder 把"行级别"奖励喂给 PPO,难题 Pass@80 涨了 9.6 个点 |
| 2026-05-07 | NOVER:把 R1-Zero 的"激励训练"从数学题搬到任意文本任务,靠的不是更大的 verifier,而是一个 perplexity |
| 2026-05-07 | AWS 这篇论文让 LLM Agent 的记忆"自己长出索引",RAG Recall 暴涨 34% |
| 2026-05-07 | 不动模型、没有标签,让 Agent 在测试时把准确率干到 93.94%——EMNLP 2025 这篇 Schema Mapping 论文挺有意思 |
| 2026-05-07 | 让模型"故意答错",反而把验证器训得更准——逻辑推理上的 ORM + Test-Time Scaling 实验 |
| 2026-05-07 | 训RAG Agent老犯"搜了又搜"和"乱搜一气"两个毛病?LeTS给出了一个不靠人工标注的解法 |
| 2026-05-07 | GRPO-LEAD:让推理模型说人话——给 GRPO 加上长度、罚分和难度三味药 |
| 2026-05-07 | 好过程无需好答案:把 Agent 的规划和总结拆开训,工业 RL 才走得通 |
| 2026-05-07 | 把 RL Agent 直接扔进真实互联网:DeepResearcher 撕开了 RAG 训练的舒适区 |
| 2026-05-07 | 决策和执行拆开训:一篇把 Agentic RAG 写成 MDP、再用剪枝把数据造快 6 倍的工业界论文 |
| 2026-05-07 | 别让模型「想太多」:中国联通团队把推理长度做成难度自适应——DAST 论文精读 |
| 2026-05-07 | CodeRAG:把"检索什么"和"重排什么"都想清楚——仓库级代码补全的一次系统性重做 |
| 2026-05-07 | CODI:让模型把思维链"塞"进连续空间,6 个隐向量顶 20 个 token |
| 2026-05-07 | 三套 Prompt 互相甩锅,怎么调?三星 × GMU 把记忆 Agent 的 APO 做成可落地闭环 |
| 2026-05-07 | 多目标文本生成里,权重别再手写:AW-GRPO 把 GRPO 从「偏科」拉回正轨 |
| 2026-04-29 | 撕掉"自进化"的伪装:让Agent在没人喂奖励的时候,自己摸清楚一个陌生世界 |
| 2026-04-29 | 测试时训练为什么总崩?TEMPO 用 EM 把缺失的那一步补回来 |
| 2026-04-29 | 终端Agent的"上下文垃圾场"清理工:TACO 用一个不停进化的规则池替代手写 prompt |
| 2026-04-29 | 给Agent装"持续学习"开关:写技能容易,修技能难——SkillFlow揭开11个前沿模型的真实差距 |
| 2026-04-29 | SimpleTES:用开源 gpt-oss 把 LASSO 提速 2 倍、量子门数砍掉 24.5%——靠的不是更强的模型,而是更多的"评估" |
| 2026-04-29 | ShadowPEFT:把 LoRA 的"分散低秩"换成共享影子网络,顺便让 PEFT 模块可拆可装 |
| 2026-04-29 | 上下文永远不够用:SLIDERS 把长文档问答从"读完所有 token"换成"查数据库" |
| 2026-04-29 | 8个样本就能涨32个点?RLVR的"奇迹"为什么换到Llama身上就不复现了 |
| 2026-04-29 | Agent Coding 测试时算力怎么花?Meta 给出了一个反直觉的答案:先做"摘要"再做"选拔" |
| 2026-04-29 | NPO:让"未来的自己"教会"现在的自己",RLVR走出Q/V困局 |
| 2026-04-29 | Too Correct to Learn:当模型"答得太对"时,GRPO反而学不动了 |
| 2026-04-29 | Memanto:当所有人都在堆图谱时,他们用一颗朴素的向量索引把SOTA又拿回来了 |
| 2026-04-29 | 强LLM不一定是好"优化器":决定胜负的不是参数量,而是"局部精修"的能力 |
| 2026-04-29 | GFT:把 SFT 当成"极度稀疏奖励 + 不稳定重要性权重"的 RL 重做一遍 |
| 2026-04-29 | 你的检索器其实在"假装"听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA |
| 2026-04-29 | DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压 |
| 2026-04-29 | 异质任务下的记忆提取:为什么单一Prompt就是搞不定,得"先聚类再演化" |
| 2026-04-29 | AgentSearchBench:在 1 万个真实 Agent 里挑一个能干活的,到底有多难? |
| 2026-04-29 | AgentSPEX:当 Agent 框架开始把"控制流"从 Python 里抠出来 |
| 2026-04-29 | Agent-World:当智能体训练终于不用再"假装"在跟世界打交道 |
| 2026-04-29 | Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读 |
| 2026-04-24 | DeepSeek-V4 技术报告精读:1.6T 参数、49B 激活、1M 上下文,开源模型的"算力性价比"被重新定义 |
| 2026-04-21 | \(p1\):用2道题训练出的系统提示,凭什么碾压全量数据? |
| 2026-04-21 | 让Agent自动调模型:TREX用搜索树把LLM微调做成了下棋 |
| 2026-04-21 | TPO:把"该学什么"和"怎么学"拆开,梯度自己知道什么时候停 |
| 2026-04-21 | 当AI编码Agent被"焊死"在产品里,怎么把它的核心引擎拆出来? |
| 2026-04-21 | SPPO:别再逼Critic逐token猜了——序列级建模一招解决长链推理信用分配 |
| 2026-04-21 | OPD不是万能药:大模型在线策略蒸馏什么时候能work,什么时候一定崩 |
| 2026-04-21 | Reasoning Graphs:让RAG Agent不再"翻车"的证据图谱 |
| 2026-04-21 | Coding Agent的记忆能跨域迁移吗?这篇论文给出了让人信服的答案 |
| 2026-04-21 | 记忆增强的动态奖励塑形:MEDS如何让LLM不再"重蹈覆辙" |
| 2026-04-21 | 30 GPU小时训出AIME 69.9%:Lightning OPD把在线蒸馏搬到了离线 |
| 2026-04-21 | LLM能从零重新发明基础算法吗?遗忘后再发明,最强模型成功率90% |
| 2026-04-21 | KnowRL:给RL训练开一份"最小处方",1.5B模型数学推理直逼7B水平 |
| 2026-04-21 | 对话AI的记忆困境:什么时候该记,什么时候该忘? |
| 2026-04-21 | GraSP:给Agent的技能加上因果图,多了反而更行 |
| 2026-04-21 | LM Agent的探索和利用居然可以被量化,而且探索才是命门 |
| 2026-04-21 | 你以为你在用不同的数据集训练模型?谱系图告诉你:它们都是同一棵树上的枝条 |
| 2026-04-21 | 从推理到智能体:LLM强化学习中的信用分配,到底难在哪? |
| 2026-04-21 | CodeTracer:给AI代码智能体装上"黑匣子",故障追溯一步到位 |
| 2026-04-21 | 当最强Agent也只能做对45%的任务:CocoaBench揭开统一数字智能体的真实水平 |
| 2026-04-21 | AiScientist:扔掉对话接力棒,用文件总线撑起23小时自主科研 |
| 2026-04-21 | AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式 |
| 2026-04-21 | AgentSwing:长时Web Agent的上下文管理,为什么"一条路走到黑"行不通 |
| 2026-04-10 | Anthropic Managed Agents: 把"脑"和"手"拆开,Agent 基础设施才算真正成熟 |
| 2026-04-09 | 不看Attention分数也能压缩KV Cache?TriAttention用三角函数找到了捷径 |
| 2026-04-09 | ThinkTwice: 让模型学会"做完题再检查一遍",推理+自纠错联合训练只加3%开销 |
| 2026-04-09 | 推理模型其实是"先决定,再编理由"?这篇论文用探针抓了个现行 |
| 2026-04-09 | Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解 |
| 2026-04-09 | 用2B小模型给Coding Agent的工具输出"挤水分":砍掉92%的token,召回率反而更高 |
| 2026-04-09 | SkillX:让 Agent 学会"传帮带",自动构建可复用的技能知识库 |
| 2026-04-09 | 训练时把技能"喂"进参数里,推理时不带小抄也能满分——Skill0的技能内化之路 |
| 2026-04-09 | 让代码模型学会"脑内编译":不执行代码也能验证对错? |
| 2026-04-09 | GRPO 和自蒸馏都不够好?这篇论文用样本路由把两者粘在一起,还真work了 |
| 2026-04-09 | RLSD:当自蒸馏遇上RLVR,token级信用分配的一次漂亮融合 |
| 2026-04-09 | 找论文这件事,是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架 |
| 2026-04-09 | 不调模型调"脚手架":斯坦福 Meta-Harness 让AI自动优化LLM外围代码,效果炸裂 |
| 2026-04-09 | 一个7B模型怎么干翻32B?这篇论文把Agent的记忆系统玩明白了 |
| 2026-04-09 | LightThinker++:让大模型学会"记笔记",推理token砍掉70%还能涨点 |
| 2026-04-09 | 检索模型该为谁训练?当搜索的用户从人变成了AI Agent |
| 2026-04-09 | AI打比赛,连续三场第一名碾压所有人类选手——GrandCode做对了什么? |
| 2026-04-09 | FileGram:让AI助手"记住"你怎么管文件,而不只是记住你说了什么 |
| 2026-04-09 | Claw-Eval: 你以为你的 Agent 很安全?44% 的安全违规被漏检了 |
| 2026-04-09 | 你的AI助手会"翻旧账"吗?ClawArena告诉你,绝大多数Agent在信息变化面前一塌糊涂 |
| 2026-04-09 | CORAL:当多个 AI Agent 学会自己搞进化,效率碾压传统搜索 3-10 倍 |
| 2026-04-09 | Agent的技能库看起来很美好,但真用起来呢?这篇论文给出了残酷的答案 |
| 2026-04-09 | ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗? |
| 2026-04-07 | AI写的论文到底有多少幻觉?东京大学提出首个系统评估框架PaperRecon |
| 2026-04-03 | 推理偷工减料?上下文是如何悄悄"缩短"大模型思考过程的 |
| 2026-04-01 | TurboQuant:用 3-bit 把 KV Cache 压 6 倍,Google 给内存芯片上了一课 |
| 2026-04-01 | AI能自主做临床科研了吗?港中文&斯坦福联手造出第一个医学AI科学家 |
| 2026-04-01 | 从一个Agent到一支团队:Claude Code多Agent协作架构全解——源码精读(三) |
| 2026-04-01 | 上下文撑破之前,Claude Code 如何"清理记忆"——源码精读(二) |
| 2026-04-01 | 30行代码,就是一个完整的AI Agent——Claude Code源码精读(一) |
| 2026-03-29 | 自蒸馏让大模型变"自信"了,推理能力却崩了——不确定性才是推理的命脉 |
| 2026-03-29 | LLM能学会合作还是学会作弊?社会困境博弈中的策略生成与奖励黑客 |
| 2026-03-29 | 一次推理输出多个答案:MIT用强化学习打破LLM的"熵坍缩"困局 |
| 2026-03-29 | 8B小模型干翻GPT-4o?用"信息不对称"让LLM自己查自己的幻觉 |
| 2026-03-29 | 用λ演算驯服LLM的递归:8B小模型干到70B的表现 |
| 2026-03-29 | Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习,编程 Agent 性能暴涨 61% |
| 2026-03-29 | 当AI学会自己搞安全研究:Claude自主发现的攻击算法,把30多种人类方法全干趴了 |
| 2026-03-29 | 7B小模型吊打GPT-5?CarePilot用Actor-Critic范式攻克医疗软件自动化 |
| 2026-03-29 | BEAVER:不用训练也能把12万token压到3000,还比LLMLingua快26倍? |
| 2026-03-29 | AI Agent做数据科学,排名不如一半的人类团队:AgentDS竞赛的冷水与启示 |
| 2026-03-25 | 当知识图谱变成"黑箱":BubbleRAG 用气泡膨胀算法让 Graph RAG 的召回率和精准率同时起飞 |
| 2026-03-24 | 4B 小模型击败 GPT-5:Learning to Self-Evolve 用强化学习教会 LLM 在测试时自我进化 |
| 2026-03-23 | 递归不是长上下文的解药,自反思才是:SRLM 用不确定性信号让 LLM 超越 RLM 22% |
| 2026-03-23 | 部署不是终点,而是学习的起点:微软提出 OEL 框架,让大模型从真实交互中持续进化 |
| 2026-03-23 | MiroThinker-1.7 & H1:搜索 Agent 的天花板不在"搜得多",而在"每步都靠谱" |
| 2026-03-23 | MetaClaw:让 AI 智能体"边干边学"——双时间尺度持续进化框架 |
| 2026-03-23 | 不改模型参数,准确率翻倍:Memento-Skills 让 Agent 自己设计 Agent |
| 2026-03-23 | 让LLM智能体像人脑一样从经验中共同进化:Complementary RL 如何用双系统协同打破样本效率瓶颈 |
| 2026-03-19 | blocks: 历史 block 表示 [b0, b1, ..., b(n-1)] |
| 2026-03-17 | ReAct:让大模型学会"边想边干"的智能体范式 |
| 2026-03-17 | OpenSeeker:首个完全开源训练数据的搜索 Agent,单次 SFT 逆袭复杂工业管线 |
| 2026-03-17 | OpenSWE 论文解读:147 万美元打造最大开源 SWE 训练环境,45k Docker 环境助力代码 Agent 登顶 SWE-bench |
| 2026-03-17 | 从零搭一个 AI Agent 框架,到底需要理解什么? |
| 2026-03-16 | EvoScientist:让AI科学家学会"长记性"——多智能体进化框架如何实现端到端科研自动化 |
| 2026-03-14 | 你以为大模型在"思考"?其实它只是在努力"回忆" |
| 2026-03-14 | 💥 别再死磕 Prompt 和 Workflow 了!DeepSeek-R1 引爆的 Agent 端到端强化学习革命 |
| 2026-03-14 | OpenClaw 刷屏了,但 90% 的人没看懂它真正在做什么 |
| 2026-03-14 | OpenClaw-RL 论文解读:用"下一状态信号"统一所有智能体的强化学习训练 |
| 2026-03-14 | IndexCache:跨层索引复用,让稀疏注意力推理再快一倍 |
| 2026-03-14 | 不需要SFT,仅靠上下文强化学习就能教会LLM使用工具 |
| 2026-03-14 | Harness Engineering 深度解读:AI Agent 时代的「缰绳与马鞍」 |
| 2026-03-14 | Claude Code 玩法大全:从入门到上瘾的终极指南 |
| 2026-03-14 | 🔬 Autoresearch 深度解读:Karpathy 的"AI 自主科研"到底有没有戏? |
| 2026-03-14 | Agent Teams 深度解读:从 Claude Code 到多智能体协作的技术全景 |
| 2026-03-13 | 🎯 用模拟器"养"出一个能打的搜索Agent:8B小模型如何在无限上下文下学会推理、追问与规划 |
| 2026-03-13 | 强化学习到底给大模型带来了什么?从 Search Agent 实战到三篇顶会论文的交叉验证 |
| 2026-03-12 | 当AI学会"欺骗"裁判:推理型LLM评判员的双刃剑效应 |
| 2026-03-07 | UniG2U-Bench 论文解读:统一多模态模型真的提升了视觉理解吗? |
| 2026-03-07 | SciDER:当AI学会从原始数据开始做科研,GPT-5也得靠边站 |
| 2026-03-07 | Qwen3-Coder-Next:80B参数只激活3B,如何用"小代价"训出最强编程智能体 |
| 2026-03-07 | PRISM:用过程奖励模型为DeepThink系统装上"导航仪" |
| 2026-03-07 | 广度看偏好、深度看对错——Mix-GRM用8B模型打败一众开源奖励模型 |
| 2026-03-07 | MemSifter:用4B小模型给大模型当"记忆管家",检索又快又准 |
| 2026-03-07 | Legal RAG Bench:当检索拖了后腿,大模型再聪明也白搭 |
| 2026-03-07 | 4B小模型干翻70B?CoVe用约束验证让工具调用Agent数据效率提升18倍 |
| 2026-03-07 | 9K条数据训4B模型,逼近DeepSeek-R1?CHIMERA用合成数据破解推理冷启动难题 |
| 2026-03-07 | BeyondSWE 论文解读:当前代码智能体能否超越单仓库修 Bug? |
| 2026-03-07 | 图像编辑也能"看菜下饭":ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍 |
| 2026-03-03 | Tool-R0:零数据也能训出工具调用高手——自进化LLM Agent的破局之路 |
| 2026-03-03 | 当 AI 研究员学会了"搜索",搜索引擎该怎么配合?——深度研究中的文本排序再审视 |
| 2026-03-03 | OmniGAIA:迈向原生全模态AI智能体——基准测试与基础模型的全面突破 |
| 2026-03-03 | EMPO²:让LLM智能体学会"记笔记+开卷考"的强化学习框架 |
| 2026-02-27 | GPT-5.1 也只拿了 69 分?妙问团队三篇论文揭秘:大模型在真实业务中翻车的真相与破局之道 |
| 2026-02-27 | 腾讯广告的RAG实战:如何用强化学习干掉92.7%的URL幻觉? |
| 2026-02-27 | AD-Bench:当LLM Agent遇上真实广告投放,最强模型也只能拿69分 |
| 2026-02-26 | Search-P1:让AI搜索代理从"只看结果"到"关注过程"的训练革命 |
| 2026-02-25 | SkillOrchestra:用"技能手册"取代强化学习,让AI智能体调度又好又省 |
| 2026-02-25 | SAGE:你的推理模型其实知道何时该停下来,只是你没让它说 |
| 2026-02-25 | 当AI客服犯了错,怎么在不动系统的情况下"洗脑"它纠正?——ReIn: 对话错误恢复的推理植入 |
| 2026-02-25 | DSDR:让推理模型别再"一条路走到黑"——双尺度多样性正则化探索框架 |
| 2026-02-25 | Avey-B:抛弃注意力机制,用"分拣员+处理器"重新定义双向编码器 |
| 2026-02-25 | 给Agent装上"大脑"有多难?一篇Survey揭示了智能体记忆系统的残酷现实 |
| 2026-02-20 | 当RAG的"压缩包"爆了:如何检测Token溢出? |
| 2026-02-20 | TAROT:测试驱动 + 能力自适应课程,让代码强化微调"因材施教" |
| 2026-02-20 | ResearchGym:当最强AI被扔进真实科研战场,它们交出了怎样的答卷? |
| 2026-02-20 | 给大模型装一台"事实核查显微镜":RLFKV 如何用细粒度知识验证治愈金融 RAG 幻觉 |
| 2026-02-20 | 30B参数的搜索代理,凭什么在BrowseComp上和GPT-o3掰手腕?拆解REDSearcher的三段式训练框架 |
| 2026-02-20 | Nanbeige4.1-3B:3B 参数的"六边形战士"是怎么炼成的 |
| 2026-02-20 | MemFly:当智能体的记忆学会了"断舍离"——信息瓶颈驱动的即时记忆优化 |
| 2026-02-20 | InnoEval:当AI也组了一个"评审委员会",它比人类审稿人更靠谱吗? |
| 2026-02-20 | 当RAG遇上知识图谱:一个让LLM"开卷考试也翻车"的新基准 |
| 2026-02-20 | GLM-5:当大模型学会"自己写代码",从Vibe Coding到Agentic Engineering的跨越 |
| 2026-02-20 | DeepImageSearch:当图像检索需要"侦探式推理",现有AI还差多远? |
| 2026-02-20 | 扩散语言模型也能当搜索代理?DLLM-Searcher用"边想边搜"的并行范式干掉了自回归模型 |
| 2026-02-19 | 冥想盆范式:让大模型学会管理自己的上下文 |
| 2026-02-19 | 当AI学会"搜论文",传统搜索算法反而赢了?——SAGE基准测试揭示的反直觉发现 |
| 2026-02-19 | 金融RAG的幻觉难题:用原子知识单元让模型"说实话" |
| 2026-02-19 | MiniCPM-SALA:让Transformer在百万token下跑起来 |
| 2026-02-19 | 别再给AI助理写死记忆规则了:MemSkill让智能体自己学会怎么记 |
| 2026-02-19 | 当Agent遇到"上下文腐烂":LOCA-bench揭示长上下文的真相 |
| 2026-02-19 | InternAgent-1.5:让AI真正成为科学家——自主科学发现的统一智能体框架 |
| 2026-02-19 | 让大模型学会"教人做事":How2Everything从98万网页中挖出35万份操作指南 |
| 2026-02-19 | GISA:当最好的AI搜索助手也只有19%准确率 |
| 2026-02-19 | 体验式强化学习:让模型学会"吃一堑长一智" |
| 2026-02-19 | Dr. MAS:给多智能体LLM系统开一剂"镇静药"——稳定强化学习的理论与实践 |
| 2026-02-19 | 给大模型一本参考书,它反而考得更差了?DeR2揭示RAG推理的致命盲区 |
| 2026-02-19 | 把简单题"拼"成难题:Composition-RL 如何让大模型越练越聪明 |
| 2026-02-19 | Chain of Mindset:让AI学会像人一样"切换脑回路" |
| 2026-02-19 | Agent World Model:给智能体造一个"矩阵世界"——无限合成环境驱动的强化学习 |
| 2026-02-18 | SkillRL:让AI智能体学会"练功升级"的递归技能强化学习框架 |
| 2026-02-07 | 你的多智能体系统是"真协作"还是"真烧钱"?一个指标帮你看清真相 |
| 2026-02-03 | AI Agent 的分身术:深度解析 OpenClaw 子代理系统设计 |
| 2026-02-03 | OpenClaw Cron 深度解读:让 AI Agent 学会自主定时工作 |
| 2026-02-03 | 扒开 Claude Code 的底裤:为什么你的 AI Agent 总是半途而废? |
| 2026-02-03 | AgentScope 深度解读:多智能体开发框架的工程化实践 |
| 2026-01-26 | Zep:时间知识图谱驱动的智能体记忆架构——让 AI 真正"记住"你 |
| 2026-01-25 | Voyager:让 GPT-4 在《我的世界》里自主探索、终身学习 |
| 2026-01-25 | Plan-and-Act:让AI智能体学会"先想后做" |
| 2026-01-25 | A-Mem:让LLM智能体拥有"会思考"的记忆系统 |