HeavySkill 论文解读重思考即智能体内化技能 - AI Paper Analysis

AI Paper Analysis

首页

按主题

Agent 智能体 (90)
强化学习 (77)
RAG 检索增强 (17)
推理与思维链 (37)
记忆系统 (24)
评估与基准 (44)
模型架构与训练 (37)
AI 科研 (12)
工程实践与 Coding Agent (22)
其他 (4)

2026 年 6 月

AutoLab：把模型扔进 12 小时的"科研闭环"，看谁还能坚持下去
给 reward hacking 装上一面"放大镜"：rubric-based RL 的可控复现环境
先把烂轨迹扔了，再给好 token 加权——FiRe-OPD 把 OPD 的优化粒度重新做了一遍
你的多模态大模型，其实根本"不会记"——M³Eval 用认知心理学把视频记忆这件事彻底拆开
MMG2Skill：把网上现成的多模态攻略，喂成 Agent 自我进化的技能包
MemTrain：不靠下游标注，光啃维基百科就把"记忆代理"训出来了
ThoughtFold：让推理模型把"想得太多"的废话自己折叠掉
自动 harness 在线上部署越跑越烂？这篇论文把"进化"和"适应"两个损失彻底拆开了
答案已经对了，模型却还在絮叨——这段"多说的"才是 SFT 数据真正的毒
KVarN：方差归一化让 2-bit KV 缓存扛住长链推理
多域RL训练完Math就忘？这篇论文给出了"局部扰动"层面的解释
教师不给 logit 也能搞 on-policy 蒸馏？OmniOPD 用 chunk 级语义投票把 Claude/Gemini 拉进了蒸馏管线
让大模型也学会"睡一觉"：Google 把 NREM 和 REM 直接搬进了 LLM 训练协议
TrOPD 论文解读信任区域在线策略蒸馏
Draft-OPD：让推测解码的草稿模型，从"自己犯的错"里学习
RL 训练时模型已经走错了，还非要让它写完 8192 个 token？阿里 Tongyi Lab 这篇 ESPO 把失败 rollout 提前掐了
Harness-1：把"思考过程"写到外面去——一个 20B 搜索智能体如何打过 Opus 和 GPT-5
让 Agent 自己长记忆：用代码覆盖率当奖励，把"探索"和"记住"绑在一起训
观测掩码不是免费午餐：搜索智能体的 Regime Map 与机制拆解
PEFT 不只是省钱的小补丁——它能撑起百万级人格模型
失败一整条轨迹，到底该怪哪一步？SkillAdaptor 用步级归因把 Agent 的技能库改对了
让 AI 自己当数据工程师：从零自主策划训练数据，把学生模型涨了 57.29%
把一个"懂事的同事"打包成 Skill：从异构痕迹蒸馏可检查、可修正、可回滚的 AI 技能
GrepSeek：让搜索智能体扔掉向量索引，直接用 grep 翻语料
Harness 更新 ≠ Harness 受益：把自进化 Agent 的两种能力彻底拆开
长上下文 RL 训练数据该怎么造？让搜索 Agent 帮你筛干扰项
SAAS：让 Agent 学会"我自己其实知道"——用自感知 RL 治理过度搜索
不要再卷神经验证器了：用维基百科"共现次数"当奖励，事实问答RL训练快 8 倍
3%的注意力头，扛起了LLM整个演绎推理过程——一篇可解释性论文的硬核拆解
ROSD：让自蒸馏去"改错"，而不是去"抄答案"
让 8B 小模型学会"我不知道"：TIAR 用 GRPO 轨迹给弃权 reward 动态加权

2026 年 5 月

进化搜索的算力分配重构：从深度-广度到多臂老虎机
两万真实会话揭示 Coding Agent 七大失配模式：开发者-Agent 错位的大规模实证
Entity-Collision：把 Agent 记忆系统的检索增益拆开归因
Focal Reward：当 RL 把"容易拿分的维度"刷爆了，剩下的硬骨头怎么办
TCP-MCP：把多 Agent 系统的 prompt 和拓扑当作"基因组"一起进化
Agent训练越练越爱乱调工具？这篇论文让模型自己学会"什么时候该闭嘴查工具"
当AI智能体学会"一心多用"：AsyncTool揭示大模型异步工具调用的真实水平
BES：别只让模型往前猜，倒着拆目标再重组答案
你以为在测 CoT 忠实度？这篇论文说现有指标基本都接近瞎猜
并行推理别再各想各的：CPT 让多条思维链学会“共享情报”
多奖励 RL 训练崩了？阿里云这篇 DVAO 给了 GRPO 一个真正干净的多目标解
别总找更强老师了，让推理模型从错误里爬出来
把"40000层迭代"写成吸引子收敛：CMU 团队让 5M 小模型在 Sudoku-Extreme 上从 2.6% 干到 99.8%
FluxMem：当智能体的记忆不再是"死档案"，而是一张活着的网
HINT-SD：长程 Agent 训练里，"在哪里反馈"比"反馈多稠密"更值钱
用合成数据喂出来的终端智能体，凭什么只用 1 万条轨迹就能打平 50 万条的效果？
搜索智能体的皇帝新衣：它们真的在搜索，还是在用Google验证自己的记忆？
MUSE-Autoskill：把 Agent 技能从"一次性产物"管成"有生命周期的资产"
MemForest：当 Agent 的"记忆"被当成数据库问题来做，写吞吐量直接 6 倍
LLM 记忆系统也会“甩锅”：MemTrace 把错误追到具体操作
LoRA 到底能记住多少东西？一个优雅的幂律定律告诉你答案
该不该把这条会话存进 Agent 记忆？这篇论文说：先看是哪个用户
Agent的"空闲时间"被浪费了——ProAct想用它干点正事
8K 条合成任务，把开源深度研究 Agent 拉到闭源水平 —— QUEST 论文细读
长程智能体不是缺上下文，而是缺会翻旧账的记忆
单向量 Embedding 模型其实"早就会"多向量检索——SMART 把被压扁的隐藏状态用起来了
技能到底该"记住"还是"带着"？Skill0.5 给出了一个折中但有效的答案
25% 的 Agent 技能其实在帮倒忙：一篇把"技能生命周期"拆到底的系统研究
把 Agent 的 Skill 当参数来训：SkillOpt 让一个 Markdown 文件涨 23 个点
别只盯着最终答案：Agent 幻觉真正危险的地方在轨迹里
密集检索凭什么给高分？Xetrieval 用稀疏特征把黑箱掰开了
多Agent投票投出个寂寞？这篇AAAI 2026把冷战时期的情报学方法搬了进来
CoT-SAE 论文解读：用稀疏自编码器看穿"思维链是否真在思考"
长篇小说推理卡壳怎么办？ComoRAG 让 RAG 学会"想到一半再去翻书"
给投机解码的草稿模型加一个"耳麦"：从验证器隐藏态算 steering 向量，接受 token 数最多多 35 个百分点
给Claude 3.7一个GitHub仓库让它干活，54个真实任务它只做对了48%
LogicRAG：把图谱从离线建变成推理时即时拼，GraphRAG 这条路是不是走偏了
RAG-R1：让模型自己决定要搜几次，把 RAG 从串行链改成自适应多查询并行
RALM 真的"知道自己不知道"吗？AAAI 2026 揭开检索增强模型的过度拒答陷阱
Reasoning-SAE 论文解读：用稀疏自编码器抓住 DeepSeek-R1 的"思考时刻"
KV Cache 还能再砍一刀：SparK 在通道维度上做了一件被忽略多年的事
当 RAG 检索到的内容跟模型脑子里的"记忆"打起来——AAAI 2026 这篇用信息瓶颈给出了一个有理论支撑的解法
ToolACE-R：让模型自己决定训练吃什么、推理时改几遍
别再只看准确率了：用认知负荷理论给工具智能体画一张"能力边界图"
TransMamba：把 Transformer 和 Mamba 塞进同一套参数里，按 token 长度自由切换
Conformal CPO：把保形预测嵌入 LLM Agent 编排策略，可证明可靠性 + 30% 成本节省
DEPO：把"少 token + 少步骤"同时塞进 KTO 的偏好优化
一个 query 写五份草稿、互评后再选最好的那一条去更新——DRAFT-RL 把 RL 训练里的"独白"改成了"群聊"
DeCoRL：把推理链拆成"乐团合奏"——AAAI 2026 一篇把 RLHF 推到 32B 打 GPT-4o 的工作
GenPRM：让 1.5B 的过程奖励模型，靠"边写边推理边跑代码"打赢 GPT-4o
LLMdoctor：用小模型 doctor 在 token 级别给冻结的 patient 大模型做"对齐处方"
Latent Reasoning Refinement：在不训练任何参数的前提下，给 Coconut 套一层"心理调节器"
Length Bias Causal 论文解读：用因果反事实拆掉 RLHF 奖励模型的"啰嗦偏好"
MEML-GRPO 论文解读：异构多专家互学习破解 RLVR 的奖励稀疏
PPPO 论文解读：前缀决定推理，RLVR 只优化开头就够了
用数学训出来的 PRM，跑到代码任务上还能涨 4 个点——这事让我对"PRM 是不是被高估了"重新想了一遍
SubGCache 论文解读：子图级 KV 缓存把图谱 RAG 推理首字延迟砍到原来的 1/6
UnPRM：用"不确定性"省 60% PRM 标注成本，再回头修一遍多数投票
Agent 轨迹的"监督盲区"：把多轮工具调用编译成长上下文训练数据，30B 干到 235B
ActGuide-RL：把 SFT 冷启动换成"动作引导"的智能体 RL 新范式
教蒸馏教师"少看一点"，反而学生学得更好——LLM 推理自蒸馏的一个隐藏旋钮
AstraFlow：把Agentic RL训练系统拆开重写，2.7×加速背后是一套被忽视的抽象
长前缀的第三条路：把注意力"提前算好存起来"，推理时直接查表
论文不再线性跑流水线：AutoResearchClaw 用辩论、自愈和跨次进化把 AI 科学家推上一个台阶
答对了题，却抄错了出处——CiteVQA 把多模态大模型的"归因幻觉"摆上了台面
42 位作者联手发声：代码不再只是 Agent 的"输出"，而是它赖以生存的"操作系统"
三个推理模型轮流接力解一道题，蒸出来的学生反超老师
2011 年的 DAgger 被搬回来训 SWE 智能体，4B 模型干翻一票 8B 系统
EndPrompt：短序列也能撑起 64K——给 LLM 长上下文塞一个"终点路标"
EnvFactory：85 个环境如何打掉 500+ 的工具调用 RL 数据工厂
EvolveMem：让 Agent 的记忆系统自己改自己的检索配置
全注意力的反击：百步训练把稠密注意力"翻译"成稀疏，1M 上下文 prefill 提速 9.36 倍
30B 小模型拿 IMO 金牌：SU-01 把"会做题"和"会证明"拆开来打
HAGE：让 Agent 的记忆图自己学会该走哪条边
把 Agent 的"技能"从文本提示升级成可执行护栏：HASP 框架到底解决了什么
工业质检领域的 MLLM 卡在哪了？这篇论文给了一个把工具调用塞进 RL 的解法
OPD 为什么这么快？腾讯混元从参数动力学给了一个让人服气的答案
给Agent记忆系统泼一盆冷水：长时程多目标干扰下，所有主流方案平均只有27.9%
把 7B 视觉语言模型从 32K 拉到 128K，他们只花了 50 亿 token——还顺便外推到了 512K
当 Prompt 优化器在 6 个任务里 4 个原地踏步：MOCHA 用切比雪夫退火给 Agent 技能找出路
Many-Shot CoT-ICL：把上下文窗口当课程表来排，几何任务直接拉高 5.42 个点
MetaAgent-X：让设计器和执行器一起进化，自动 MAS 的天花板被端到端 RL 撞穿了
一篇综述把多智能体的"协作—归因—自演化"串成一条因果链：LIFE 框架的意义
用策略提示把模型推出舒适区：NudgeRL 让 8 个 rollout 跑赢 64 个
给智能体一张"地图"：PEEK 把长上下文里反复重学的那部分缓存了下来
当模型已经"想明白"了还在絮叨——这篇论文教你怎么让它闭嘴
π-Bench：当 AI 助理被要求"猜你想说但没说的话"，9 个旗舰模型集体翻车
把多跳 RAG 写成一段 Python 程序：当推理过程从"自由发挥"变成"编译器说话"
RLVR 训练只跑前 15% 步，剩下的可以"算"出来——一篇让我重新审视 RL 训练动力学的论文
Attention 自己就是检索器：NVIDIA 把外挂 retriever 拆了，多跳 QA 反而更强
SDAR：让每个 token 自己决定蒸馏强度——多轮 Agent RL 的一次"非对称信任"修补
LLM 智能体的记忆「悄悄过期」问题：最强模型也只能拿 55 分
SkillsVote：当智能体技能库长到百万级，怎么不让它把Agent带歪？
Solvita：四智能体闭环 + 可训练知识网络，让大模型在 Codeforces 打到 Legendary Grandmaster
大模型工具调用的"知行差距"：它知道该调用工具，但就是不动手
不要任何人工标注，PRM 也能训出来——EPFL 这套 uPRM 把"+/-"两个 token 玩出花了
不要再给Agent硬塞PRM了：百度这篇AEM用一个"熵的呼吸节奏"把信用分配做了
ARIS：当你怀疑 AI 在"看起来很对"地胡说八道——上海交大开源的跨模型对抗科研 Harness
多跳RAG总在桥接事实上栽跟头：NYU这套AdaGATE把证据装配当成了"修补题"
Agentic Architect：让 LLM 帮你"进化"出 CPU 微架构——预取器跑赢 SMS 21%
把"提想法-写代码-跑实验-改下一版"整个交给Agent：CMU这篇把ML自动研究跑成了一条可审计的轨迹
BRIGHT-Pro 与 RTriever：把"推理密集型检索"从静态榜单拉回 Deep Research 真实战场
Claw-Eval-Live：连 Opus 都过不了 70%，工作流 Agent 离"自动化"还差一个数量级
Ctx2Skill：让模型读完一份文档就"自己出题考自己"——无反馈下的 skill 自演化
扔掉向量库，让 Agent 直接 grep 原始语料库——一篇打破检索神话的论文
δ-mem：一个 8×8 的矩阵，能给 LLM 当"长期记忆"吗？
Eywa：当 LLM 不再"什么都自己来"，让科学基础模型上桌一起聊
Fast-Slow Training：让 LLM 的"参数"和"上下文"一起学
Faithful Uncertainty：把"幻觉"重新定义为"自信地说错"——Google 在告诉你下一步该怎么走
当 LLM 不断"总结过去的经验"，记忆反而变坏：Agentic Memory 的隐性陷阱
当工具库膨胀到4万个，Agent该怎么"找工具"？UCLA这篇FitText把检索塞进了推理循环
G-Zero：开放域任务里，没有 verifier 也能跑出 self-play 的奇迹？
HeavySkill 论文解读重思考即智能体内化技能
LPO：把 GRPO 的"隐式投影"翻到台面上——RLVR 的几何统一视角
LenVM：把"还剩多少 token"建模成 value——给 LLM 装上了一个 token 级长度刻度尺
往 Prompt 前面拼一段 Lorem 乱码，GRPO 居然就训出来了——LoPE 是怎么靠"废话"破开零优势困境的
NanoResearch：研究自动化跑得起来不算赢，跑出"你这个研究员要的东西"才算赢
多智能体 LLM 的 RL 该往哪走？这篇 84 篇综述把"编排轨迹"作为新单元
Ψ-RAG：把 Tree-RAG 从"单文档玩具"推到"语料库级跨文档多跳"——比 RAPTOR 强 25.9%、比 HippoRAG 2 强 7.4%
RubricEM：当 Deep Research Agent 没有 ground truth，RL 还怎么训？
S2G-RAG：让 RAG 学会回答"我到底还差什么"——HotpotQA 上 F1 暴涨 13 个点
SEIF：让模型自己出题考自己——指令跟随能力的自演化训练
SLIM：Agent 的"技能仓库"不应该一味变大或变小——技能要有生命周期
SSL：把 SKILL.md 拆成三层结构化图谱——技能检索 MRR 涨 8 个点、风险评估 F1 涨 10 个点
Skill1：用一个奖励信号，把 Agent 的"选、用、攒"三件事一起练出来
SkillOS：与其训练 Agent 自己变强，不如训练一个专门管"技能库"的小模型
让 Agent 先「想清楚再动手」：StraTA 给长程 Agent RL 加上一层策略抽象
TMAS：当并行多路推理不够用，怎么让多 Agent 真正"协同"起来？
ThinC：让模型用代码"思考"，而不是用代码"验证"
UniPrefill：当稀疏注意力遇到混合架构，长上下文 Prefill 该怎么加速？
UniSD：不靠"更强的老师"，LLM 能不能自己教自己变强？
Web2BigTable：用 GPT-5 mini + Gemini 3 Flash 干翻 GPT-5 High——双层 Agent + 自演化 skill bank 把 SR 拉到 7.5 倍
多目标文本生成里，权重别再手写：AW-GRPO 把 GRPO 从「偏科」拉回正轨
三套 Prompt 互相甩锅，怎么调？三星 × GMU 把记忆 Agent 的 APO 做成可落地闭环
CODI：让模型把思维链"塞"进连续空间，6 个隐向量顶 20 个 token
CodeRAG：把"检索什么"和"重排什么"都想清楚——仓库级代码补全的一次系统性重做
别让模型「想太多」：中国联通团队把推理长度做成难度自适应——DAST 论文精读
决策和执行拆开训：一篇把 Agentic RAG 写成 MDP、再用剪枝把数据造快 6 倍的工业界论文
把 RL Agent 直接扔进真实互联网：DeepResearcher 撕开了 RAG 训练的舒适区
好过程无需好答案：把 Agent 的规划和总结拆开训，工业 RL 才走得通
GRPO-LEAD：让推理模型说人话——给 GRPO 加上长度、罚分和难度三味药
训RAG Agent老犯"搜了又搜"和"乱搜一气"两个毛病？LeTS给出了一个不靠人工标注的解法
让模型"故意答错"，反而把验证器训得更准——逻辑推理上的 ORM + Test-Time Scaling 实验
不动模型、没有标签，让 Agent 在测试时把准确率干到 93.94%——EMNLP 2025 这篇 Schema Mapping 论文挺有意思
AWS 这篇论文让 LLM Agent 的记忆"自己长出索引"，RAG Recall 暴涨 34%
NOVER：把 R1-Zero 的"激励训练"从数学题搬到任意文本任务，靠的不是更大的 verifier，而是一个 perplexity
代码生成里 Process Reward 第一次被认真验证：PRLCoder 把"行级别"奖励喂给 PPO，难题 Pass@80 涨了 9.6 个点
PPO 不是 RLHF 的最优解：Google 跑了 3500 次实验、烧了 30000 TPU 小时给出最终排名
让奖励模型先"想清楚"再打分：R-PRM 把 PRM 从打分器升级成推理者
RethinkMCTS：让MCTS会"反省"，把走歪的思路改对再继续搜代码
Agent别再"想都不想就动手"了：SAND教大模型先在脑子里把候选动作走一遍
把 Reward Model 拆成五个"专科医生"——SRM 用工程套路在 RM 上又榨了 8 个点
让 o1 学会自己上网查资料：Search-o1 给大推理模型补上的那块知识短板
部署即固化的Agent，怎么在线学新规则？ARIA给了一个能落地的答案
Think-Search-Patch：让 7B-14B 模型把仓库级 bug 修出 GPT-4 三倍的命中率
TokenSelect：把 KV Cache 的"块级粗筛"砸碎到 Token 级，128K→1M 上下文加速 23.84 倍
TurboRAG：把RAG的Prefill搬到离线，TTFT直接快9.4倍
WebAgent-R1：8B小模型在网页操作上把o3拉下马，多轮RL把分从8.5%硬拉到44.8%
让 Web Agent 自学不停滞——WebEvolver 用一个共演化世界模型撑起多步 Look-Ahead
iTool：合成数据加越多越没用？哈工大+华为用 MCTS 找出"那一小片错"，8B 反超 GPT-4o

2026 年 4 月

Agent 当裁判光看 Trajectory 不够，它得自己去环境里查证 —— AJ-Bench 论文解读
Agent-World：当智能体训练终于不用再"假装"在跟世界打交道
AgentSPEX：当 Agent 框架开始把"控制流"从 Python 里抠出来
AgentSearchBench：在 1 万个真实 Agent 里挑一个能干活的，到底有多难？
异质任务下的记忆提取：为什么单一Prompt就是搞不定，得"先聚类再演化"
DR-Venus：4B 小模型靠 1 万条开源数据，把 Deep Research 干到 9B 全员碾压
你的检索器其实在"假装"听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA
GFT：把 SFT 当成"极度稀疏奖励 + 不稳定重要性权重"的 RL 重做一遍
强LLM不一定是好"优化器"：决定胜负的不是参数量，而是"局部精修"的能力
Memanto：当所有人都在堆图谱时，他们用一颗朴素的向量索引把SOTA又拿回来了
Too Correct to Learn：当模型"答得太对"时，GRPO反而学不动了
NPO：让"未来的自己"教会"现在的自己"，RLVR走出Q/V困局
Agent Coding 测试时算力怎么花？Meta 给出了一个反直觉的答案：先做"摘要"再做"选拔"
8个样本就能涨32个点？RLVR的"奇迹"为什么换到Llama身上就不复现了
上下文永远不够用：SLIDERS 把长文档问答从"读完所有 token"换成"查数据库"
ShadowPEFT：把 LoRA 的"分散低秩"换成共享影子网络，顺便让 PEFT 模块可拆可装
SimpleTES：用开源 gpt-oss 把 LASSO 提速 2 倍、量子门数砍掉 24.5%——靠的不是更强的模型，而是更多的"评估"
给Agent装"持续学习"开关：写技能容易，修技能难——SkillFlow揭开11个前沿模型的真实差距
终端Agent的"上下文垃圾场"清理工：TACO 用一个不停进化的规则池替代手写 prompt
测试时训练为什么总崩？TEMPO 用 EM 把缺失的那一步补回来
撕掉"自进化"的伪装：让Agent在没人喂奖励的时候，自己摸清楚一个陌生世界
DeepSeek-V4 技术报告精读：1.6T 参数、49B 激活、1M 上下文，开源模型的"算力性价比"被重新定义
AgentSwing：长时Web Agent的上下文管理，为什么"一条路走到黑"行不通
AggAgent：把并行轨迹当环境来交互，智能体聚合的新范式
AiScientist：扔掉对话接力棒，用文件总线撑起23小时自主科研
当最强Agent也只能做对45%的任务：CocoaBench揭开统一数字智能体的真实水平
CodeTracer：给AI代码智能体装上"黑匣子"，故障追溯一步到位
从推理到智能体：LLM强化学习中的信用分配，到底难在哪？
你以为你在用不同的数据集训练模型？谱系图告诉你：它们都是同一棵树上的枝条
LM Agent的探索和利用居然可以被量化，而且探索才是命门
GraSP：给Agent的技能加上因果图，多了反而更行
对话AI的记忆困境：什么时候该记，什么时候该忘？
KnowRL：给RL训练开一份"最小处方"，1.5B模型数学推理直逼7B水平
LLM能从零重新发明基础算法吗？遗忘后再发明，最强模型成功率90%
30 GPU小时训出AIME 69.9%：Lightning OPD把在线蒸馏搬到了离线
记忆增强的动态奖励塑形：MEDS如何让LLM不再"重蹈覆辙"
Coding Agent的记忆能跨域迁移吗？这篇论文给出了让人信服的答案
Reasoning Graphs：让RAG Agent不再"翻车"的证据图谱
OPD不是万能药：大模型在线策略蒸馏什么时候能work，什么时候一定崩
SPPO：别再逼Critic逐token猜了——序列级建模一招解决长链推理信用分配
当AI编码Agent被"焊死"在产品里，怎么把它的核心引擎拆出来？
TPO：把"该学什么"和"怎么学"拆开，梯度自己知道什么时候停
让Agent自动调模型：TREX用搜索树把LLM微调做成了下棋
$p1$：用2道题训练出的系统提示，凭什么碾压全量数据？
Anthropic Managed Agents: 把"脑"和"手"拆开，Agent 基础设施才算真正成熟
ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗？
Agent的技能库看起来很美好，但真用起来呢？这篇论文给出了残酷的答案
CORAL：当多个 AI Agent 学会自己搞进化，效率碾压传统搜索 3-10 倍
你的AI助手会"翻旧账"吗？ClawArena告诉你，绝大多数Agent在信息变化面前一塌糊涂
Claw-Eval: 你以为你的 Agent 很安全？44% 的安全违规被漏检了
FileGram：让AI助手"记住"你怎么管文件，而不只是记住你说了什么
AI打比赛，连续三场第一名碾压所有人类选手——GrandCode做对了什么？
检索模型该为谁训练？当搜索的用户从人变成了AI Agent
LightThinker++：让大模型学会"记笔记"，推理token砍掉70%还能涨点
一个7B模型怎么干翻32B？这篇论文把Agent的记忆系统玩明白了
不调模型调"脚手架"：斯坦福 Meta-Harness 让AI自动优化LLM外围代码，效果炸裂
找论文这件事，是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架
RLSD：当自蒸馏遇上RLVR，token级信用分配的一次漂亮融合
GRPO 和自蒸馏都不够好？这篇论文用样本路由把两者粘在一起，还真work了
让代码模型学会"脑内编译"：不执行代码也能验证对错？
训练时把技能"喂"进参数里，推理时不带小抄也能满分——Skill0的技能内化之路
SkillX：让 Agent 学会"传帮带"，自动构建可复用的技能知识库
用2B小模型给Coding Agent的工具输出"挤水分"：砍掉92%的token，召回率反而更高
Chinchilla 法则过时了？当推理预算纳入考量，过度训练小模型才是最优解
推理模型其实是"先决定，再编理由"？这篇论文用探针抓了个现行
ThinkTwice: 让模型学会"做完题再检查一遍"，推理+自纠错联合训练只加3%开销
不看Attention分数也能压缩KV Cache？TriAttention用三角函数找到了捷径
AI写的论文到底有多少幻觉？东京大学提出首个系统评估框架PaperRecon
推理偷工减料？上下文是如何悄悄"缩短"大模型思考过程的
30行代码，就是一个完整的AI Agent——Claude Code源码精读（一）
上下文撑破之前，Claude Code 如何"清理记忆"——源码精读（二）
从一个Agent到一支团队：Claude Code多Agent协作架构全解——源码精读（三）
AI能自主做临床科研了吗？港中文&斯坦福联手造出第一个医学AI科学家
TurboQuant：用 3-bit 把 KV Cache 压 6 倍，Google 给内存芯片上了一课

2026 年 3 月

AI Agent做数据科学，排名不如一半的人类团队：AgentDS竞赛的冷水与启示
BEAVER：不用训练也能把12万token压到3000，还比LLMLingua快26倍？
7B小模型吊打GPT-5？CarePilot用Actor-Critic范式攻克医疗软件自动化
当AI学会自己搞安全研究：Claude自主发现的攻击算法，把30多种人类方法全干趴了
Cursor 自研 Composer 2：1万亿参数 MoE + 强化学习，编程 Agent 性能暴涨 61%
用λ演算驯服LLM的递归：8B小模型干到70B的表现
8B小模型干翻GPT-4o？用"信息不对称"让LLM自己查自己的幻觉
一次推理输出多个答案：MIT用强化学习打破LLM的"熵坍缩"困局
LLM能学会合作还是学会作弊？社会困境博弈中的策略生成与奖励黑客
自蒸馏让大模型变"自信"了，推理能力却崩了——不确定性才是推理的命脉
当知识图谱变成"黑箱"：BubbleRAG 用气泡膨胀算法让 Graph RAG 的召回率和精准率同时起飞
4B 小模型击败 GPT-5：Learning to Self-Evolve 用强化学习教会 LLM 在测试时自我进化
让LLM智能体像人脑一样从经验中共同进化：Complementary RL 如何用双系统协同打破样本效率瓶颈
不改模型参数，准确率翻倍：Memento-Skills 让 Agent 自己设计 Agent
MetaClaw：让 AI 智能体"边干边学"——双时间尺度持续进化框架
MiroThinker-1.7 & H1：搜索 Agent 的天花板不在"搜得多"，而在"每步都靠谱"
部署不是终点，而是学习的起点：微软提出 OEL 框架，让大模型从真实交互中持续进化
递归不是长上下文的解药，自反思才是：SRLM 用不确定性信号让 LLM 超越 RLM 22%
blocks: 历史 block 表示 [b0, b1, ..., b(n-1)]
从零搭一个 AI Agent 框架，到底需要理解什么？
OpenSWE 论文解读：147 万美元打造最大开源 SWE 训练环境，45k Docker 环境助力代码 Agent 登顶 SWE-bench
OpenSeeker：首个完全开源训练数据的搜索 Agent，单次 SFT 逆袭复杂工业管线
ReAct：让大模型学会"边想边干"的智能体范式
EvoScientist：让AI科学家学会"长记性"——多智能体进化框架如何实现端到端科研自动化
Agent Teams 深度解读：从 Claude Code 到多智能体协作的技术全景
🔬 Autoresearch 深度解读：Karpathy 的"AI 自主科研"到底有没有戏？
Claude Code 玩法大全：从入门到上瘾的终极指南
Harness Engineering 深度解读：AI Agent 时代的「缰绳与马鞍」
不需要SFT，仅靠上下文强化学习就能教会LLM使用工具
IndexCache：跨层索引复用，让稀疏注意力推理再快一倍
OpenClaw-RL 论文解读：用"下一状态信号"统一所有智能体的强化学习训练
OpenClaw 刷屏了，但 90% 的人没看懂它真正在做什么
💥 别再死磕 Prompt 和 Workflow 了！DeepSeek-R1 引爆的 Agent 端到端强化学习革命
你以为大模型在"思考"？其实它只是在努力"回忆"
强化学习到底给大模型带来了什么？从 Search Agent 实战到三篇顶会论文的交叉验证
🎯 用模拟器"养"出一个能打的搜索Agent：8B小模型如何在无限上下文下学会推理、追问与规划
当AI学会"欺骗"裁判：推理型LLM评判员的双刃剑效应
图像编辑也能"看菜下饭"：ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍
BeyondSWE 论文解读：当前代码智能体能否超越单仓库修 Bug？
9K条数据训4B模型，逼近DeepSeek-R1？CHIMERA用合成数据破解推理冷启动难题
4B小模型干翻70B？CoVe用约束验证让工具调用Agent数据效率提升18倍
Legal RAG Bench：当检索拖了后腿，大模型再聪明也白搭
MemSifter：用4B小模型给大模型当"记忆管家"，检索又快又准
广度看偏好、深度看对错——Mix-GRM用8B模型打败一众开源奖励模型
PRISM：用过程奖励模型为DeepThink系统装上"导航仪"
Qwen3-Coder-Next：80B参数只激活3B，如何用"小代价"训出最强编程智能体
SciDER：当AI学会从原始数据开始做科研，GPT-5也得靠边站
UniG2U-Bench 论文解读：统一多模态模型真的提升了视觉理解吗？
EMPO²：让LLM智能体学会"记笔记+开卷考"的强化学习框架
OmniGAIA：迈向原生全模态AI智能体——基准测试与基础模型的全面突破
当 AI 研究员学会了"搜索"，搜索引擎该怎么配合？——深度研究中的文本排序再审视
Tool-R0：零数据也能训出工具调用高手——自进化LLM Agent的破局之路

2026 年 2 月

AD-Bench：当LLM Agent遇上真实广告投放，最强模型也只能拿69分
腾讯广告的RAG实战：如何用强化学习干掉92.7%的URL幻觉？
GPT-5.1 也只拿了 69 分？妙问团队三篇论文揭秘：大模型在真实业务中翻车的真相与破局之道
Search-P1：让AI搜索代理从"只看结果"到"关注过程"的训练革命
给Agent装上"大脑"有多难？一篇Survey揭示了智能体记忆系统的残酷现实
Avey-B：抛弃注意力机制，用"分拣员+处理器"重新定义双向编码器
DSDR：让推理模型别再"一条路走到黑"——双尺度多样性正则化探索框架
当AI客服犯了错，怎么在不动系统的情况下"洗脑"它纠正？——ReIn: 对话错误恢复的推理植入
SAGE：你的推理模型其实知道何时该停下来，只是你没让它说
SkillOrchestra：用"技能手册"取代强化学习，让AI智能体调度又好又省
扩散语言模型也能当搜索代理？DLLM-Searcher用"边想边搜"的并行范式干掉了自回归模型
DeepImageSearch：当图像检索需要"侦探式推理"，现有AI还差多远？
GLM-5：当大模型学会"自己写代码"，从Vibe Coding到Agentic Engineering的跨越
当RAG遇上知识图谱：一个让LLM"开卷考试也翻车"的新基准
InnoEval：当AI也组了一个"评审委员会"，它比人类审稿人更靠谱吗？
MemFly：当智能体的记忆学会了"断舍离"——信息瓶颈驱动的即时记忆优化
Nanbeige4.1-3B：3B 参数的"六边形战士"是怎么炼成的
30B参数的搜索代理，凭什么在BrowseComp上和GPT-o3掰手腕？拆解REDSearcher的三段式训练框架
给大模型装一台"事实核查显微镜"：RLFKV 如何用细粒度知识验证治愈金融 RAG 幻觉
ResearchGym：当最强AI被扔进真实科研战场，它们交出了怎样的答卷？
TAROT：测试驱动 + 能力自适应课程，让代码强化微调"因材施教"
当RAG的"压缩包"爆了：如何检测Token溢出？
Agent World Model：给智能体造一个"矩阵世界"——无限合成环境驱动的强化学习
Chain of Mindset：让AI学会像人一样"切换脑回路"
把简单题"拼"成难题：Composition-RL 如何让大模型越练越聪明
给大模型一本参考书，它反而考得更差了？DeR2揭示RAG推理的致命盲区
Dr. MAS：给多智能体LLM系统开一剂"镇静药"——稳定强化学习的理论与实践
体验式强化学习：让模型学会"吃一堑长一智"
GISA：当最好的AI搜索助手也只有19%准确率
让大模型学会"教人做事"：How2Everything从98万网页中挖出35万份操作指南
InternAgent-1.5：让AI真正成为科学家——自主科学发现的统一智能体框架
当Agent遇到"上下文腐烂"：LOCA-bench揭示长上下文的真相
别再给AI助理写死记忆规则了：MemSkill让智能体自己学会怎么记
MiniCPM-SALA：让Transformer在百万token下跑起来
金融RAG的幻觉难题：用原子知识单元让模型"说实话"
当AI学会"搜论文"，传统搜索算法反而赢了？——SAGE基准测试揭示的反直觉发现
冥想盆范式：让大模型学会管理自己的上下文
SkillRL：让AI智能体学会"练功升级"的递归技能强化学习框架
你的多智能体系统是"真协作"还是"真烧钱"？一个指标帮你看清真相
AgentScope 深度解读：多智能体开发框架的工程化实践
扒开 Claude Code 的底裤：为什么你的 AI Agent 总是半途而废？
OpenClaw Cron 深度解读：让 AI Agent 学会自主定时工作
AI Agent 的分身术：深度解析 OpenClaw 子代理系统设计

2026 年 1 月

Zep：时间知识图谱驱动的智能体记忆架构——让 AI 真正"记住"你
A-Mem：让LLM智能体拥有"会思考"的记忆系统
Plan-and-Act：让AI智能体学会"先想后做"
Voyager：让 GPT-4 在《我的世界》里自主探索、终身学习

AI Paper Analysis

2026 年 5 月
HeavySkill 论文解读重思考即智能体内化技能
在shibing624/ai-paper-analysis上编辑

上一章下一章

上一章下一章

用MkDocs构建，使用Read the Docs提供的主题。

shibing624/ai-paper-analysis « 上一章下一章 »