AI Paper Analysis

AI 相关论文深度解读，每天中文解读前沿学术论文，涵盖 LLM、Agent、RAG、RL 等方向。

📖 在线阅读（推荐，国内免梯子）：https://ai-paper-analysis.pages.dev/ 备用 GitHub Pages 镜像：https://shibing624.github.io/ai-paper-analysis/

文章列表

日期	文章
2026-04-29	Agent-World：可扩展真实环境合成与自演化智能体训练
2026-04-29	AgenticWorldModel：L1L2L3能力分层与四类世界规律
2026-04-29	AgentSearchBench：执行驱动的智能体搜索评测
2026-04-29	AgentSPEX：YAML声明式Agent工作流与可执行规约
2026-04-29	AJBench：Agent判官需要工具与环境
2026-04-29	CluE：异质任务下的记忆提取自演化
2026-04-29	DR-Venus：4B小模型靠1万条数据冲到Deep Research前沿
2026-04-29	DualView：指令检索的极性反转训练
2026-04-29	GFT：把SFT当稀疏奖励RL重做
2026-04-29	GoodLLMOptimizer：LLM作为进化搜索算子的局部精修机制
2026-04-29	Memanto：反图谱的Agent记忆与信息论检索
2026-04-29	MixedCUTS：饱和数据上GRPO的崩塌与破解
2026-04-29	NPO：RLVR用未来自己当老师
2026-04-29	PDR-RTV：Agentic Coding的测试时算力扩展
2026-04-29	RLVR弱监督：饱和动力学与推理忠实度
2026-04-29	ShadowPEFT：共享影子网络重构PEFT范式
2026-04-29	SimpleTES：评估驱动的科学发现规模化
2026-04-29	SkillFlow：Agent终身技能进化的能力鸿沟
2026-04-29	SLIDERS：长文档QA上下文永远不够用_结构化推理才是出路
2026-04-29	TACO：终端Agent自演化上下文压缩
2026-04-29	TEMPO：测试时训练的EM拼图
2026-04-29	WorldKnowledge：Agent无奖励自进化
2026-04-24	DeepSeek-V4：百万级长上下文与混合稀疏注意力
2026-04-21	AgentSwing：长时Agent自适应上下文管理路由
2026-04-21	AggAgent：智能体聚合的并行扩展
2026-04-21	AiScientist：自主长周期ML研究工程
2026-04-21	CocoaBench：统一数字Agent评测
2026-04-21	CodeTracer：可追踪的Agent状态调试
2026-04-21	CreditAssignment：从推理到智能体的信用分配
2026-04-21	DataLineage：后训练LLM数据谱系追踪
2026-04-21	ExploreExploit：LM Agent探索与利用误差可测量
2026-04-21	GraSP：图结构技能编排突破Agent技能过载
2026-04-21	HingeMem：边界引导的长程记忆检索
2026-04-21	KnowRL：最小充分知识指导的推理强化学习
2026-04-21	LightningOPD：离线在线策略蒸馏加速后训练
2026-04-21	LLMReinventAlgo：LLM能否重新发明基础算法
2026-04-21	MEDS：记忆增强的动态奖励塑形
2026-04-21	MemoryTransfer：Coding Agent跨域记忆迁移
2026-04-21	p1：少样本提示优化
2026-04-21	ReasoningGraphs：证据驱动的推理图确定性Agent
2026-04-21	RethinkingOPD：在线策略蒸馏的成功条件与机制
2026-04-21	SemaCode：AI编码Agent的可编程基础设施
2026-04-21	SPPO：序列级PPO解决长链推理信用分配
2026-04-21	TPO：目标策略优化分离评分与参数更新
2026-04-21	TREX：Agent驱动的LLM微调自动化
2026-04-10	ManagedAgents：Anthropic如何把Agent拆成脑和手
2026-04-09	AgenticSkills：Agent技能在真实场景下到底好不好用
2026-04-09	ASI-Evolve：AI自我加速闭环研究框架
2026-04-09	ClawArena：动态信息环境下的AI智能体基准测试
2026-04-09	ClawEval：Agent可信评估
2026-04-09	CORAL：自主多智能体协同进化
2026-04-09	FileGram：文件系统行为轨迹驱动的智能体个性化
2026-04-09	GrandCode：AI首次称霸竞赛编程
2026-04-09	LightThinker++：推理压缩到记忆管理
2026-04-09	LRAT：从Agent轨迹中学习检索
2026-04-09	MetaHarness：端到端Harness优化
2026-04-09	MIA：记忆驱动的深度研究智能体
2026-04-09	PaperCircle：多智能体论文发现与分析框架
2026-04-09	RLSD：自蒸馏遇上强化学习的信用分配突破
2026-04-09	SelfExecSim：代码模型自执行模拟
2026-04-09	Skill0：技能内化零样本Agent
2026-04-09	SkillX：自动构建智能体技能知识库
2026-04-09	Squeez：用2B小模型给Coding Agent的工具输出做手术
2026-04-09	SRPO：样本路由统一GRPO与自蒸馏策略优化
2026-04-09	T2：过度训练才是最优解
2026-04-09	ThereforeIAm：推理模型先决定再思考的证据
2026-04-09	ThinkTwice：联合优化推理与自我纠错
2026-04-09	TriAttention：三角函数KV压缩加速长推理
2026-04-07	PaperRecon：AI写的论文到底有多少幻觉
2026-04-03	ReasoningShift：上下文如何悄悄缩短LLM推理链
2026-04-01	ClaudeCode源码精读01：30行代码构建Agent的核心循环
2026-04-01	ClaudeCode源码精读02：上下文撑破之前如何清理记忆
2026-04-01	ClaudeCode源码精读03：从一个Agent到一支团队多Agent协作架构全解
2026-04-01	MedicalAIScientist：AI能自主做临床科研了吗
2026-04-01	TurboQuant：KV Cache极致压缩
2026-03-29	AgentDS：AI数据科学Agent竞赛实测
2026-03-29	BEAVER：免训练分层提示压缩
2026-03-29	CarePilot：医疗GUI智能体自动化
2026-03-29	Claudini：AI自主研究发现SOTA对抗攻击算法
2026-03-29	Composer2：Cursor专用编程Agent模型训练全链路
2026-03-29	LambdaRLM：用Lambda演算解决长上下文推理衰减
2026-03-29	MARCH：多智能体强化学习消除LLM幻觉
2026-03-29	MultiAnswerRL：让LLM一次生成多个答案的分布式推理强化学习
2026-03-29	SelfDistill：自蒸馏为何会损害LLM推理能力
2026-03-29	SSD：LLM社会困境博弈中的合作与作弊
2026-03-25	BubbleRAG：用气泡膨胀算法让Graph RAG在黑箱知识图谱上召回精准双提升
2026-03-24	LSE：4B小模型自进化击败GPT5的测试时学习框架
2026-03-23	ComplementaryRL：让LLM智能体像人脑一样从经验中共同进化
2026-03-23	MementoSkills：让Agent自己设计Agent的自进化技能系统
2026-03-23	MetaClaw：让AI智能体在失败中自我进化的持续元学习框架
2026-03-23	MiroThinker：不卷速度卷验证的重型推理智能体
2026-03-23	OEL：让大模型在部署后越用越聪明
2026-03-23	SRLM：递归不是长上下文的解药，自反思才是
2026-03-19	AttentionResiduals：让深层网络学会按需回看历史层
2026-03-17	AI Agent Framework：从零构建智能体
2026-03-17	OpenSeeker：首个完全开源训练数据的前沿搜索Agent
2026-03-17	OpenSWE：147万美元打造最大开源SWE训练环境
2026-03-17	ReAct：推理与行动协同的智能体范式
2026-03-16	EvoScientist：多智能体进化AI科学家的端到端科研发现
2026-03-14	Agent Teams深度解读：从Claude Code到多智能体协作的技术全景
2026-03-14	Autoresearch深度解读：AI自主科研循环的黎明还是幻觉
2026-03-14	Claude Code玩法集合：从入门到上瘾的终极指南
2026-03-14	Harness Engineering深度解读：AI Agent时代的缰绳与马鞍
2026-03-14	ICRL：上下文强化学习驱动LLM工具调用
2026-03-14	IndexCache：跨层索引复用加速稀疏注意力
2026-03-14	OpenClaw-RL：下一状态信号统一智能体强化学习
2026-03-14	OpenClaw刷屏了，但90%的人没看懂它真正在做什么
2026-03-14	Search-R1：Agent端到端训练
2026-03-14	ThinkingToRecall：推理如何解锁LLM参数化知识
2026-03-13	SearchAgent：强化学习是规训而非启智
2026-03-13	SimAgent：模拟环境训练8B搜索Agent的工程实践与学术脉络
2026-03-12	ReasoningJudge：推理型LLM裁判的双刃剑
2026-03-07	ADE-CoT：自适应测试时扩展图像编辑
2026-03-07	BeyondSWE：代码智能体能否超越单仓库修Bug
2026-03-07	CHIMERA：紧凑合成数据驱动的通用推理
2026-03-07	CoVe：约束引导验证训练工具使用智能体
2026-03-07	LegalRAGBench：法律RAG基准评估
2026-03-07	MemSifter：结果驱动代理推理卸载LLM记忆检索
2026-03-07	MixGRM：生成式奖励模型的广度与深度协同
2026-03-07	PRISM：PRM引导推理突破DeepThink瓶颈
2026-03-07	Qwen3CoderNext：80B参数3B激活的编程智能体如何登顶SWE-Bench
2026-03-07	SciDER：以数据为中心的端到端AI科学家
2026-03-07	UniG2U-Bench：统一模型是否真正提升了多模态理解
2026-03-03	EMPO2：记忆增强探索性LLM智能体训练
2026-03-03	OmniGAIA：全模态AI智能体
2026-03-03	TextRanking：深度研究中的文本排序
2026-03-03	ToolR0：零数据自进化工具学习
2026-02-27	ADBench：广告分析LLM智能体基准
2026-02-27	FaithfulRAG：工业级广告问答强化协同适应框架
2026-02-27	妙问算法团队工作总结：RAG与Agent三篇论文
2026-02-26	SearchP1：路径中心奖励塑形稳定高效Agentic RAG训练
2026-02-25	AnatomyAgenticMemory：智能体记忆系统评估与局限性
2026-02-25	AveyB：无注意力双向编码器
2026-02-25	DSDR：双尺度多样性正则化LLM推理探索
2026-02-25	ReIn：对话错误恢复的推理植入
2026-02-25	SAGE：推理模型隐式知道何时停止思考
2026-02-25	SkillOrchestra：技能感知智能体编排
2026-02-20	DeepImageSearch：视觉历史中上下文感知图像检索基准
2026-02-20	DLLMSearcher：扩散语言模型搜索代理
2026-02-20	GLM5：从氛围编码到智能体工程
2026-02-20	HybridRAG-Bench：混合知识多跳推理基准
2026-02-20	InnoEval：多维知识评估
2026-02-20	MemFly：信息瓶颈驱动的智能体记忆优化
2026-02-20	Nanbeige4.1-3B：3B参数通用小模型
2026-02-20	REDSearcher：长时程搜索代理可扩展框架
2026-02-20	ResearchGym：AI智能体科研能力评估
2026-02-20	RLFKV：金融RAG细粒度知识验证 v2
2026-02-20	TAROT：测试驱动能力自适应课程强化微调
2026-02-20	TokenOverflow：RAG压缩Token溢出检测
2026-02-19	Agent World Model：合成环境驱动的智能体强化学习
2026-02-19	CoM：自适应思维模式推理
2026-02-19	CompositionRL：组合可验证提示词提升LLM推理
2026-02-19	DeR2：解耦检索与推理的深度研究沙盒
2026-02-19	DrMAS：多智能体LLM系统的稳定强化学习
2026-02-19	ERL：体验式强化学习
2026-02-19	GISA：信息检索代理基准
2026-02-19	How2Everything：从网页挖掘操作指南评估改进LLM
2026-02-19	InternAgent-1.5：自主科学发现的统一智能体框架
2026-02-19	LOCA：长上下文智能体基准
2026-02-19	MemSkill v2：记忆技能进化驱动的自适应智能体
2026-02-19	MiniCPM SALA：混合注意力长上下文
2026-02-19	RLFKV：金融RAG幻觉缓解
2026-02-19	SAGE：深度研究代理检索基准
2026-02-19	StateLM：有状态语言模型
2026-02-18	SkillRL：递归技能增强强化学习进化智能体
2026-02-07	Towards a Science of Collective AI：迈向集体智能科学
2026-02-03	AgentScope：多智能体开发平台
2026-02-03	AI Coding Agent深度解读：高任务完成度背后的Prompt工程秘密
2026-02-03	OpenClaw Cron深度解读：让AI Agent学会自主定时工作
2026-02-03	OpenClaw Subagent深度解读：AI Agent的分身术
2026-01-26	Zep：时间知识图谱驱动的智能体记忆架构
2026-01-25	A-Mem：智能体记忆的自主进化系统
2026-01-25	Plan-and-Act：规划与执行分离的长周期任务智能体
2026-01-25	Voyager：LLM驱动的开放式具身智能体

主题分类

Agent 智能体: A-Mem, Plan-and-Act, Voyager, Zep, AgentScope, OpenClaw, InternAgent-1.5, SkillOrchestra, OmniGAIA, EMPO2, Agent Teams, OpenClaw-RL, SimAgent, SearchAgent, EvoScientist, ReAct, AI Agent Framework, OpenSeeker, CarePilot, MetaClaw, AgentDS, Agent-World, AgentSPEX, AgentSwing, AggAgent, CodeTracer, CocoaBench, GraSP, ReasoningGraphs, SemaCode, TREX, WorldKnowledge, ManagedAgents, AgenticSkills, CORAL, FileGram, MIA, PaperCircle, Skill0, SkillX, ASI-Evolve
强化学习: SkillRL, ERL, DrMAS, CompositionRL, TAROT, DSDR, Agent World Model, ICRL, Search-R1, ToolR0, ComplementaryRL, MultiAnswerRL, MARCH, MetaClaw, OpenClaw-RL, GFT, KnowRL, MEDS, MixedCUTS, NPO, RLVR弱监督, SPPO, TPO, TEMPO, LightningOPD, RethinkingOPD, CreditAssignment, SRPO, RLSD, T2
RAG 检索增强: RLFKV, FaithfulRAG, SearchP1, SAGE, DeR2, REDSearcher, TokenOverflow, HybridRAG-Bench, TextRanking, LegalRAGBench, DLLMSearcher, BubbleRAG, DR-Venus, DualView, SLIDERS, LRAT
推理与思维: CoM, StateLM, SAGE(推理), ReIn, MiniCPM SALA, ThinkingToRecall, ReasoningJudge, CHIMERA, PRISM, MiroThinker, SelfDistill, LambdaRLM, AttentionResiduals, SRLM, AgenticWorldModel, GoodLLMOptimizer, LLMReinventAlgo, ExploreExploit, p1, ReasoningShift, ThereforeIAm, ThinkTwice
记忆系统: MemSkill v2, MemFly, AnatomyAgenticMemory, MemSifter, MementoSkills, CluE, HingeMem, Memanto, MemoryTransfer, TACO, LightThinker++
评估基准: GISA, LOCA, ResearchGym, ADBench, InnoEval, DeepImageSearch, How2Everything, BeyondSWE, UniG2U-Bench, ClawArena, ClawEval, AJBench, AgentSearchBench, CocoaBench
模型架构: GLM5, Nanbeige4.1-3B, AveyB, Qwen3CoderNext, MixGRM, IndexCache, LSE, BEAVER, DeepSeek-V4, ShadowPEFT, SkillFlow, TurboQuant, TriAttention
AI科研: Autoresearch, SciDER, EvoScientist, Claudini, AiScientist, SimpleTES, MedicalAIScientist, PaperRecon, GrandCode, MetaHarness
工程实践: Claude Code玩法, Harness Engineering, AI Coding Agent, ADE-CoT, CoVe, Composer2, OpenSWE, DataLineage, PDR-RTV, ClaudeCode源码精读, Squeez, SelfExecSim

Deploy

see deploy

License

Apache License 2.0