AI Paper Analysis

Cloudflare Pages GitHub Pages License

AI 相关论文深度解读,每天中文解读前沿学术论文,涵盖 LLM、Agent、RAG、RL 等方向。

📖 在线阅读(推荐,国内免梯子)https://ai-paper-analysis.pages.dev/ 备用 GitHub Pages 镜像:https://shibing624.github.io/ai-paper-analysis/

文章列表

日期 文章
2026-04-29 Agent-World:可扩展真实环境合成与自演化智能体训练
2026-04-29 AgenticWorldModel:L1L2L3能力分层与四类世界规律
2026-04-29 AgentSearchBench:执行驱动的智能体搜索评测
2026-04-29 AgentSPEX:YAML声明式Agent工作流与可执行规约
2026-04-29 AJBench:Agent判官需要工具与环境
2026-04-29 CluE:异质任务下的记忆提取自演化
2026-04-29 DR-Venus:4B小模型靠1万条数据冲到Deep Research前沿
2026-04-29 DualView:指令检索的极性反转训练
2026-04-29 GFT:把SFT当稀疏奖励RL重做
2026-04-29 GoodLLMOptimizer:LLM作为进化搜索算子的局部精修机制
2026-04-29 Memanto:反图谱的Agent记忆与信息论检索
2026-04-29 MixedCUTS:饱和数据上GRPO的崩塌与破解
2026-04-29 NPO:RLVR用未来自己当老师
2026-04-29 PDR-RTV:Agentic Coding的测试时算力扩展
2026-04-29 RLVR弱监督:饱和动力学与推理忠实度
2026-04-29 ShadowPEFT:共享影子网络重构PEFT范式
2026-04-29 SimpleTES:评估驱动的科学发现规模化
2026-04-29 SkillFlow:Agent终身技能进化的能力鸿沟
2026-04-29 SLIDERS:长文档QA上下文永远不够用_结构化推理才是出路
2026-04-29 TACO:终端Agent自演化上下文压缩
2026-04-29 TEMPO:测试时训练的EM拼图
2026-04-29 WorldKnowledge:Agent无奖励自进化
2026-04-24 DeepSeek-V4:百万级长上下文与混合稀疏注意力
2026-04-21 AgentSwing:长时Agent自适应上下文管理路由
2026-04-21 AggAgent:智能体聚合的并行扩展
2026-04-21 AiScientist:自主长周期ML研究工程
2026-04-21 CocoaBench:统一数字Agent评测
2026-04-21 CodeTracer:可追踪的Agent状态调试
2026-04-21 CreditAssignment:从推理到智能体的信用分配
2026-04-21 DataLineage:后训练LLM数据谱系追踪
2026-04-21 ExploreExploit:LM Agent探索与利用误差可测量
2026-04-21 GraSP:图结构技能编排突破Agent技能过载
2026-04-21 HingeMem:边界引导的长程记忆检索
2026-04-21 KnowRL:最小充分知识指导的推理强化学习
2026-04-21 LightningOPD:离线在线策略蒸馏加速后训练
2026-04-21 LLMReinventAlgo:LLM能否重新发明基础算法
2026-04-21 MEDS:记忆增强的动态奖励塑形
2026-04-21 MemoryTransfer:Coding Agent跨域记忆迁移
2026-04-21 p1:少样本提示优化
2026-04-21 ReasoningGraphs:证据驱动的推理图确定性Agent
2026-04-21 RethinkingOPD:在线策略蒸馏的成功条件与机制
2026-04-21 SemaCode:AI编码Agent的可编程基础设施
2026-04-21 SPPO:序列级PPO解决长链推理信用分配
2026-04-21 TPO:目标策略优化分离评分与参数更新
2026-04-21 TREX:Agent驱动的LLM微调自动化
2026-04-10 ManagedAgents:Anthropic如何把Agent拆成脑和手
2026-04-09 AgenticSkills:Agent技能在真实场景下到底好不好用
2026-04-09 ASI-Evolve:AI自我加速闭环研究框架
2026-04-09 ClawArena:动态信息环境下的AI智能体基准测试
2026-04-09 ClawEval:Agent可信评估
2026-04-09 CORAL:自主多智能体协同进化
2026-04-09 FileGram:文件系统行为轨迹驱动的智能体个性化
2026-04-09 GrandCode:AI首次称霸竞赛编程
2026-04-09 LightThinker++:推理压缩到记忆管理
2026-04-09 LRAT:从Agent轨迹中学习检索
2026-04-09 MetaHarness:端到端Harness优化
2026-04-09 MIA:记忆驱动的深度研究智能体
2026-04-09 PaperCircle:多智能体论文发现与分析框架
2026-04-09 RLSD:自蒸馏遇上强化学习的信用分配突破
2026-04-09 SelfExecSim:代码模型自执行模拟
2026-04-09 Skill0:技能内化零样本Agent
2026-04-09 SkillX:自动构建智能体技能知识库
2026-04-09 Squeez:用2B小模型给Coding Agent的工具输出做手术
2026-04-09 SRPO:样本路由统一GRPO与自蒸馏策略优化
2026-04-09 T2:过度训练才是最优解
2026-04-09 ThereforeIAm:推理模型先决定再思考的证据
2026-04-09 ThinkTwice:联合优化推理与自我纠错
2026-04-09 TriAttention:三角函数KV压缩加速长推理
2026-04-07 PaperRecon:AI写的论文到底有多少幻觉
2026-04-03 ReasoningShift:上下文如何悄悄缩短LLM推理链
2026-04-01 ClaudeCode源码精读01:30行代码构建Agent的核心循环
2026-04-01 ClaudeCode源码精读02:上下文撑破之前如何清理记忆
2026-04-01 ClaudeCode源码精读03:从一个Agent到一支团队多Agent协作架构全解
2026-04-01 MedicalAIScientist:AI能自主做临床科研了吗
2026-04-01 TurboQuant:KV Cache极致压缩
2026-03-29 AgentDS:AI数据科学Agent竞赛实测
2026-03-29 BEAVER:免训练分层提示压缩
2026-03-29 CarePilot:医疗GUI智能体自动化
2026-03-29 Claudini:AI自主研究发现SOTA对抗攻击算法
2026-03-29 Composer2:Cursor专用编程Agent模型训练全链路
2026-03-29 LambdaRLM:用Lambda演算解决长上下文推理衰减
2026-03-29 MARCH:多智能体强化学习消除LLM幻觉
2026-03-29 MultiAnswerRL:让LLM一次生成多个答案的分布式推理强化学习
2026-03-29 SelfDistill:自蒸馏为何会损害LLM推理能力
2026-03-29 SSD:LLM社会困境博弈中的合作与作弊
2026-03-25 BubbleRAG:用气泡膨胀算法让Graph RAG在黑箱知识图谱上召回精准双提升
2026-03-24 LSE:4B小模型自进化击败GPT5的测试时学习框架
2026-03-23 ComplementaryRL:让LLM智能体像人脑一样从经验中共同进化
2026-03-23 MementoSkills:让Agent自己设计Agent的自进化技能系统
2026-03-23 MetaClaw:让AI智能体在失败中自我进化的持续元学习框架
2026-03-23 MiroThinker:不卷速度卷验证的重型推理智能体
2026-03-23 OEL:让大模型在部署后越用越聪明
2026-03-23 SRLM:递归不是长上下文的解药,自反思才是
2026-03-19 AttentionResiduals:让深层网络学会按需回看历史层
2026-03-17 AI Agent Framework:从零构建智能体
2026-03-17 OpenSeeker:首个完全开源训练数据的前沿搜索Agent
2026-03-17 OpenSWE:147万美元打造最大开源SWE训练环境
2026-03-17 ReAct:推理与行动协同的智能体范式
2026-03-16 EvoScientist:多智能体进化AI科学家的端到端科研发现
2026-03-14 Agent Teams深度解读:从Claude Code到多智能体协作的技术全景
2026-03-14 Autoresearch深度解读:AI自主科研循环的黎明还是幻觉
2026-03-14 Claude Code玩法集合:从入门到上瘾的终极指南
2026-03-14 Harness Engineering深度解读:AI Agent时代的缰绳与马鞍
2026-03-14 ICRL:上下文强化学习驱动LLM工具调用
2026-03-14 IndexCache:跨层索引复用加速稀疏注意力
2026-03-14 OpenClaw-RL:下一状态信号统一智能体强化学习
2026-03-14 OpenClaw刷屏了,但90%的人没看懂它真正在做什么
2026-03-14 Search-R1:Agent端到端训练
2026-03-14 ThinkingToRecall:推理如何解锁LLM参数化知识
2026-03-13 SearchAgent:强化学习是规训而非启智
2026-03-13 SimAgent:模拟环境训练8B搜索Agent的工程实践与学术脉络
2026-03-12 ReasoningJudge:推理型LLM裁判的双刃剑
2026-03-07 ADE-CoT:自适应测试时扩展图像编辑
2026-03-07 BeyondSWE:代码智能体能否超越单仓库修Bug
2026-03-07 CHIMERA:紧凑合成数据驱动的通用推理
2026-03-07 CoVe:约束引导验证训练工具使用智能体
2026-03-07 LegalRAGBench:法律RAG基准评估
2026-03-07 MemSifter:结果驱动代理推理卸载LLM记忆检索
2026-03-07 MixGRM:生成式奖励模型的广度与深度协同
2026-03-07 PRISM:PRM引导推理突破DeepThink瓶颈
2026-03-07 Qwen3CoderNext:80B参数3B激活的编程智能体如何登顶SWE-Bench
2026-03-07 SciDER:以数据为中心的端到端AI科学家
2026-03-07 UniG2U-Bench:统一模型是否真正提升了多模态理解
2026-03-03 EMPO2:记忆增强探索性LLM智能体训练
2026-03-03 OmniGAIA:全模态AI智能体
2026-03-03 TextRanking:深度研究中的文本排序
2026-03-03 ToolR0:零数据自进化工具学习
2026-02-27 ADBench:广告分析LLM智能体基准
2026-02-27 FaithfulRAG:工业级广告问答强化协同适应框架
2026-02-27 妙问算法团队工作总结:RAG与Agent三篇论文
2026-02-26 SearchP1:路径中心奖励塑形稳定高效Agentic RAG训练
2026-02-25 AnatomyAgenticMemory:智能体记忆系统评估与局限性
2026-02-25 AveyB:无注意力双向编码器
2026-02-25 DSDR:双尺度多样性正则化LLM推理探索
2026-02-25 ReIn:对话错误恢复的推理植入
2026-02-25 SAGE:推理模型隐式知道何时停止思考
2026-02-25 SkillOrchestra:技能感知智能体编排
2026-02-20 DeepImageSearch:视觉历史中上下文感知图像检索基准
2026-02-20 DLLMSearcher:扩散语言模型搜索代理
2026-02-20 GLM5:从氛围编码到智能体工程
2026-02-20 HybridRAG-Bench:混合知识多跳推理基准
2026-02-20 InnoEval:多维知识评估
2026-02-20 MemFly:信息瓶颈驱动的智能体记忆优化
2026-02-20 Nanbeige4.1-3B:3B参数通用小模型
2026-02-20 REDSearcher:长时程搜索代理可扩展框架
2026-02-20 ResearchGym:AI智能体科研能力评估
2026-02-20 RLFKV:金融RAG细粒度知识验证 v2
2026-02-20 TAROT:测试驱动能力自适应课程强化微调
2026-02-20 TokenOverflow:RAG压缩Token溢出检测
2026-02-19 Agent World Model:合成环境驱动的智能体强化学习
2026-02-19 CoM:自适应思维模式推理
2026-02-19 CompositionRL:组合可验证提示词提升LLM推理
2026-02-19 DeR2:解耦检索与推理的深度研究沙盒
2026-02-19 DrMAS:多智能体LLM系统的稳定强化学习
2026-02-19 ERL:体验式强化学习
2026-02-19 GISA:信息检索代理基准
2026-02-19 How2Everything:从网页挖掘操作指南评估改进LLM
2026-02-19 InternAgent-1.5:自主科学发现的统一智能体框架
2026-02-19 LOCA:长上下文智能体基准
2026-02-19 MemSkill v2:记忆技能进化驱动的自适应智能体
2026-02-19 MiniCPM SALA:混合注意力长上下文
2026-02-19 RLFKV:金融RAG幻觉缓解
2026-02-19 SAGE:深度研究代理检索基准
2026-02-19 StateLM:有状态语言模型
2026-02-18 SkillRL:递归技能增强强化学习进化智能体
2026-02-07 Towards a Science of Collective AI:迈向集体智能科学
2026-02-03 AgentScope:多智能体开发平台
2026-02-03 AI Coding Agent深度解读:高任务完成度背后的Prompt工程秘密
2026-02-03 OpenClaw Cron深度解读:让AI Agent学会自主定时工作
2026-02-03 OpenClaw Subagent深度解读:AI Agent的分身术
2026-01-26 Zep:时间知识图谱驱动的智能体记忆架构
2026-01-25 A-Mem:智能体记忆的自主进化系统
2026-01-25 Plan-and-Act:规划与执行分离的长周期任务智能体
2026-01-25 Voyager:LLM驱动的开放式具身智能体

主题分类

  • Agent 智能体: A-Mem, Plan-and-Act, Voyager, Zep, AgentScope, OpenClaw, InternAgent-1.5, SkillOrchestra, OmniGAIA, EMPO2, Agent Teams, OpenClaw-RL, SimAgent, SearchAgent, EvoScientist, ReAct, AI Agent Framework, OpenSeeker, CarePilot, MetaClaw, AgentDS, Agent-World, AgentSPEX, AgentSwing, AggAgent, CodeTracer, CocoaBench, GraSP, ReasoningGraphs, SemaCode, TREX, WorldKnowledge, ManagedAgents, AgenticSkills, CORAL, FileGram, MIA, PaperCircle, Skill0, SkillX, ASI-Evolve
  • 强化学习: SkillRL, ERL, DrMAS, CompositionRL, TAROT, DSDR, Agent World Model, ICRL, Search-R1, ToolR0, ComplementaryRL, MultiAnswerRL, MARCH, MetaClaw, OpenClaw-RL, GFT, KnowRL, MEDS, MixedCUTS, NPO, RLVR弱监督, SPPO, TPO, TEMPO, LightningOPD, RethinkingOPD, CreditAssignment, SRPO, RLSD, T2
  • RAG 检索增强: RLFKV, FaithfulRAG, SearchP1, SAGE, DeR2, REDSearcher, TokenOverflow, HybridRAG-Bench, TextRanking, LegalRAGBench, DLLMSearcher, BubbleRAG, DR-Venus, DualView, SLIDERS, LRAT
  • 推理与思维: CoM, StateLM, SAGE(推理), ReIn, MiniCPM SALA, ThinkingToRecall, ReasoningJudge, CHIMERA, PRISM, MiroThinker, SelfDistill, LambdaRLM, AttentionResiduals, SRLM, AgenticWorldModel, GoodLLMOptimizer, LLMReinventAlgo, ExploreExploit, p1, ReasoningShift, ThereforeIAm, ThinkTwice
  • 记忆系统: MemSkill v2, MemFly, AnatomyAgenticMemory, MemSifter, MementoSkills, CluE, HingeMem, Memanto, MemoryTransfer, TACO, LightThinker++
  • 评估基准: GISA, LOCA, ResearchGym, ADBench, InnoEval, DeepImageSearch, How2Everything, BeyondSWE, UniG2U-Bench, ClawArena, ClawEval, AJBench, AgentSearchBench, CocoaBench
  • 模型架构: GLM5, Nanbeige4.1-3B, AveyB, Qwen3CoderNext, MixGRM, IndexCache, LSE, BEAVER, DeepSeek-V4, ShadowPEFT, SkillFlow, TurboQuant, TriAttention
  • AI科研: Autoresearch, SciDER, EvoScientist, Claudini, AiScientist, SimpleTES, MedicalAIScientist, PaperRecon, GrandCode, MetaHarness
  • 工程实践: Claude Code玩法, Harness Engineering, AI Coding Agent, ADE-CoT, CoVe, Composer2, OpenSWE, DataLineage, PDR-RTV, ClaudeCode源码精读, Squeez, SelfExecSim

Deploy

see deploy

License

Apache License 2.0