| 2026-04-29 | Agent-World:可扩展真实环境合成与自演化智能体训练 |
| 2026-04-29 | AgenticWorldModel:L1L2L3能力分层与四类世界规律 |
| 2026-04-29 | AgentSearchBench:执行驱动的智能体搜索评测 |
| 2026-04-29 | AgentSPEX:YAML声明式Agent工作流与可执行规约 |
| 2026-04-29 | AJBench:Agent判官需要工具与环境 |
| 2026-04-29 | CluE:异质任务下的记忆提取自演化 |
| 2026-04-29 | DR-Venus:4B小模型靠1万条数据冲到Deep Research前沿 |
| 2026-04-29 | DualView:指令检索的极性反转训练 |
| 2026-04-29 | GFT:把SFT当稀疏奖励RL重做 |
| 2026-04-29 | GoodLLMOptimizer:LLM作为进化搜索算子的局部精修机制 |
| 2026-04-29 | Memanto:反图谱的Agent记忆与信息论检索 |
| 2026-04-29 | MixedCUTS:饱和数据上GRPO的崩塌与破解 |
| 2026-04-29 | NPO:RLVR用未来自己当老师 |
| 2026-04-29 | PDR-RTV:Agentic Coding的测试时算力扩展 |
| 2026-04-29 | RLVR弱监督:饱和动力学与推理忠实度 |
| 2026-04-29 | ShadowPEFT:共享影子网络重构PEFT范式 |
| 2026-04-29 | SimpleTES:评估驱动的科学发现规模化 |
| 2026-04-29 | SkillFlow:Agent终身技能进化的能力鸿沟 |
| 2026-04-29 | SLIDERS:长文档QA上下文永远不够用_结构化推理才是出路 |
| 2026-04-29 | TACO:终端Agent自演化上下文压缩 |
| 2026-04-29 | TEMPO:测试时训练的EM拼图 |
| 2026-04-29 | WorldKnowledge:Agent无奖励自进化 |
| 2026-04-24 | DeepSeek-V4:百万级长上下文与混合稀疏注意力 |
| 2026-04-21 | AgentSwing:长时Agent自适应上下文管理路由 |
| 2026-04-21 | AggAgent:智能体聚合的并行扩展 |
| 2026-04-21 | AiScientist:自主长周期ML研究工程 |
| 2026-04-21 | CocoaBench:统一数字Agent评测 |
| 2026-04-21 | CodeTracer:可追踪的Agent状态调试 |
| 2026-04-21 | CreditAssignment:从推理到智能体的信用分配 |
| 2026-04-21 | DataLineage:后训练LLM数据谱系追踪 |
| 2026-04-21 | ExploreExploit:LM Agent探索与利用误差可测量 |
| 2026-04-21 | GraSP:图结构技能编排突破Agent技能过载 |
| 2026-04-21 | HingeMem:边界引导的长程记忆检索 |
| 2026-04-21 | KnowRL:最小充分知识指导的推理强化学习 |
| 2026-04-21 | LightningOPD:离线在线策略蒸馏加速后训练 |
| 2026-04-21 | LLMReinventAlgo:LLM能否重新发明基础算法 |
| 2026-04-21 | MEDS:记忆增强的动态奖励塑形 |
| 2026-04-21 | MemoryTransfer:Coding Agent跨域记忆迁移 |
| 2026-04-21 | p1:少样本提示优化 |
| 2026-04-21 | ReasoningGraphs:证据驱动的推理图确定性Agent |
| 2026-04-21 | RethinkingOPD:在线策略蒸馏的成功条件与机制 |
| 2026-04-21 | SemaCode:AI编码Agent的可编程基础设施 |
| 2026-04-21 | SPPO:序列级PPO解决长链推理信用分配 |
| 2026-04-21 | TPO:目标策略优化分离评分与参数更新 |
| 2026-04-21 | TREX:Agent驱动的LLM微调自动化 |
| 2026-04-10 | ManagedAgents:Anthropic如何把Agent拆成脑和手 |
| 2026-04-09 | AgenticSkills:Agent技能在真实场景下到底好不好用 |
| 2026-04-09 | ASI-Evolve:AI自我加速闭环研究框架 |
| 2026-04-09 | ClawArena:动态信息环境下的AI智能体基准测试 |
| 2026-04-09 | ClawEval:Agent可信评估 |
| 2026-04-09 | CORAL:自主多智能体协同进化 |
| 2026-04-09 | FileGram:文件系统行为轨迹驱动的智能体个性化 |
| 2026-04-09 | GrandCode:AI首次称霸竞赛编程 |
| 2026-04-09 | LightThinker++:推理压缩到记忆管理 |
| 2026-04-09 | LRAT:从Agent轨迹中学习检索 |
| 2026-04-09 | MetaHarness:端到端Harness优化 |
| 2026-04-09 | MIA:记忆驱动的深度研究智能体 |
| 2026-04-09 | PaperCircle:多智能体论文发现与分析框架 |
| 2026-04-09 | RLSD:自蒸馏遇上强化学习的信用分配突破 |
| 2026-04-09 | SelfExecSim:代码模型自执行模拟 |
| 2026-04-09 | Skill0:技能内化零样本Agent |
| 2026-04-09 | SkillX:自动构建智能体技能知识库 |
| 2026-04-09 | Squeez:用2B小模型给Coding Agent的工具输出做手术 |
| 2026-04-09 | SRPO:样本路由统一GRPO与自蒸馏策略优化 |
| 2026-04-09 | T2:过度训练才是最优解 |
| 2026-04-09 | ThereforeIAm:推理模型先决定再思考的证据 |
| 2026-04-09 | ThinkTwice:联合优化推理与自我纠错 |
| 2026-04-09 | TriAttention:三角函数KV压缩加速长推理 |
| 2026-04-07 | PaperRecon:AI写的论文到底有多少幻觉 |
| 2026-04-03 | ReasoningShift:上下文如何悄悄缩短LLM推理链 |
| 2026-04-01 | ClaudeCode源码精读01:30行代码构建Agent的核心循环 |
| 2026-04-01 | ClaudeCode源码精读02:上下文撑破之前如何清理记忆 |
| 2026-04-01 | ClaudeCode源码精读03:从一个Agent到一支团队多Agent协作架构全解 |
| 2026-04-01 | MedicalAIScientist:AI能自主做临床科研了吗 |
| 2026-04-01 | TurboQuant:KV Cache极致压缩 |
| 2026-03-29 | AgentDS:AI数据科学Agent竞赛实测 |
| 2026-03-29 | BEAVER:免训练分层提示压缩 |
| 2026-03-29 | CarePilot:医疗GUI智能体自动化 |
| 2026-03-29 | Claudini:AI自主研究发现SOTA对抗攻击算法 |
| 2026-03-29 | Composer2:Cursor专用编程Agent模型训练全链路 |
| 2026-03-29 | LambdaRLM:用Lambda演算解决长上下文推理衰减 |
| 2026-03-29 | MARCH:多智能体强化学习消除LLM幻觉 |
| 2026-03-29 | MultiAnswerRL:让LLM一次生成多个答案的分布式推理强化学习 |
| 2026-03-29 | SelfDistill:自蒸馏为何会损害LLM推理能力 |
| 2026-03-29 | SSD:LLM社会困境博弈中的合作与作弊 |
| 2026-03-25 | BubbleRAG:用气泡膨胀算法让Graph RAG在黑箱知识图谱上召回精准双提升 |
| 2026-03-24 | LSE:4B小模型自进化击败GPT5的测试时学习框架 |
| 2026-03-23 | ComplementaryRL:让LLM智能体像人脑一样从经验中共同进化 |
| 2026-03-23 | MementoSkills:让Agent自己设计Agent的自进化技能系统 |
| 2026-03-23 | MetaClaw:让AI智能体在失败中自我进化的持续元学习框架 |
| 2026-03-23 | MiroThinker:不卷速度卷验证的重型推理智能体 |
| 2026-03-23 | OEL:让大模型在部署后越用越聪明 |
| 2026-03-23 | SRLM:递归不是长上下文的解药,自反思才是 |
| 2026-03-19 | AttentionResiduals:让深层网络学会按需回看历史层 |
| 2026-03-17 | AI Agent Framework:从零构建智能体 |
| 2026-03-17 | OpenSeeker:首个完全开源训练数据的前沿搜索Agent |
| 2026-03-17 | OpenSWE:147万美元打造最大开源SWE训练环境 |
| 2026-03-17 | ReAct:推理与行动协同的智能体范式 |
| 2026-03-16 | EvoScientist:多智能体进化AI科学家的端到端科研发现 |
| 2026-03-14 | Agent Teams深度解读:从Claude Code到多智能体协作的技术全景 |
| 2026-03-14 | Autoresearch深度解读:AI自主科研循环的黎明还是幻觉 |
| 2026-03-14 | Claude Code玩法集合:从入门到上瘾的终极指南 |
| 2026-03-14 | Harness Engineering深度解读:AI Agent时代的缰绳与马鞍 |
| 2026-03-14 | ICRL:上下文强化学习驱动LLM工具调用 |
| 2026-03-14 | IndexCache:跨层索引复用加速稀疏注意力 |
| 2026-03-14 | OpenClaw-RL:下一状态信号统一智能体强化学习 |
| 2026-03-14 | OpenClaw刷屏了,但90%的人没看懂它真正在做什么 |
| 2026-03-14 | Search-R1:Agent端到端训练 |
| 2026-03-14 | ThinkingToRecall:推理如何解锁LLM参数化知识 |
| 2026-03-13 | SearchAgent:强化学习是规训而非启智 |
| 2026-03-13 | SimAgent:模拟环境训练8B搜索Agent的工程实践与学术脉络 |
| 2026-03-12 | ReasoningJudge:推理型LLM裁判的双刃剑 |
| 2026-03-07 | ADE-CoT:自适应测试时扩展图像编辑 |
| 2026-03-07 | BeyondSWE:代码智能体能否超越单仓库修Bug |
| 2026-03-07 | CHIMERA:紧凑合成数据驱动的通用推理 |
| 2026-03-07 | CoVe:约束引导验证训练工具使用智能体 |
| 2026-03-07 | LegalRAGBench:法律RAG基准评估 |
| 2026-03-07 | MemSifter:结果驱动代理推理卸载LLM记忆检索 |
| 2026-03-07 | MixGRM:生成式奖励模型的广度与深度协同 |
| 2026-03-07 | PRISM:PRM引导推理突破DeepThink瓶颈 |
| 2026-03-07 | Qwen3CoderNext:80B参数3B激活的编程智能体如何登顶SWE-Bench |
| 2026-03-07 | SciDER:以数据为中心的端到端AI科学家 |
| 2026-03-07 | UniG2U-Bench:统一模型是否真正提升了多模态理解 |
| 2026-03-03 | EMPO2:记忆增强探索性LLM智能体训练 |
| 2026-03-03 | OmniGAIA:全模态AI智能体 |
| 2026-03-03 | TextRanking:深度研究中的文本排序 |
| 2026-03-03 | ToolR0:零数据自进化工具学习 |
| 2026-02-27 | ADBench:广告分析LLM智能体基准 |
| 2026-02-27 | FaithfulRAG:工业级广告问答强化协同适应框架 |
| 2026-02-27 | 妙问算法团队工作总结:RAG与Agent三篇论文 |
| 2026-02-26 | SearchP1:路径中心奖励塑形稳定高效Agentic RAG训练 |
| 2026-02-25 | AnatomyAgenticMemory:智能体记忆系统评估与局限性 |
| 2026-02-25 | AveyB:无注意力双向编码器 |
| 2026-02-25 | DSDR:双尺度多样性正则化LLM推理探索 |
| 2026-02-25 | ReIn:对话错误恢复的推理植入 |
| 2026-02-25 | SAGE:推理模型隐式知道何时停止思考 |
| 2026-02-25 | SkillOrchestra:技能感知智能体编排 |
| 2026-02-20 | DeepImageSearch:视觉历史中上下文感知图像检索基准 |
| 2026-02-20 | DLLMSearcher:扩散语言模型搜索代理 |
| 2026-02-20 | GLM5:从氛围编码到智能体工程 |
| 2026-02-20 | HybridRAG-Bench:混合知识多跳推理基准 |
| 2026-02-20 | InnoEval:多维知识评估 |
| 2026-02-20 | MemFly:信息瓶颈驱动的智能体记忆优化 |
| 2026-02-20 | Nanbeige4.1-3B:3B参数通用小模型 |
| 2026-02-20 | REDSearcher:长时程搜索代理可扩展框架 |
| 2026-02-20 | ResearchGym:AI智能体科研能力评估 |
| 2026-02-20 | RLFKV:金融RAG细粒度知识验证 v2 |
| 2026-02-20 | TAROT:测试驱动能力自适应课程强化微调 |
| 2026-02-20 | TokenOverflow:RAG压缩Token溢出检测 |
| 2026-02-19 | Agent World Model:合成环境驱动的智能体强化学习 |
| 2026-02-19 | CoM:自适应思维模式推理 |
| 2026-02-19 | CompositionRL:组合可验证提示词提升LLM推理 |
| 2026-02-19 | DeR2:解耦检索与推理的深度研究沙盒 |
| 2026-02-19 | DrMAS:多智能体LLM系统的稳定强化学习 |
| 2026-02-19 | ERL:体验式强化学习 |
| 2026-02-19 | GISA:信息检索代理基准 |
| 2026-02-19 | How2Everything:从网页挖掘操作指南评估改进LLM |
| 2026-02-19 | InternAgent-1.5:自主科学发现的统一智能体框架 |
| 2026-02-19 | LOCA:长上下文智能体基准 |
| 2026-02-19 | MemSkill v2:记忆技能进化驱动的自适应智能体 |
| 2026-02-19 | MiniCPM SALA:混合注意力长上下文 |
| 2026-02-19 | RLFKV:金融RAG幻觉缓解 |
| 2026-02-19 | SAGE:深度研究代理检索基准 |
| 2026-02-19 | StateLM:有状态语言模型 |
| 2026-02-18 | SkillRL:递归技能增强强化学习进化智能体 |
| 2026-02-07 | Towards a Science of Collective AI:迈向集体智能科学 |
| 2026-02-03 | AgentScope:多智能体开发平台 |
| 2026-02-03 | AI Coding Agent深度解读:高任务完成度背后的Prompt工程秘密 |
| 2026-02-03 | OpenClaw Cron深度解读:让AI Agent学会自主定时工作 |
| 2026-02-03 | OpenClaw Subagent深度解读:AI Agent的分身术 |
| 2026-01-26 | Zep:时间知识图谱驱动的智能体记忆架构 |
| 2026-01-25 | A-Mem:智能体记忆的自主进化系统 |
| 2026-01-25 | Plan-and-Act:规划与执行分离的长周期任务智能体 |
| 2026-01-25 | Voyager:LLM驱动的开放式具身智能体 |