2025 年是 Coding Agent 井喷年。本文基于 GitHub Trending 数据,盘点当前最热门的 AI 工具及其定位,帮你快速了解当前 AI 开发工具的格局。
Claude 4 发布后,官方主推 Sonnet 和 Opus 两个版本。实测一个月:两个版本差距在哪,编程选哪个,以及 Opus 到底贵在哪里。
o3 发布后全网刷屏。但实话说,不是所有场景都值得花 o3 的价格。这篇文章给 o3 的工程能力一个客观评价。
2026 年 1 月 5 日,OpenAI 宣布 GPT-5 正式通过全球首批 AI 代理认证(AIAA),获准在金融交易、医疗咨询等高风险场景作为独立决策代理运行。这是 AI 监管的一次重要尝试。
2026 年 1 月 5 日,Google DeepMind 发布 Gemini Reasoner。这是第一个在科学假设生成、因果推断、长程规划等复杂跨模态推理任务上超越人类平均水平的模型。
大家都在说 AI Agent,但"Agent"这个词已经被用烂了。这篇文章用分级框架来评估 Agent 的实际自主能力,从"只会聊天"到"完全自主"。