最近 30 天发布 · 完整列表见 https://beatai.org/ai-insights
- 代码并不便宜:用软件基本功放大 AI 的产出
2025 年 2 月,Andrej Karpathy 造了个词:"vibe coding"——说出你想要什么,让 AI 写代码,然后把代码忘掉。这个说法迅速火了。所有人都愿意相信,写代码已经像说话一样轻松。 - 从鸢尾花到反向图搜:K-Nearest Neighbors 是怎么撑起现代 AI 的
For You 页面、Spotify Discover Weekly、你做过的每一次反向图片搜索、ChatGPT 内部的检索——它们背后的算法,比彩色电视还要老。1951 年由 Evelyn Fix 和 Joseph Hodges 在一份美国空军技术报告里提出,从未被真正取代过。 - AI PM 的菜单:成本-质量权衡实战手册
我经营一家创业公司。打造 NomNow——一款已经上线 App Store 的多模态 AI 营养师——教会了我很多事,但如果只能挑一条让年轻版的自己读到,我会挑这条:对一家基于 LLM 的创业公司来说,成本纪律不是优化,是生死。 - 你的 AI agent 能读懂代码库,却不懂你的产品
我让 AI agent 给我们的产品头脑风暴一些新功能。不到一分钟它就甩回一份整齐的清单:通知中心、动态流、带分析 widget 的 dashboard、新手引导向导。功能本身都挺合理,但没有一个对得上我们的产品。
- 构建一套 agent harness
Prompt engineering、context engineering,现在轮到 harness engineering。 - 从零构建 Claude:Anthropic 思考引擎背后的 62 个组件
实践中构建 agentic 系统时,AI 模型本身早已不再是瓶颈,真正的瓶颈是它们外面那层 harness。Anthropic 花了两年时间为 Claude 打造那层 harness——也就是那套编排代码:挑选合适的工具,并在宣告成功之前为自己的工作打分。… - 深度学习需要矩阵,原因和 Instagram 需要滤镜一样
上学的时候,矩阵是我最喜欢的主题。我学得很快,也许你也一样。 - 在 Netflix 让机器学习人人可用:构建模型生命周期图谱
随着 Netflix 不断成长,机器学习持续支撑着 Netflix 向会员交付价值、在多个业务领域追求卓越。十多年前 Netflix 刚开始投入机器学习时,主要聚焦单一领域:个性化推荐。当时 Scala 是行业标准,ML 团队规模相对较小,优化会员参与度是主要用例。快进到今天,机器学习已成为 Netflix 业务转型的支柱。如今 ML 已应用到各个业务领域,包括: - 简明讲清 Diffusion LLM
基于 LLM 的聊天机器人在我们身边随处可见。它们回复时,是按顺序逐步生成内容的。也就是说,它们的输出是一个 token 接一个 token、一次一个地生成出来的。 - Anthropic 高速增长的阴暗面
在很多人眼里,Anthropic 是硅谷有史以来最动人的故事。这家公司五年前才成立,如今却有望在今年年底把年化收入做到 1000 亿美元。 - 用计算机科学概念解读 Claude Code 泄露的 source map
这个故事现在大家都知道了。
- 代码变便宜了,判断力没有。
关于 AI 与工程,主流的说法是它降低了门槛。如今一个初级工程师配上趁手的工具,就能做过去中级工程师才能做的事。一个中级工程师能做过去资深工程师才能做的事。金字塔被压扁,组织架构变得更扁平,顶端那些经验丰富的工程师变得不那么不可或缺了——因为他们过去提供的杠杆,现在已经被烤进了工具里。 - 提升广告相关性:把实时上下文融入序列推荐模型
在此前的一篇文章 Ads Candidate Generation using Behavioral Sequence Modeling(原文)中,我们介绍过一个候选生成器(CG)。它用一个基于 Transformer 的双塔模型,借助用户的站外转化历史——这是一个很强的信号——来预测用户未来会与哪些广告主、哪些具体商品发生交互。… - 我们如何为 6 万名知识工作者打造 AI 第二大脑
Meta 的知识工作者每天都在跟工作流的碎片化作斗争:会议记录、任务、关键决策、代码上下文这些重要信息,散落在彼此割裂的平台上。每开启一段新的 AI 对话,都得从零冷启动——重复同样的解释、贴同样的链接、花同样的十分钟铺垫上下文,真正的工作才能开始。 - LLM 弃用与迁移策略:如何应对不断上涨的 AI 价格
模型退役是 AI 市场的一种结构性现实,不是罕见的运维事件。OpenAI(GPT)、Anthropic(Claude)、Google(Gemini)以及其他 LLM 供应商,会频繁弃用某些特定的 API 版本,转而推出更新的模型。 - MIRAS:Transformers、Mamba 与 Titans 背后的设计蓝图
我们用来让语言模型记得更好的那些精巧机制——门控函数、权重衰减、自适应遗忘——结果都只是同一个底层原理的不同实例,这个原理就是保留门(retention gate)。 - 拥有你自己的 Harness
过去几个月里,我写了几篇关于 agent harness 的文章,也写了为什么所有人似乎都聚焦于它。一句话总结就是:它是新的前沿。没错,大家仍在模型这条战线上厮杀(比如 DeepSeek 刚发布了 v4,OpenAI 发布了 GPT-5.5,Anthropic 拿 Mythos 把所有人吓得不轻),但真正的战斗将发生在 harness 上。 - Snake Coding
用提示词写代码是有诱惑力的。这种诱惑并不只是新工具的副产品,它恰恰塑造着未来。每一波技术生产力的浪潮都伴随着某种形式的诱惑。五十年前也不例外:当时,用汇编写代码逐渐被 FORTRAN 和 COBOL 取代,至少是被它们覆盖。那时,一个新的表述层级取代了直接面向机器的方式。 - 为什么 AI 修不好客户服务
客户服务是企业版的道歉,可企业看不到这一点。它在大多数时候还高度情绪化,这一点企业多少能看到,却很难做得有效。正是这两件事,构成了 AI 工具——无论是 LLM 还是生成式 AI——至今没能真正取代客户服务、也许永远做不到的根源。
- 智能体 AI 安全模式
智能体 AI 系统的关键特征是自主性和推理能力。凭借这两点,它们能把复杂任务拆解成更小的可执行任务,再编排这些任务的执行,并在需要时监控、反思、适配乃至自我纠错。正因如此, - 超越代码生成:让 AI 覆盖完整的数据科学工作流
最近我一直被一种挥之不去的 AI FOMO 笼罩。每天都能看到有人分享 AI 技巧、晒出自己造的新智能体和技能,还有各种凭感觉写出来的应用。我越来越意识到,对今天的数据科学家来说,快速适应 AI 已经成了保持竞争力的硬性要求。 - 仅解码器 Transformer:生成式 LLM 的主力架构
当下 AI 研究的步伐令人瞠目。跟上最新的论文很难,连领域内的专家都会觉得自己没能掌握这个不断演化的前沿里那些更细微的细节。LLM 领域尤其如此,有影响力的研究层出不穷:新的基础模型(如 Gemma [15] 和 OLMo [12])、更好的对齐技术(DPO [32]、PPO [33]、REINFORCE [34] 之争),还有 模型合并 这类相对冷门的话题。… - 读懂 DeepSeek-V4 之前,先把基础打牢
2025 年 1 月,DeepSeek-R1 发布,同时开源了蒸馏版的「32B 与 70B 模型,性能与 OpenAI-o1-mini 相当」。接下来那一周,几家 AI 巨头的股价应声暴跌。 - 从原型到预测:用随机森林实时归类 NBA 球员
读过我上一篇文章的人都知道,我用 K-Means 聚类论证过一个观点:传统的 NBA 位置基本已经过时。数据找出了五种自然的球员原型,它们和一个人被登记成后卫还是前锋毫无关系。这个发现很有意思,但它也留下了一个明摆着的后续问题:好,那现在怎么办?如果一位球队管理层的分析师想知道某个球员属于哪种原型,难道每次都得把整套聚类流程重跑一遍?那不现实 - AI 如何记忆,又为何遗忘:第 1 部分,上下文问题
AI 编程。我姑且假设你到现在至少试过了。你大概用过 Claude 或 Cursor 这类工具,试过不同的模型,说不定还用 Anthropic 或 OpenAI API 自己搭过东西。被迫为超额的 token 付费时,你可能哭过一小会儿,而“agents”这个词到现在大概一听就让你头疼。如果你完全不知道我在说什么,那请把你星球的坐标发给我——那里一定特别宁静。 - 怎样才能更好地给葡萄酒品质分类?
评定葡萄酒品质的度量标准,在资深评审之间常常对不上号。同一款酒,不同专家给出的分数可能相差悬殊;而酒一旦装瓶待售,就再也无法因评价结果而改变。这种事浪费时间和资源,在行业里几乎每天都在上演。 - 我建了一座"证据工厂",因为"相信我,agent 没问题"算不上治理策略
关于企业 agent 化,我写下的东西已经足够填满一本小书——一本会让翻开它的 AI 架构师怀疑自己职业选择的、令人不太舒服的书。流程选择、35% 的自动化天花板、agentic 架构模式、治理哲学、大规模运行一座 AI 工厂的经济学,我都用一种好为人师的口吻讲了个遍,也亲眼看着足够多的项目失败,因而挣得了发表观点的资格。 - Anthropic 新推出的金融 Agent 究竟有何不同
5 月 5 日,Anthropic 为金融服务业开源了 10 个 agent 模板。媒体报道的焦点是那笔与 Blackstone 和 Goldman Sachs 合作、价值 15 亿美元的华尔街合资项目。Jamie Dimon 对记者说,Claude 在 20 分钟内为他做出了"一个巨大的仪表盘,配齐了所有支撑材料和所有研究"。 - 当你的 AI 治理模型试图监管一个智能体蜂群
我小时候对组合逻辑很感兴趣。是的,这件事很大程度上解释了我后来为什么变成这样,也解释了为什么我的小学老师看我的眼神,活像人们看一只学会了开冰箱的狗。
- Anthropic 的工程师说 "干掉 Markdown",他真正想表达的是什么。
上周,Claude Code 的工程负责人告诉开发者们:别再输出 Markdown 了。整个互联网炸了。 - 不用更好的模型,也能造出更好的 AI
我第一次玩 LLM(大语言模型)时,让我印象最深的一个主要瓶颈是:它们本质上是静态函数,接收输入、吐出回应。能力已经被权重锁死。能微调或后训练,是的,但实时学习、对新输入做出适应,完全不行。一些批评者拿这一点当作"它其实不是真智能"的证据,因为不像人类智能那样能实时学习与成长,LLM 基本上是冻结在时间中的。我当时没怎么深想,就接受了它们的样子。 - 为一团中等规模的混乱编写架构文档
写软件架构文档很可怕。尤其是在一家没有架构师角色或部门的中型公司。光是想一想公司信息系统的架构,看起来就如此"多余"和"拖我们后腿"。然而中型公司一次又一次最终陷入重复的系统、重复的数据,以及一团混乱。 - Harness:企业被打造来迎接的时代
这是一个关于"终端用户如何把语言模型当作黑盒(我们只能控制输入什么、以及对输出做什么)来提升其性能"的故事。从最简单的做法,一路到提升模型性能的复杂变通方案。 - 预测墨尔本一家紧急护理诊所的日就诊量
经营一家走入式紧急护理诊所有一个反复出现的运营头痛:要决定某一天该排多少临床医生。如果排得太少,候诊室就可能堵塞,患者会流向最近的急诊科 (ED)。反过来,你又得为不需要的医生工时买单,反之亦然。大多数诊所基于去年的数字、直觉和一点猜测来估算就诊人数,特别是在流感季前后。… - 两支团队,一次转向:AI 如何重塑我们的产品设计流程
随着 AI 在"造一切"上越来越强,设计师工作里哪一部分变得更重要,哪一部分变得不那么重要?过去一年,DoorDash 的两支团队一直在探索这一概念。在本文中,Qixing 将把两个案例研究串起来,讲讲产品开发流程是如何转变的、观察到了哪些新模式、做了哪些实验、又有哪些问题尚未解决。
- 云端蚁群
科学、数学和工程中最美的东西,很多都不是被发明出来的。它们是被发现的——早已在自然界中运行着、早已最优、早已优雅,只等着我们去注意到它们、把它们写下来。 - 我们已经走到 legacy code 的尽头了吗?
让软件演化并不简单。每一次改动都意味着把新代码与既有代码集成在一起,而那并不总是容易的。既有代码通常没有预见到未来的改动,即便预见到了,也从来不会正好就是必须做出的那些改动。所以你必须沿途不断地更新和清理。 - 官方文档没告诉你的 Claude Code skills 真相
这个月,我为自己 newsletter 写作 pipeline 的每一个环节都构建了一个 skill。