AI 会让社会发生怎样的变革
站在分岔路口每隔几十年,人类社会就会遇到一个分岔路口。 蒸汽机来的时候,有人说它会解放人类的双手,也有人说它会让工人沦为机器的奴隶。两种预言都应验了——工业革命确实创造了前所未有的繁荣,也确实制造了血汗工厂和童工。 互联网来的时候,有人说它会让信息自由流通、消除信息不对称,也有人说它会制造信息茧房和数字鸿沟。两种预言也都应验了。 现在轮到 AI 了。 关于 AI 会把社会带向何方,乐观者和悲观者的分歧之大,可能是历次技术革命中最极端的。乐观者说 AI 会带来人类文明的黄金时代,悲观者说 AI 可能是人类最后一个发明。 两边都不是在危言耸听。这才是最让人不安的地方。 今天我想认真地把两种观点都摊开来聊聊——不是为了站队,而是为了看清楚我们到底面对的是什么。 乐观篇:AI 可能带来的美好医疗:每个人都能享受顶级医疗现在全球最好的医生有多少?几千个?几万个?不管多少,肯定不够 80 亿人用。 AI 正在改变这个等式。AlphaFold 解决了蛋白质折叠问题,这意味着药物研发的速度可能提升一个数量级。AI 辅助诊断已经在某些领域(比如皮肤癌筛查、眼底病变检测)达到甚至超过了专科医生的水平...
How AI Will Transform Society
Standing at the CrossroadsEvery few decades, human society encounters a crossroads. When the steam engine arrived, some said it would liberate human hands. Others said it would reduce workers to slaves of machines. Both predictions came true — the Industrial Revolution created unprecedented prosperity and also produced sweatshops and child labor. When the internet arrived, some said it would enable free information flow and eliminate information asymmetry. Others said it would create filter b...
New Company Models in the AI Era
One Person Outperforming a TeamOver the past year or two, I’ve noticed an increasingly obvious trend: many impressive products are built by just one or two people. A solo developer, using AI to help write code, design interfaces, craft copy, and handle operations, can ship a complete product in weeks. Three years ago, the same thing would have required a five-to-ten person team working for months. This isn’t an anomaly. Browse Product Hunt’s trending products — more and more are labeled “Solo...
AI 时代的新公司模式
一个人干翻一个团队最近一两年,我注意到一个越来越明显的趋势:很多让人惊艳的产品,背后只有一两个人。 一个独立开发者,用 AI 辅助写代码、做设计、写文案、搞运营,几周时间就能上线一个完整的产品。放在三年前,同样的事情需要一个五到十人的小团队干几个月。 这不是个例。你去看 Product Hunt 上的热门产品,越来越多标注着”Solo Founder”。你去看 GitHub 上的热门项目,很多 contributor 只有一两个人,但代码质量和功能完整度不输大团队的作品。 发生了什么? 答案很简单:AI 改变了生产力的方程式。 旧模式:人多力量大传统的公司模式建立在一个基本假设上:做更多的事,需要更多的人。 你要开发一个产品,需要产品经理、设计师、前端工程师、后端工程师、测试工程师、运维工程师。你要推广这个产品,需要市场、运营、客服。你要管理这些人,需要项目经理、HR、行政。 人一多,沟通成本就上来了。五个人的团队,沟通线路是 10 条。十个人就变成 45 条。五十个人是 1225 条。这就是为什么大公司效率低——不是人不行,是沟通的复杂度随人数指数增长。 于是你需要层级、流程、...
The Infrastructure of the AI Era
The Road BuildersThere’s a saying I grew up hearing: if you want to get rich, build roads first. This applies to technology just as well. Every technological revolution is preceded by massive infrastructure buildout. The steam age built railways. The electrical age strung power grids. The internet age laid fiber optic cables and erected data centers. Infrastructure isn’t glamorous, but without it, even the best technology can’t run. Now it’s AI’s turn. Since GPT came along, everyone’s been ta...
AI 时代的基建
修路的人小时候听过一句话:要想富,先修路。 这话放到技术领域同样成立。每一次技术革命的爆发,背后都有一轮大规模的基础设施建设。蒸汽机时代修铁路,电气时代架电网,互联网时代铺光纤建数据中心。基建不性感,但没有它,再好的技术也跑不起来。 现在轮到 AI 了。 GPT 出来之后,所有人都在聊模型多聪明、能干什么。但很少有人认真聊过:要让 AI 真正跑起来,我们需要修什么路? 这篇文章想聊的就是这件事——AI 时代的基建,到底长什么样。 算力:最显眼的那一层提到 AI 基建,大多数人第一反应是 GPU。没错,算力是最显眼、最烧钱的一层。英伟达的市值说明了一切。 但算力的故事远不止”买更多卡”这么简单。 训练一个大模型需要几千张 GPU 协同工作几个月,这背后是分布式计算、高速互联网络(InfiniBand/NVLink)、大规模集群调度、故障恢复……每一项都是硬核工程。OpenAI 训练 GPT-4 的集群出过多少次故障、做了多少次 checkpoint 恢复,外面的人很难想象。 而推理侧的挑战又完全不同。训练是一次性的(虽然很贵),但推理是持续的——每个用户的每次对话都在消耗...
How to Give Your Agent Eyes and Hands
An Assistant That Talks But Doesn’t DoHave you ever been in this situation: you ask an AI a question, it gives you a perfect answer, but you have to execute every single step yourself. “Fix this bug for me.” It tells you: open this file, find line 42, change foo to bar, then run npm test to verify. Sounds great. But it doesn’t lift a finger. It’s like hiring a consultant who sits next to you pointing at the screen but never touches the keyboard. You open the editor, find the line, make the ch...
如何让Agent长出自己的眼和手
一个会说但不会做的助手你有没有遇到过这种情况:你问 AI 一个问题,它给你一段完美的回答,但你需要自己去执行每一步。 “帮我把这个 bug 修了。” 它会告诉你:打开某个文件,找到第 42 行,把 foo 改成 bar,然后运行 npm test 验证。 说得头头是道。但它自己不动手。 这就像你雇了一个顾问,他坐在旁边指点江山,但从来不碰键盘。你得自己打开编辑器、找到那一行、改完、跑测试、看结果、再回来告诉他”改完了,但测试还是挂了”。然后他再给你下一步建议。 来回折腾几次,你就会想:你能不能自己来? 这就是为什么 Agent 需要”眼”和”手”——不只是语言能力,还需要感知世界的能力和改变世界的能力。 眼:让 Agent 看见世界一个没有感知能力的 Agent,就像一个蒙着眼睛的人。你得不停地口述周围的环境,它才能给出建议。效率极低,而且你描述的信息永远是有损的。 浏览器就是 Agent 的眼睛我最近的实践中,给 Agent 接入了一个浏览器工具。它能做什么呢? 打开网页:直接访问 URL,看到页面内容 获取快照(Snapshot):拿到页面的 accessibility t...
谈谈超级大模型时代的Agent记忆管理
一个真实的场景最近我一直在用一个 AI Agent 帮我干活——搭博客、写组件库、调样式、部署代码。几天下来,我发现一个有意思的现象: 它记得我喜欢用 pnpm,记得我的 GitHub 用户名,记得我说过”顶部大色块不要了”,甚至记得我微信号是什么。 但有时候它又会犯一些低级错误,比如把已经修过的 bug 再改回去,或者忘了我之前明确说过的偏好。 这让我开始认真思考一个问题:在大模型上下文窗口已经动辄几十万 token 的今天,Agent 的记忆管理到底应该怎么做? 上下文窗口够大,就不需要记忆了吗?很多人有一个直觉:模型的上下文窗口越来越大,128K、200K、甚至 1M token,是不是把所有历史对话塞进去就完事了? 答案是:远远不够。 原因有三个: 1. 成本问题是硬约束即使模型支持 1M token 的上下文,你真的要每次推理都把所有历史塞进去吗?按照目前的 API 定价,一次百万 token 的推理调用,成本可能就是几块钱。一个活跃的 Agent 一天可能要推理几百次。 算一笔账:如果每次都用满 1M 上下文,一天的 API 费用可能就要上千。 这对个人开发者来说完全...
Agent Memory Management in the Era of Super Large Models
A Real ScenarioI’ve been using an AI Agent recently to help me with all sorts of tasks — building a blog, writing a component library, tweaking styles, deploying code. After a few days, I noticed something interesting: It remembers that I prefer pnpm, knows my GitHub username, remembers I said “get rid of the top banner,” and even knows my WeChat ID. But sometimes it makes rookie mistakes — like reverting a bug fix I’d already confirmed, or forgetting a preference I’d explicitly stated. This ...