Manus临近被Meta收购前,季逸超(peak)都聊了些什么干货?
25年12月份,也就是Manus被META收购前不久,季逸超(英文名Peak, Manus联合创始人兼首席科学家),曾接受过一个专访。好家伙,整整3个半小时、七八万字的高密度输出,我调1.25倍速都快跟不上(正常我听类似视频都是1.5倍速起),季逸超的口才与思维深度与速度真的很不错(英文也可以,难怪宣传视频是他而不是肖弘当主角)。我光是笔记就做了快100页的doc,以下摘录一些核心要点,看看时代最前沿的专家如何看待Agent,以及AI的一切。(注:我尽量引用季逸超的原话)
顺便叠个甲:本笔记只关注技术、产品本身,不涉及讨论政治等内容。
一、个人背景与成长历程
1. 家庭与早期成长
- 家庭背景:“父亲是北大的物理系教授,传统意义上的科学家;母亲是老一辈中关村连续创业者,现在可以叫企业家”,从小在科技与创业两种风格中成长,“取了一个中间点,就是所谓的科技创业者”。
- 学习特质:“不是那种聪明孩子,学习也就一般,比较喜欢自己瞎琢磨,偏科”,坦言“没怎么学”,但早早就找到兴趣方向,“幸运的是很早就找到自己喜欢做的事儿”。
- 关键转折点:2009年APP Store出现,“给了我一个契机,能向父母、同学、老师证明我瞎搞的东西能产生经济价值”,成为“中国第一代软件出海的创业者”,“因为在APP Store之前,喜欢捣鼓软件的人缺乏全球化变现能力,高中生的课外捣鼓也没有第三方指标证明价值”。
2. 三次核心创业经历
(1)第一阶段:猛犸浏览器(Mammoth web browser)
- 创业契机:高中时期受APP Store启发,开发第三方IOS浏览器,“当时苹果出了iphone之后的第二年,APP Store的出现改变了很多”。
- 商业模式:“最朴素的by copy模式,每卖一份赚一份固定销售额”,“不需要考虑应用内付款或增值服务,维护成本低”,“当时还成立的一种商业模式,后来移动端软件不再支持这种朴素模式”。
- 商业成果:“从第一个版本到最后,大概赚了三十多万美金”,“对高二高三的学生来说,已经算是挺开心的事儿”。
- 终止原因:“IOS系统不断更新导致不兼容,自然从APP Store下架”;更核心是“发现了更好玩的东西——自然语言处理”,主动转向新领域,“因为浏览器的模式一直很单纯,卖一份copy,渐渐变成没人维护的状态”。
- 行业洞察:“浏览器从古至今,都不是特别适合以创业者或颠覆者的形态来做,更像是巨头有了分发渠道之后锦上添花的事儿”,“当时收到过一些收购offer,但具体是谁不能说”。
(2)第二阶段:Magi(语义搜索+知识图谱)
- 创业缘起:做浏览器时意识到NLP领域的潜力,“2013年Tomas Mikolov谷歌推出的word2vec论文,是我心中最石破天惊的转折点”,“第一次能较为可靠且高效地把离散化的自然语言文本变成稠密向量,让我们能把其他机器学习和深度学习领域的方法应用在NLP领域”。
- 行业背景:2011年前后NLP领域状态,“大家关注dependency parsing(依存句法分析),现在这个词已经死透了,新一代做AI的人都不知道”;“中文还要关注Tokenization(切词),比现在大模型的tokenizer更原始,日语、德语也有类似拆词问题”,“当时的解决方案不太scale,需要很重的标注,模型也不够强大”。
- 核心目标:解决“可穿戴设备或语音界面成熟后,传统搜索10个蓝色链接的交互模式不work”的问题,打造“更结构化、更紧凑的语义搜索,下一代google”,“当时传闻苹果在筹备apple watch,觉得未来交互模式会变革,传统搜索的自由文本不适合小屏幕或语音界面”。
- 技术突破:
- 自研Open IE(开放式信息提取)技术,“不需要提前定义规则或schema,AI能自动识别实体及关系,提取三元组,持续构建知识图谱”,“避免了传统NER和关系提取的白名单机制,实现无大纲形式的提取”。
- 从零训练模型,“2013年底2014年开始,团队分两边,一边做基于传统依存句法分析的解决方案,我这边做基于word2vec向量化的方案”,“后来用LSTM,再到LSTM加attention”。
- 攻克long context问题,“当年bert默认context length是512个token,去掉CLS和SEP token只剩510个,不够AI读网页,2018年底我们解决了16K长度,当时算很领先,模型后来也开源了”。
- 产品成果:“做了一款叫Magi的产品,名字来自EVA里的超级计算机,AI能自己去网络看不限领域的文章,持续构建并更新知识图谱,按现在学术定义叫lifelong learning或continuous learning”,“这是我智力、编程和research能力的巅峰”。
- 关键数据:“最高置信度下的准确度能达到89%点几,比谷歌当时的knowledge vault高”,“支持中文、阿拉伯语等多语言”,“跟英特尔合作,用PMEM(持久化内存)和HNSW算法,自己写了一套向量索引解决scale问题”。
- 失败原因:
- 产品层面:“低估了搜索引擎的数据源壁垒,很多数据源跟google形成互利循环,新入局者无法复制其20年积累”;“可穿戴设备和新人机界面落地太晚,直到chatGPT才真正落地”;“Magi从爬虫到索引引擎全是自己手写,工程能力拉满,但非技术问题解决不了”。
- 商业层面:“一开始想做纯to C,后来因为技术迭代太久慌了想转to B,但团队基因不符”。
- 技术冲击:2019年拿到GPT3 early access,“随便写个prompt,就能跟我们自研的端到端模型五五开,而且它是通解”,“当时NLP领域大家泾渭分明,做信息抽取、机器翻译、客服系统的各司其职,但GPT3印证了不同任务能大一统”,“之前google的flan-t5已经有苗头,但大家觉得垂直领域还得靠我们,GPT3出来后彻底摁死了我们的想法”,“当时第一反应就是赶紧卖掉公司”。
- 创业感悟:“那是很多创业者梦寐以求的状态,把人生的夙愿做完,从头基于自己写的infra、自己做的模型去解决别人没解决好的问题”,“把这辈子想试的技术,都以合理的方式花投资人的钱给搞定了,人生已经圆满了,后来做manus已经没有要证明自己的心态了”。
(3)第三阶段:Manus(通用Agent)
- 职业过渡:
- 独角兽公司任职:“第二创业失败后,加入一家临上市独角兽负责LLM业务,公司内部有类似Kaggle的榜单系统,赢的越多获得显卡越多,我一个人能存好几十张卡,能捣鼓很多想试的东西,一年半里一直霸榜第一名,这段经历特别开心”。
- 真格基金EIR:“梳理创业教训,跟更年轻的创业者交流,分享悲惨经历”,“为后续加入Manus铺垫”。
- 加入契机:“在真格认识肖弘(Manus CEO),被他‘很正常,身心健全,没有任何不良嗜好和极端思想’的特质吸引”,“他擅长我所有不擅长的东西,当今国内外AI创始人一号位里,这种特质很稀缺,很多人是‘没有乔布斯的命,却得了乔布斯的病’,太偏执,甚至有点抑郁”,“最后被他一句话打动:‘Peak,我知道你做过浏览器,你做过搜索引擎,你做过语言模型,你想不想在一个产品里把这三个事都重新做一遍’”。
- 团队基础:“Monica是我们的学费和cash cow(产生现金流),当时已经有接近1200万美金ARR,盈利状态”,“后来张涛等更多合伙人加入,一起搞全新的事情”。
二、Manus 产品深度解析
1. 产品演进与形态迭代
(1)前期探索:AI原生浏览器
- 探索背景:“Monica已经有正向现金流且增长不错,我们觉得是当前世界上最懂用户怎么在浏览器里用AI的团队”,“想跳出插件形态,做独立原生浏览器”,“chrome插件商店里,AdBlock和grammerly做了很多年,也只停留在5000万左右量级,而chrome日活有20亿,我们觉得插件形态只能渗透不到1%的用户,很多普通用户甚至不知道chrome能装插件”。
- 核心设想:“训练端侧模型,减少API消耗,尊重用户隐私;让AI接管浏览器自动化工作流”。
- 放弃原因:
- 技术误区:“浏览器本身就是联网的,追求离线端侧运行很傻”;“端侧模型(3B左右)效果远不如云端旗舰模型,用户会拿两者对比,端侧效果一定差一些”。
- 体验问题:“AI接管电脑会出现抢系统的奇怪体验,比如AI填表时用户滚屏,AI会把网页拉回来,像跟聪明的实习生共用一台电脑”;“短任务AI不如人快,长任务需要电脑保持唤醒,用户无法干别的”;“AI完成简单点击任务的推理时间要5秒、10秒,不如人自己干快,AI真正有价值的是long horizon task,但原生浏览器无法解决电脑休眠的问题”。
- 行业印证:“美国创业公司the browser company的Arc浏览器创始人宣布停更,理由是‘无法说服亲戚朋友从chrome换成Arc’,印证了浏览器迁移壁垒过高”。
- 决策过程:“2024年4-9月研发,8月产品可用,9月底正式放弃”,“团队达成共识:产品做完觉得不太酷,自己都不喜欢,用户更不会喜欢”,“肖弘当时就觉得不对,但因为我和张涛是被浏览器忽悠进团队的,不敢跟我们说,怕影响大家情绪”。
(2)Manus 核心形态
- 灵感来源:“观察到公司里很多非工程师在用cursor,运营同事用它写博客,数据分析同事用它做可视化,cursor是IDE形态,但非目标用户群在用”,“他们根本不看左边的代码,只是不断跟AI交流完成任务,AI通过编程作为媒介解决非编码任务”,“意识到编程不是垂直能力,而是通用能力,是解决通用任务的媒介”。
- 产品定位:
- 形态革新:“把AI浏览器搬到云上,让agent在云端异步、并发运行,解放用户注意力”,“包装技术复杂度,不让用户看到代码,面向prosumer(脑力工作者但非程序员)”。
- 命名由来:“manus是拉丁语‘手’的意思,源自MIT校训‘mens et manus’(心与手合一),别人都在探索‘心智’,我们要做让智能触及现实世界的‘手’”,“之前的产品Mammoth、Magi、Monica都是M开头,纯属巧合,可能M开头的产品运气都不会太差”。
- 研发与发布:“2024年9月底启动,2025年1月中基本做完,为了对接Claude 3.7的模型迭代,多花一个半月打磨,3月正式发布”,“内部立项名叫Browser in Browser in the air(浏览器里运行浏览器且跑在云上),没有浪费做浏览器期间的技术积累”。
2. 技术架构与关键决策
(1)核心技术选择
- 模型策略:“不盲目自研大模型,聚焦Context Engineering和Agent框架优化”,“适配多模型优势:Anthropic擅长编码,Gemini强于多模态,OpenAI推理领先”,“token消耗量巨大,是全球范围内各模型厂商top 2到top 5的消耗量”。
- 虚拟化技术:“基于firecracker做轻量级全虚拟化,支持Linux和Windows双系统”,“每一个Manus会话背后是独立的一次性沙盒,不是分配一台电脑,sandbox scaling非常大”,“内部开玩笑说Manus其实是款个人云计算产品,让不会编程的人也能操作云计算”。
- 系统架构:“统一的Agent框架,支持上下文和记忆自由流转,不同任务可无缝衔接”;“维护专门为agent设计的linux发行版本,预装很多只有Manus才知道怎么用的工具”;“解决long context问题的思路,‘200K以上的context不重要,更重要的是让模型具备compression awareness(压缩意识),能将上下文信息offload到文件系统或压缩’”。
(2)关键技术决策
- 放弃端侧模型:“实验证明,小模型的参数化知识无法通过工具使用动态弥补,大参数量还是有用”,“当时假设agent能高频获取外界反馈,参数化知识没那么重要,但后来发现无法分离知识、记忆、泛化能力和参数化背板,不现实”。
- 保守对待MCP:“MCP会严重污染action space,降低缓存命中率,增加成本”,“研发不在原生action space内的MCP调用方法,后来被Anthropic写成了博客”。
- 坚持纯血派agent:“完成任务的过程和方式由智能本身决定,不添加人为约束,区别于规则主导的agentic workflow”,“比如做数据可视化,不写一堆guardrail,而是让AI通过查看图片自己发现并修复字体乱码、元素重叠等问题”,“避免减少模型的diversity(多样性)”。
- 模型优化建议:“让模型学会compression awareness,了解文件系统的offload and retrieve;关注tool integrated reasoning(工具集成推理),结合observation,不是纯缸中之脑的长思维链;支持用户在Agent持续工作时随时插嘴,掌握异步交互模式;提升error resilience(错误处理和恢复能力),面对非代码性错误不放弃、不陷入死循环”。
3. 产品优势与差异化
- 通用能力:“底层是通用模型+图灵完备的虚拟机,走垂直是加约束,通用能适配更多场景”,“用户可以按想象力使用,团队通过观察用户集体行为模式,优化头部场景,同时保留长尾能力”,“发布初期宣传和case天南海北,不提前引导用户,让用户塑造产品”。
- 长尾适配:“能解决小众场景问题,比如分子生物学家用小众数据格式做deep research,Manus会自己去github下载开源项目解析数据格式,再完成分析”,“长尾不等于低频,对单个人来说可能是每天的工作任务”。
- 跨场景协同:“比垂直工具多做一步,比如做网页时先完成deep research,再建后台和数据库,还能分析流量、做PPT、发邮件给潜在投资人”,“不同场景的任务能在一个session内流转,产生内部网络效应”。
- 数据飞轮:
- 用户教学数据:“用户会教Agent调整筛选简历的标准,或直接修复Agent做错的文件格式,这些数据能降低系统失败率,让完成同样任务的轮次开销变小”。
- 主观评价体系:“有专门的evaluation团队,不到10人,负责系统搭建和主观评价,结合用户五星反馈指导迭代”,“agent的自动化evaluation还亟待改善,用户关注点跟理想化benchmark不一样,比如更关注网页长宽比、易用性和美观度”。
4. 商业逻辑与运营数据
- 营收模式:“从复合收费模式(订阅+top up)简化为‘免费方案+自由选择订阅金额’,默认40美金/月”,“不搞vibe ARR,内部看ARR或MRR只有一个口径,以stripe和移动端的MRR数据为准,不自己骗自己”。
- 关键数据:
- Monica:“发布前已有接近1200万美金ARR,盈利状态”,作为公司cash cow。
- Manus:“ARR超1亿美金,token消耗量是chatbot的几十到上百倍(input与output比例100:1到1000:1),3月发布时是负利润,现在几乎能cover成本,很快会打正”。
- 用户画像:“prosumer为主,包括互联网公司非程序员白领、远程工作者、自由职业者、金融和咨询从业者”,“核心是有强自驱力、任务高价值的用户”,“有用户一个月能付几千美金,因为有很多高价值任务要跑”。
- 成本控制:“以质量为先,不会为了成本或速度缩减token消耗量,甚至以消耗更多token为荣”,“涛哥有一个梦想,就是造一个7乘24小时烧token的机器”,“通过影响模型厂商决策,优化成本,比如跟google deepmind合作,帮他们构建evaluation,甚至参与功能定义”。
三、AI 行业洞察与核心观点
1. 模型与应用的关系
- 边界模糊:“六个月后,不用再分模型公司和应用公司,头部应用公司都会有做模型的能力”,“Cursor推出Composer one模型已经印证了这一点”。
- 迭代顺序:“先通过产品验证PMF,再以降本、提稳、突破天花板为目标自研模型,而不是早期垂直整合”,“模型迭代追不上产品经理的思维活跃度”,“早期垂直整合是买模型彩票,post-training前不知道模型能不能满足需求,很多时候是突破反向引导产品走向,我之前已经吃过这个亏”。
- 模型适配问题:“现在大部分模型是为chatbot优化的,与Agent工况不align”,“chatbot倾向于一轮回答完所有问题,Agent需要逐步尝试调整;模型会有context pressure,输出eos的概率增加,导致回答仓促,后面开始疯狂用bullet point总结”,“模型没有为现代context engineering做专门训练,比如不知道context压缩后信息没有消失”。
- 模型竞争现状:“SOTA保质期只有1-1.5个月,模型公司最终都会做应用,应用公司也会具备模型能力”,“国外头部三家openAI、Anthropic、Gemini之间没有掉队,因为大家在分化、diverse的方向努力,靠长板拉出较高平均值”。
2. Agent 行业趋势
- 生态格局:“垂直Agent在to B领域百花齐放,通用Agent聚焦to C高价值用户;所有操作系统都会逐渐具备Agentic能力,不会出现单独的Agent OS”,“跟微软有很深的合作,windows右键菜单里会有manus,接下来可以关注microsoft agent 365”。
- 行业差异:“AI行业更像制造业,有固定成本,用户量增加会导致成本线性提升,对经营能力要求更高”,“移动互联网边际成本低,喜欢‘艺术家式’创始人赌一把,但AI时代这种特质不是优点”,“移动互联网能低成本获得初始用户,AI时代不行”。
- 创业逻辑:“不做对标,不盲目追风口,重视非技术因素;AI时代创业成本高,Manus上线第一天就日烧几十万美金,需要正向现金流产品支撑”,“不做什么比做什么更重要,Manus一直保持克制,每月思考能删掉什么功能,不陷入功能堆砌”。
3. 争议回应
- 邀请码机制:“不是营销,是因为云厂商和模型厂商没准备好足够算力,Agent的token消耗模式(prefiling与decoding比例100:1)和chatbot不同,当时放开会崩”,“Claude当时说我们千万别放开,放开他们会挂”,“上线当天跟云厂商打电话要临时加资源,他们物理层面搬卡插到机柜上给我们用,GCP、Azure、AWS都非常支持,从别的项目可用区临时调资源,才撑过第一个月”,“不到一个月就取消邀请码,现在云厂商已适应Agent workload”。
- 过度营销质疑:“可以郑重说,如果三月份发布时有任何付费宣传,我死全家”,“热度来自产品本身够酷,以及多年广结善缘,朋友自发分享”,“以前跟我们一起成长的小伙伴,有的成了投资人,有的成了自媒体人,看到朋友做的产品愿意帮着写一写”。
- 国内市场策略:“海外用户付费意愿强,Agent成本高,先保证活下去,暂时不做国内市场”,“国区apple store上的Manus都是山寨品,很多用户骂的是假货”,“国内已有很多类似Manus的产品,难点是商业化跑通,不知道要补贴到什么时候”。
- 跑路质疑:“跑路这个词不对,我们一直就有新加坡这个实体,一直做全球市场”,“中国出海企业都会这么做,比如temu跟shein也没有国内业务,只是我们是AI公司,获得了额外关注”,“去新加坡是因为团队跨区域协作能力差,想让大家在一个地方办公;同时要服务全球市场,需要做很多合规工作,manus已经通过soc 2的type 1 和type 2,ISO 27701,ISO 27001,gdpr”。
四、团队与管理
1. 核心团队构成
- 六位联合创始人:
- 肖弘(red):CEO,Monica原始创始人之一,“产品方面的最终决策者,情绪稳定但容易低落,更感性,擅长我所有不擅长的东西,相信常识且相信团队,能把公司从一个阶段持续带到下一个阶段”。
- 张涛:CPO,“非常senior的连续创业者,经历过豌豆荚、神策、光年之外,负责产品及对外合作,经常出差,给团队带回宏观的方向性建议,wide research功能就是他在飞机上综合很多想法后一起讨论出来的”。
- 潘潘:CTO,Monica原始创始人之一,“负责技术相关工作,与我一起拥有技术领域的一票否决权”。
- 慧杰:CMO,Monica原始创始人之一,“负责营销相关工作”。
- 陈哲(CZ):COO,“负责公司运营、财务相关工作”。
- 季逸超(Peak):首席科学家,“负责技术领域决策,不喜欢管人,专注技术研发”。
- 团队特质:“六个人都是身心健康,无不良嗜好,观念不极端,对烟酒都不太认同”,“基本全都是I人,我只是开朗的内向(INTJ),在聊具体业务的时候能讲很多”,“都是连续创业者,之前都扮演过不止一个岗位,合作比较好”。
2. 决策与管理机制
- 决策模式:“分GPA模式——定目标(goal)用集权式,red作为CEO把目标定死;定优先级(priority)用集权+民主,有人拍板但大家能充分发表意见;提方案(alternatives)用充分民主,可选方案的数量甚至比质量更重要”,“非常反对投票,认为投票会异化团队,应该围绕目标达成共识,不是通过站队投票”。
- 核心指导思想:“与其悬而未决,不如赶紧试试”,“很多时候过往经验不一定有用,没有额外信息输入,想太多不如先干了拿到reward再调整”。
- 组织架构:“大部分人都是研发,有两个特色团队——sandbox team(负责虚拟化和运行环境,维护给agent使用的操作系统)和agent team(由agent工程师、evaluation团队、小的research team组成,负责架构开发、评估和研究)”,“research与engineering深度耦合,产品引导系统架构设计”。
- 团队文化:“从Monica的‘用户有需求就做,最快路径实现’,变成Manus的‘做每一个新功能前都慎重,保证新增能力能与其他原子能力产生网络效应,让系统整体获益’”,“鼓励员工使用任何AI产品,包括第三方产品,公司尽量报销,让员工了解业界前沿”。
3. 个人角色与风格
- 季逸超的定位:“技术领域的BDFL(仁慈的终身独裁者),对技术方面的决策有一票否决权”,“非常不喜欢管人,觉得人的复杂度比AI还高,人数增加会导致复杂度指数级增长,而程序的复杂度增长可控”,“管人很占用带宽,自己体力差,不想把时间花在非技术层面,更愿意做自己擅长的事”。
- 与CEO的配合:“肖弘是产品驱动,我是技术驱动,公司基因是产品驱动,但他充分尊重我的技术决策”,“争论都是务实的讨论,比如要不要做单独chat mode,最后结论都是赶紧做一个试试,跑海量A/B test”。
五、未来展望与个人思考
1. Manus 未来方向
- 短期聚焦:“proactiveness(主动性),让Agent主动完成更多事”,“内部已有prototype,自己用的很爽,比如每天早晨在用户醒来前,把notion里的面试记录自动填到Ashby里,只让用户确认”,“解放用户的瓶颈,让agent的能动性逐渐发挥出来”。
- 长期目标:“让所有有高价值工作的白领,都能获得一个7x24小时不断推理的AI伙伴”,“2026年希望把RLI(远程劳动力指标)完成率从2.5%提升到20%-30%,让全世界2.5%甚至更多的GDP获得加速”。
- 隐忧与坚守:“最大隐忧是失去特色和产品变复杂”,“坚持github的那句话‘everything added dilutes Everything else’(每增加一个东西都会稀释所有的价值),保持克制,不陷入功能堆砌,同时保证持续增长”。
2. 行业未来判断
- 应用与模型融合:“最终会变成应用之争,每个应用背后会绑一些模型”,“做出一款好的应用比做出一款更好的模型难得多,因为训模型的知识流通很快,尤其硅谷没有竞业,而应用的用户轨迹和feedback留存于应用层,应用公司有独特的数据飞轮”。
- Agent 爆发:“2026年Agent会渗透到更大的人群,更多应用迈过‘从提效工具到生产要素’的门槛”,“垂直to C Agent会面向非专业用户,比如给非剪辑师做剪辑Agent,是净增益,而不是给专业人士做高要求的垂直工具”。
- AI 与人类:“AI会取代不喜欢的工作,让人专注自身,学会与AI共处能解放更多可能性”,“大家对AI的恐惧在于用的不够多,就像当年纺织机发明后,很多纺织女工下岗,但获得了全新的工作和生活”。
3. 个人观点与偏好
(1)对行业人物和公司的评价
- 杨立昆:“业界尊敬,但在商业机构内做研究有痛苦之处,离开meta对双方都是解脱,也给meta解放了很多思想负担”。
- 田渊栋:“研究方向非常有意思,latent reasoning(潜在推理)解决了RLVR的本质问题,避免了sample步骤,能在平行维度同时考虑多种可能性,reasoning效率更高,还实现了long to short的泛化”,“之前的attention sync、streaming LLM等工作也很有意思”。
- OpenAI:“非常尊重bottom up的创新文化,能通过小群人的创新逐渐往上走变成产品,但接下来产品和research的平衡是关键,可能会分化成两个目标不同的公司”,“ChatGPT是打透了的产品,chatbot的战争已经结束,但agent需求的用户量级更小”。
- Anthropic:“最近拿了两笔很大的融资,需要多在算力方面投入”,“在开发者社区影响力强,MCP和Claude Skill都是他们带节奏”,“优化目标是高经济价值任务,跟manus关注点相像”。
- Gemini(google):“现在状态很好,pre training方面的突破证明pre training还能继续”,“多模态和数据积累强,google搜索引擎的索引是持久差异,别人难以通过技术追上”,“在信息方面和多模态方面会持续领先”。
- xAI:“马斯克意识到chatbot战争已经结束,更赌pixel in pixel out,认为所有模态都应该统一成这种形式”,“在infra方面的投入有特色,相信要做出差异化的infra方案”。
- meta:“杨立昆走了也许是积极信号,可能会投入到更朴素且有快速成效的工作中来”,“llama团队换了好几拨人,有很多场外因素导致在这波AI里表现落后”。
- thinking machine labs:“tinker API的抽象层级很好,抽象为四组关键API,适合中小规模研究团队”,“目前成本有点高,成败主要看千问团队,因为千问提供的同源模型光谱最全,对研究很重要”。
(2)关键论文与书籍
- 影响AI进程的论文:“word2vec(稠密向量里程碑)、FLAN-T5(任务大一统雏形)”,“不跟风说attention is all you need”。
- 推荐书籍:“平时读书特别少,推荐《线条小狗》画册”。
(3)快问快答
- 喜欢的食物:“Mac&cheese(垃圾食品)”。
- 喜欢的地点:“北京”。
- 冷知识:“海带不是动物”,“因为海鲜过敏,经常要跟大家解释,周围人都不知道”。
- 关键赌注:“AI接下来的进步需要用户的参与”。
六、核心语录汇总
- “没有乔布斯的命,却得了乔布斯的病——很多AI创始人太偏执,肖弘的‘正常’是稀缺特质”。
- “移动互联网时代喜欢艺术家式创始人,AI时代更像制造业,需要稳健的经营能力”。
- “做Agent其实跟训模型很像,更重要的是做对1000件小事,而不是做对三个大事儿”。
- “AI产品的垄断是垄断一种心智,而不是垄断整个市场,因为用户需求是多元的”。
- “纯血派Agent的天花板更高,因为它没有人为约束,完全靠智能本身解决问题”。
- “不做什么比做什么更重要,Manus一直保持克制,每月都在想能删掉什么功能”。
- “模型无法internalize环境,所以垂直整合进模型做Agent是行不通的”。
- “创业公司跟大厂竞争,就是赶紧成为大厂——不是规模上超越,而是在自己的赛道上比大厂的对应团队更强”。
- “我们没有活着的权利,活着的权利是自己持续跑才能争取来的”。
- “AI bubble客观存在,但这波AI有用,过度建设是人类历史的常态”。
- “for every complex problem there is an answer that is simple,clear and wrong——对任何复杂问题总能有一个简单清晰但错误的回答,我们很多时候在过度总结”。
- “everything added dilutes Everything else——每增加一个东西都会稀释所有的价值(github名言)”。
- “attention is all you need——我们希望解脱用户的attention,让agent在云端异步执行”。
- “Bitter lesson(苦涩的教训)——人类历史上AI的进步基本全是用通用方法投入更大的算力,而不是增加人为的专家知识注入”。
- “早一步是先驱,走十步就是先烈——创业要把握时机,不能过于超前”。
- :“…大家常说品味我觉得该怎么体现出来呢?品味可能体现在你的evaluation或者你内部的benchmark上。甚至我觉得这可能是所有AI公司唯一的护城河。”(强调内部评价体系的重要性。)
- “Manus跟所有人我觉得都不是一个竞争的关系。我们是一个网络中的节点,但很多时候价值其实不是在网络节点,是在网络的边上。”(阐释Manus作为通用Agent与垂直Agent的共生关系。)
- “如果一个产品做完你觉得不太酷,就别发,你都觉得不酷,没人会觉得酷。”(Manus放弃AI浏览器项目的核心判断依据。)
- “不要把人的限制强加给 Agent—— 人类分工是因为能力有限,模型是全能的,无需生搬硬套组织架构。”(批判 Multi-Agent 角色分工的误区)
- “做通用 Agent 不是‘大而全’,而是让每个单点能力都能与其他能力产生网络效应,多走一步就是壁垒。”(解释通用策略的本质)
- “Context Window 不是越长越好,让模型学会‘压缩感知’和‘记忆卸载’更重要。”(对技术趋势的判断)
