Skip to content

Manus临近被Meta收购前,季逸超(peak)都聊了些什么干货?

约 8474 字大约 28 分钟

技术专栏

2026-01-13

25年12月份,也就是Manus被META收购前不久,季逸超(英文名Peak, Manus联合创始人兼首席科学家),曾接受过一个专访。好家伙,整整3个半小时、七八万字的高密度输出,我调1.25倍速都快跟不上(正常我听类似视频都是1.5倍速起),季逸超的口才与思维深度与速度真的很不错(英文也可以,难怪宣传视频是他而不是肖弘当主角)。我光是笔记就做了快100页的doc,以下摘录一些核心要点,看看时代最前沿的专家如何看待Agent,以及AI的一切。(注:我尽量引用季逸超的原话)

顺便叠个甲:本笔记只关注技术、产品本身,不涉及讨论政治等内容。

一、个人背景与成长历程

1. 家庭与早期成长

  • 家庭背景:“父亲是北大的物理系教授,传统意义上的科学家;母亲是老一辈中关村连续创业者,现在可以叫企业家”,从小在科技与创业两种风格中成长,“取了一个中间点,就是所谓的科技创业者”。
  • 学习特质:“不是那种聪明孩子,学习也就一般,比较喜欢自己瞎琢磨,偏科”,坦言“没怎么学”,但早早就找到兴趣方向,“幸运的是很早就找到自己喜欢做的事儿”。
  • 关键转折点:2009年APP Store出现,“给了我一个契机,能向父母、同学、老师证明我瞎搞的东西能产生经济价值”,成为“中国第一代软件出海的创业者”,“因为在APP Store之前,喜欢捣鼓软件的人缺乏全球化变现能力,高中生的课外捣鼓也没有第三方指标证明价值”。

2. 三次核心创业经历

(1)第一阶段:猛犸浏览器(Mammoth web browser)

  • 创业契机:高中时期受APP Store启发,开发第三方IOS浏览器,“当时苹果出了iphone之后的第二年,APP Store的出现改变了很多”。
  • 商业模式:“最朴素的by copy模式,每卖一份赚一份固定销售额”,“不需要考虑应用内付款或增值服务,维护成本低”,“当时还成立的一种商业模式,后来移动端软件不再支持这种朴素模式”。
  • 商业成果:“从第一个版本到最后,大概赚了三十多万美金”,“对高二高三的学生来说,已经算是挺开心的事儿”。
  • 终止原因:“IOS系统不断更新导致不兼容,自然从APP Store下架”;更核心是“发现了更好玩的东西——自然语言处理”,主动转向新领域,“因为浏览器的模式一直很单纯,卖一份copy,渐渐变成没人维护的状态”。
  • 行业洞察:“浏览器从古至今,都不是特别适合以创业者或颠覆者的形态来做,更像是巨头有了分发渠道之后锦上添花的事儿”,“当时收到过一些收购offer,但具体是谁不能说”。

(2)第二阶段:Magi(语义搜索+知识图谱)

  • 创业缘起:做浏览器时意识到NLP领域的潜力,“2013年Tomas Mikolov谷歌推出的word2vec论文,是我心中最石破天惊的转折点”,“第一次能较为可靠且高效地把离散化的自然语言文本变成稠密向量,让我们能把其他机器学习和深度学习领域的方法应用在NLP领域”。
  • 行业背景:2011年前后NLP领域状态,“大家关注dependency parsing(依存句法分析),现在这个词已经死透了,新一代做AI的人都不知道”;“中文还要关注Tokenization(切词),比现在大模型的tokenizer更原始,日语、德语也有类似拆词问题”,“当时的解决方案不太scale,需要很重的标注,模型也不够强大”。
  • 核心目标:解决“可穿戴设备或语音界面成熟后,传统搜索10个蓝色链接的交互模式不work”的问题,打造“更结构化、更紧凑的语义搜索,下一代google”,“当时传闻苹果在筹备apple watch,觉得未来交互模式会变革,传统搜索的自由文本不适合小屏幕或语音界面”。
  • 技术突破:
    • 自研Open IE(开放式信息提取)技术,“不需要提前定义规则或schema,AI能自动识别实体及关系,提取三元组,持续构建知识图谱”,“避免了传统NER和关系提取的白名单机制,实现无大纲形式的提取”。
    • 从零训练模型,“2013年底2014年开始,团队分两边,一边做基于传统依存句法分析的解决方案,我这边做基于word2vec向量化的方案”,“后来用LSTM,再到LSTM加attention”。
    • 攻克long context问题,“当年bert默认context length是512个token,去掉CLS和SEP token只剩510个,不够AI读网页,2018年底我们解决了16K长度,当时算很领先,模型后来也开源了”。
  • 产品成果:“做了一款叫Magi的产品,名字来自EVA里的超级计算机,AI能自己去网络看不限领域的文章,持续构建并更新知识图谱,按现在学术定义叫lifelong learning或continuous learning”,“这是我智力、编程和research能力的巅峰”。
  • 关键数据:“最高置信度下的准确度能达到89%点几,比谷歌当时的knowledge vault高”,“支持中文、阿拉伯语等多语言”,“跟英特尔合作,用PMEM(持久化内存)和HNSW算法,自己写了一套向量索引解决scale问题”。
  • 失败原因:
    • 产品层面:“低估了搜索引擎的数据源壁垒,很多数据源跟google形成互利循环,新入局者无法复制其20年积累”;“可穿戴设备和新人机界面落地太晚,直到chatGPT才真正落地”;“Magi从爬虫到索引引擎全是自己手写,工程能力拉满,但非技术问题解决不了”。
    • 商业层面:“一开始想做纯to C,后来因为技术迭代太久慌了想转to B,但团队基因不符”。
    • 技术冲击:2019年拿到GPT3 early access,“随便写个prompt,就能跟我们自研的端到端模型五五开,而且它是通解”,“当时NLP领域大家泾渭分明,做信息抽取、机器翻译、客服系统的各司其职,但GPT3印证了不同任务能大一统”,“之前google的flan-t5已经有苗头,但大家觉得垂直领域还得靠我们,GPT3出来后彻底摁死了我们的想法”,“当时第一反应就是赶紧卖掉公司”。
  • 创业感悟:“那是很多创业者梦寐以求的状态,把人生的夙愿做完,从头基于自己写的infra、自己做的模型去解决别人没解决好的问题”,“把这辈子想试的技术,都以合理的方式花投资人的钱给搞定了,人生已经圆满了,后来做manus已经没有要证明自己的心态了”。

(3)第三阶段:Manus(通用Agent)

  • 职业过渡:
    • 独角兽公司任职:“第二创业失败后,加入一家临上市独角兽负责LLM业务,公司内部有类似Kaggle的榜单系统,赢的越多获得显卡越多,我一个人能存好几十张卡,能捣鼓很多想试的东西,一年半里一直霸榜第一名,这段经历特别开心”。
    • 真格基金EIR:“梳理创业教训,跟更年轻的创业者交流,分享悲惨经历”,“为后续加入Manus铺垫”。
  • 加入契机:“在真格认识肖弘(Manus CEO),被他‘很正常,身心健全,没有任何不良嗜好和极端思想’的特质吸引”,“他擅长我所有不擅长的东西,当今国内外AI创始人一号位里,这种特质很稀缺,很多人是‘没有乔布斯的命,却得了乔布斯的病’,太偏执,甚至有点抑郁”,“最后被他一句话打动:‘Peak,我知道你做过浏览器,你做过搜索引擎,你做过语言模型,你想不想在一个产品里把这三个事都重新做一遍’”。
  • 团队基础:“Monica是我们的学费和cash cow(产生现金流),当时已经有接近1200万美金ARR,盈利状态”,“后来张涛等更多合伙人加入,一起搞全新的事情”。

二、Manus 产品深度解析

1. 产品演进与形态迭代

(1)前期探索:AI原生浏览器

  • 探索背景:“Monica已经有正向现金流且增长不错,我们觉得是当前世界上最懂用户怎么在浏览器里用AI的团队”,“想跳出插件形态,做独立原生浏览器”,“chrome插件商店里,AdBlock和grammerly做了很多年,也只停留在5000万左右量级,而chrome日活有20亿,我们觉得插件形态只能渗透不到1%的用户,很多普通用户甚至不知道chrome能装插件”。
  • 核心设想:“训练端侧模型,减少API消耗,尊重用户隐私;让AI接管浏览器自动化工作流”。
  • 放弃原因:
    • 技术误区:“浏览器本身就是联网的,追求离线端侧运行很傻”;“端侧模型(3B左右)效果远不如云端旗舰模型,用户会拿两者对比,端侧效果一定差一些”。
    • 体验问题:“AI接管电脑会出现抢系统的奇怪体验,比如AI填表时用户滚屏,AI会把网页拉回来,像跟聪明的实习生共用一台电脑”;“短任务AI不如人快,长任务需要电脑保持唤醒,用户无法干别的”;“AI完成简单点击任务的推理时间要5秒、10秒,不如人自己干快,AI真正有价值的是long horizon task,但原生浏览器无法解决电脑休眠的问题”。
    • 行业印证:“美国创业公司the browser company的Arc浏览器创始人宣布停更,理由是‘无法说服亲戚朋友从chrome换成Arc’,印证了浏览器迁移壁垒过高”。
  • 决策过程:“2024年4-9月研发,8月产品可用,9月底正式放弃”,“团队达成共识:产品做完觉得不太酷,自己都不喜欢,用户更不会喜欢”,“肖弘当时就觉得不对,但因为我和张涛是被浏览器忽悠进团队的,不敢跟我们说,怕影响大家情绪”。

(2)Manus 核心形态

  • 灵感来源:“观察到公司里很多非工程师在用cursor,运营同事用它写博客,数据分析同事用它做可视化,cursor是IDE形态,但非目标用户群在用”,“他们根本不看左边的代码,只是不断跟AI交流完成任务,AI通过编程作为媒介解决非编码任务”,“意识到编程不是垂直能力,而是通用能力,是解决通用任务的媒介”。
  • 产品定位:
    • 形态革新:“把AI浏览器搬到云上,让agent在云端异步、并发运行,解放用户注意力”,“包装技术复杂度,不让用户看到代码,面向prosumer(脑力工作者但非程序员)”。
    • 命名由来:“manus是拉丁语‘手’的意思,源自MIT校训‘mens et manus’(心与手合一),别人都在探索‘心智’,我们要做让智能触及现实世界的‘手’”,“之前的产品Mammoth、Magi、Monica都是M开头,纯属巧合,可能M开头的产品运气都不会太差”。
  • 研发与发布:“2024年9月底启动,2025年1月中基本做完,为了对接Claude 3.7的模型迭代,多花一个半月打磨,3月正式发布”,“内部立项名叫Browser in Browser in the air(浏览器里运行浏览器且跑在云上),没有浪费做浏览器期间的技术积累”。

2. 技术架构与关键决策

(1)核心技术选择

  • 模型策略:“不盲目自研大模型,聚焦Context Engineering和Agent框架优化”,“适配多模型优势:Anthropic擅长编码,Gemini强于多模态,OpenAI推理领先”,“token消耗量巨大,是全球范围内各模型厂商top 2到top 5的消耗量”。
  • 虚拟化技术:“基于firecracker做轻量级全虚拟化,支持Linux和Windows双系统”,“每一个Manus会话背后是独立的一次性沙盒,不是分配一台电脑,sandbox scaling非常大”,“内部开玩笑说Manus其实是款个人云计算产品,让不会编程的人也能操作云计算”。
  • 系统架构:“统一的Agent框架,支持上下文和记忆自由流转,不同任务可无缝衔接”;“维护专门为agent设计的linux发行版本,预装很多只有Manus才知道怎么用的工具”;“解决long context问题的思路,‘200K以上的context不重要,更重要的是让模型具备compression awareness(压缩意识),能将上下文信息offload到文件系统或压缩’”。

(2)关键技术决策

  • 放弃端侧模型:“实验证明,小模型的参数化知识无法通过工具使用动态弥补,大参数量还是有用”,“当时假设agent能高频获取外界反馈,参数化知识没那么重要,但后来发现无法分离知识、记忆、泛化能力和参数化背板,不现实”。
  • 保守对待MCP:“MCP会严重污染action space,降低缓存命中率,增加成本”,“研发不在原生action space内的MCP调用方法,后来被Anthropic写成了博客”。
  • 坚持纯血派agent:“完成任务的过程和方式由智能本身决定,不添加人为约束,区别于规则主导的agentic workflow”,“比如做数据可视化,不写一堆guardrail,而是让AI通过查看图片自己发现并修复字体乱码、元素重叠等问题”,“避免减少模型的diversity(多样性)”。
  • 模型优化建议:“让模型学会compression awareness,了解文件系统的offload and retrieve;关注tool integrated reasoning(工具集成推理),结合observation,不是纯缸中之脑的长思维链;支持用户在Agent持续工作时随时插嘴,掌握异步交互模式;提升error resilience(错误处理和恢复能力),面对非代码性错误不放弃、不陷入死循环”。

3. 产品优势与差异化

  • 通用能力:“底层是通用模型+图灵完备的虚拟机,走垂直是加约束,通用能适配更多场景”,“用户可以按想象力使用,团队通过观察用户集体行为模式,优化头部场景,同时保留长尾能力”,“发布初期宣传和case天南海北,不提前引导用户,让用户塑造产品”。
  • 长尾适配:“能解决小众场景问题,比如分子生物学家用小众数据格式做deep research,Manus会自己去github下载开源项目解析数据格式,再完成分析”,“长尾不等于低频,对单个人来说可能是每天的工作任务”。
  • 跨场景协同:“比垂直工具多做一步,比如做网页时先完成deep research,再建后台和数据库,还能分析流量、做PPT、发邮件给潜在投资人”,“不同场景的任务能在一个session内流转,产生内部网络效应”。
  • 数据飞轮:
    • 用户教学数据:“用户会教Agent调整筛选简历的标准,或直接修复Agent做错的文件格式,这些数据能降低系统失败率,让完成同样任务的轮次开销变小”。
    • 主观评价体系:“有专门的evaluation团队,不到10人,负责系统搭建和主观评价,结合用户五星反馈指导迭代”,“agent的自动化evaluation还亟待改善,用户关注点跟理想化benchmark不一样,比如更关注网页长宽比、易用性和美观度”。

4. 商业逻辑与运营数据

  • 营收模式:“从复合收费模式(订阅+top up)简化为‘免费方案+自由选择订阅金额’,默认40美金/月”,“不搞vibe ARR,内部看ARR或MRR只有一个口径,以stripe和移动端的MRR数据为准,不自己骗自己”。
  • 关键数据:
    • Monica:“发布前已有接近1200万美金ARR,盈利状态”,作为公司cash cow。
    • Manus:“ARR超1亿美金,token消耗量是chatbot的几十到上百倍(input与output比例100:1到1000:1),3月发布时是负利润,现在几乎能cover成本,很快会打正”。
    • 用户画像:“prosumer为主,包括互联网公司非程序员白领、远程工作者、自由职业者、金融和咨询从业者”,“核心是有强自驱力、任务高价值的用户”,“有用户一个月能付几千美金,因为有很多高价值任务要跑”。
  • 成本控制:“以质量为先,不会为了成本或速度缩减token消耗量,甚至以消耗更多token为荣”,“涛哥有一个梦想,就是造一个7乘24小时烧token的机器”,“通过影响模型厂商决策,优化成本,比如跟google deepmind合作,帮他们构建evaluation,甚至参与功能定义”。

三、AI 行业洞察与核心观点

1. 模型与应用的关系

  • 边界模糊:“六个月后,不用再分模型公司和应用公司,头部应用公司都会有做模型的能力”,“Cursor推出Composer one模型已经印证了这一点”。
  • 迭代顺序:“先通过产品验证PMF,再以降本、提稳、突破天花板为目标自研模型,而不是早期垂直整合”,“模型迭代追不上产品经理的思维活跃度”,“早期垂直整合是买模型彩票,post-training前不知道模型能不能满足需求,很多时候是突破反向引导产品走向,我之前已经吃过这个亏”。
  • 模型适配问题:“现在大部分模型是为chatbot优化的,与Agent工况不align”,“chatbot倾向于一轮回答完所有问题,Agent需要逐步尝试调整;模型会有context pressure,输出eos的概率增加,导致回答仓促,后面开始疯狂用bullet point总结”,“模型没有为现代context engineering做专门训练,比如不知道context压缩后信息没有消失”。
  • 模型竞争现状:“SOTA保质期只有1-1.5个月,模型公司最终都会做应用,应用公司也会具备模型能力”,“国外头部三家openAI、Anthropic、Gemini之间没有掉队,因为大家在分化、diverse的方向努力,靠长板拉出较高平均值”。

2. Agent 行业趋势

  • 生态格局:“垂直Agent在to B领域百花齐放,通用Agent聚焦to C高价值用户;所有操作系统都会逐渐具备Agentic能力,不会出现单独的Agent OS”,“跟微软有很深的合作,windows右键菜单里会有manus,接下来可以关注microsoft agent 365”。
  • 行业差异:“AI行业更像制造业,有固定成本,用户量增加会导致成本线性提升,对经营能力要求更高”,“移动互联网边际成本低,喜欢‘艺术家式’创始人赌一把,但AI时代这种特质不是优点”,“移动互联网能低成本获得初始用户,AI时代不行”。
  • 创业逻辑:“不做对标,不盲目追风口,重视非技术因素;AI时代创业成本高,Manus上线第一天就日烧几十万美金,需要正向现金流产品支撑”,“不做什么比做什么更重要,Manus一直保持克制,每月思考能删掉什么功能,不陷入功能堆砌”。

3. 争议回应

  • 邀请码机制:“不是营销,是因为云厂商和模型厂商没准备好足够算力,Agent的token消耗模式(prefiling与decoding比例100:1)和chatbot不同,当时放开会崩”,“Claude当时说我们千万别放开,放开他们会挂”,“上线当天跟云厂商打电话要临时加资源,他们物理层面搬卡插到机柜上给我们用,GCP、Azure、AWS都非常支持,从别的项目可用区临时调资源,才撑过第一个月”,“不到一个月就取消邀请码,现在云厂商已适应Agent workload”。
  • 过度营销质疑:“可以郑重说,如果三月份发布时有任何付费宣传,我死全家”,“热度来自产品本身够酷,以及多年广结善缘,朋友自发分享”,“以前跟我们一起成长的小伙伴,有的成了投资人,有的成了自媒体人,看到朋友做的产品愿意帮着写一写”。
  • 国内市场策略:“海外用户付费意愿强,Agent成本高,先保证活下去,暂时不做国内市场”,“国区apple store上的Manus都是山寨品,很多用户骂的是假货”,“国内已有很多类似Manus的产品,难点是商业化跑通,不知道要补贴到什么时候”。
  • 跑路质疑:“跑路这个词不对,我们一直就有新加坡这个实体,一直做全球市场”,“中国出海企业都会这么做,比如temu跟shein也没有国内业务,只是我们是AI公司,获得了额外关注”,“去新加坡是因为团队跨区域协作能力差,想让大家在一个地方办公;同时要服务全球市场,需要做很多合规工作,manus已经通过soc 2的type 1 和type 2,ISO 27701,ISO 27001,gdpr”。

四、团队与管理

1. 核心团队构成

  • 六位联合创始人:
    • 肖弘(red):CEO,Monica原始创始人之一,“产品方面的最终决策者,情绪稳定但容易低落,更感性,擅长我所有不擅长的东西,相信常识且相信团队,能把公司从一个阶段持续带到下一个阶段”。
    • 张涛:CPO,“非常senior的连续创业者,经历过豌豆荚、神策、光年之外,负责产品及对外合作,经常出差,给团队带回宏观的方向性建议,wide research功能就是他在飞机上综合很多想法后一起讨论出来的”。
    • 潘潘:CTO,Monica原始创始人之一,“负责技术相关工作,与我一起拥有技术领域的一票否决权”。
    • 慧杰:CMO,Monica原始创始人之一,“负责营销相关工作”。
    • 陈哲(CZ):COO,“负责公司运营、财务相关工作”。
    • 季逸超(Peak):首席科学家,“负责技术领域决策,不喜欢管人,专注技术研发”。
  • 团队特质:“六个人都是身心健康,无不良嗜好,观念不极端,对烟酒都不太认同”,“基本全都是I人,我只是开朗的内向(INTJ),在聊具体业务的时候能讲很多”,“都是连续创业者,之前都扮演过不止一个岗位,合作比较好”。

2. 决策与管理机制

  • 决策模式:“分GPA模式——定目标(goal)用集权式,red作为CEO把目标定死;定优先级(priority)用集权+民主,有人拍板但大家能充分发表意见;提方案(alternatives)用充分民主,可选方案的数量甚至比质量更重要”,“非常反对投票,认为投票会异化团队,应该围绕目标达成共识,不是通过站队投票”。
  • 核心指导思想:“与其悬而未决,不如赶紧试试”,“很多时候过往经验不一定有用,没有额外信息输入,想太多不如先干了拿到reward再调整”。
  • 组织架构:“大部分人都是研发,有两个特色团队——sandbox team(负责虚拟化和运行环境,维护给agent使用的操作系统)和agent team(由agent工程师、evaluation团队、小的research team组成,负责架构开发、评估和研究)”,“research与engineering深度耦合,产品引导系统架构设计”。
  • 团队文化:“从Monica的‘用户有需求就做,最快路径实现’,变成Manus的‘做每一个新功能前都慎重,保证新增能力能与其他原子能力产生网络效应,让系统整体获益’”,“鼓励员工使用任何AI产品,包括第三方产品,公司尽量报销,让员工了解业界前沿”。

3. 个人角色与风格

  • 季逸超的定位:“技术领域的BDFL(仁慈的终身独裁者),对技术方面的决策有一票否决权”,“非常不喜欢管人,觉得人的复杂度比AI还高,人数增加会导致复杂度指数级增长,而程序的复杂度增长可控”,“管人很占用带宽,自己体力差,不想把时间花在非技术层面,更愿意做自己擅长的事”。
  • 与CEO的配合:“肖弘是产品驱动,我是技术驱动,公司基因是产品驱动,但他充分尊重我的技术决策”,“争论都是务实的讨论,比如要不要做单独chat mode,最后结论都是赶紧做一个试试,跑海量A/B test”。

五、未来展望与个人思考

1. Manus 未来方向

  • 短期聚焦:“proactiveness(主动性),让Agent主动完成更多事”,“内部已有prototype,自己用的很爽,比如每天早晨在用户醒来前,把notion里的面试记录自动填到Ashby里,只让用户确认”,“解放用户的瓶颈,让agent的能动性逐渐发挥出来”。
  • 长期目标:“让所有有高价值工作的白领,都能获得一个7x24小时不断推理的AI伙伴”,“2026年希望把RLI(远程劳动力指标)完成率从2.5%提升到20%-30%,让全世界2.5%甚至更多的GDP获得加速”。
  • 隐忧与坚守:“最大隐忧是失去特色和产品变复杂”,“坚持github的那句话‘everything added dilutes Everything else’(每增加一个东西都会稀释所有的价值),保持克制,不陷入功能堆砌,同时保证持续增长”。

2. 行业未来判断

  • 应用与模型融合:“最终会变成应用之争,每个应用背后会绑一些模型”,“做出一款好的应用比做出一款更好的模型难得多,因为训模型的知识流通很快,尤其硅谷没有竞业,而应用的用户轨迹和feedback留存于应用层,应用公司有独特的数据飞轮”。
  • Agent 爆发:“2026年Agent会渗透到更大的人群,更多应用迈过‘从提效工具到生产要素’的门槛”,“垂直to C Agent会面向非专业用户,比如给非剪辑师做剪辑Agent,是净增益,而不是给专业人士做高要求的垂直工具”。
  • AI 与人类:“AI会取代不喜欢的工作,让人专注自身,学会与AI共处能解放更多可能性”,“大家对AI的恐惧在于用的不够多,就像当年纺织机发明后,很多纺织女工下岗,但获得了全新的工作和生活”。

3. 个人观点与偏好

(1)对行业人物和公司的评价

  • 杨立昆:“业界尊敬,但在商业机构内做研究有痛苦之处,离开meta对双方都是解脱,也给meta解放了很多思想负担”。
  • 田渊栋:“研究方向非常有意思,latent reasoning(潜在推理)解决了RLVR的本质问题,避免了sample步骤,能在平行维度同时考虑多种可能性,reasoning效率更高,还实现了long to short的泛化”,“之前的attention sync、streaming LLM等工作也很有意思”。
  • OpenAI:“非常尊重bottom up的创新文化,能通过小群人的创新逐渐往上走变成产品,但接下来产品和research的平衡是关键,可能会分化成两个目标不同的公司”,“ChatGPT是打透了的产品,chatbot的战争已经结束,但agent需求的用户量级更小”。
  • Anthropic:“最近拿了两笔很大的融资,需要多在算力方面投入”,“在开发者社区影响力强,MCP和Claude Skill都是他们带节奏”,“优化目标是高经济价值任务,跟manus关注点相像”。
  • Gemini(google):“现在状态很好,pre training方面的突破证明pre training还能继续”,“多模态和数据积累强,google搜索引擎的索引是持久差异,别人难以通过技术追上”,“在信息方面和多模态方面会持续领先”。
  • xAI:“马斯克意识到chatbot战争已经结束,更赌pixel in pixel out,认为所有模态都应该统一成这种形式”,“在infra方面的投入有特色,相信要做出差异化的infra方案”。
  • meta:“杨立昆走了也许是积极信号,可能会投入到更朴素且有快速成效的工作中来”,“llama团队换了好几拨人,有很多场外因素导致在这波AI里表现落后”。
  • thinking machine labs:“tinker API的抽象层级很好,抽象为四组关键API,适合中小规模研究团队”,“目前成本有点高,成败主要看千问团队,因为千问提供的同源模型光谱最全,对研究很重要”。

(2)关键论文与书籍

  • 影响AI进程的论文:“word2vec(稠密向量里程碑)、FLAN-T5(任务大一统雏形)”,“不跟风说attention is all you need”。
  • 推荐书籍:“平时读书特别少,推荐《线条小狗》画册”。

(3)快问快答

  • 喜欢的食物:“Mac&cheese(垃圾食品)”。
  • 喜欢的地点:“北京”。
  • 冷知识:“海带不是动物”,“因为海鲜过敏,经常要跟大家解释,周围人都不知道”。
  • 关键赌注:“AI接下来的进步需要用户的参与”。

六、核心语录汇总

  1. “没有乔布斯的命,却得了乔布斯的病——很多AI创始人太偏执,肖弘的‘正常’是稀缺特质”。
  2. “移动互联网时代喜欢艺术家式创始人,AI时代更像制造业,需要稳健的经营能力”。
  3. “做Agent其实跟训模型很像,更重要的是做对1000件小事,而不是做对三个大事儿”。
  4. “AI产品的垄断是垄断一种心智,而不是垄断整个市场,因为用户需求是多元的”。
  5. “纯血派Agent的天花板更高,因为它没有人为约束,完全靠智能本身解决问题”。
  6. “不做什么比做什么更重要,Manus一直保持克制,每月都在想能删掉什么功能”。
  7. “模型无法internalize环境,所以垂直整合进模型做Agent是行不通的”。
  8. “创业公司跟大厂竞争,就是赶紧成为大厂——不是规模上超越,而是在自己的赛道上比大厂的对应团队更强”。
  9. “我们没有活着的权利,活着的权利是自己持续跑才能争取来的”。
  10. “AI bubble客观存在,但这波AI有用,过度建设是人类历史的常态”。
  11. “for every complex problem there is an answer that is simple,clear and wrong——对任何复杂问题总能有一个简单清晰但错误的回答,我们很多时候在过度总结”。
  12. “everything added dilutes Everything else——每增加一个东西都会稀释所有的价值(github名言)”。
  13. “attention is all you need——我们希望解脱用户的attention,让agent在云端异步执行”。
  14. “Bitter lesson(苦涩的教训)——人类历史上AI的进步基本全是用通用方法投入更大的算力,而不是增加人为的专家知识注入”。
  15. “早一步是先驱,走十步就是先烈——创业要把握时机,不能过于超前”。
  16. :“…大家常说品味我觉得该怎么体现出来呢?品味可能体现在你的evaluation或者你内部的benchmark上。甚至我觉得这可能是所有AI公司唯一的护城河。”(强调内部评价体系的重要性。)
  17. “Manus跟所有人我觉得都不是一个竞争的关系。我们是一个网络中的节点,但很多时候价值其实不是在网络节点,是在网络的边上。”(阐释Manus作为通用Agent与垂直Agent的共生关系。)
  18. “如果一个产品做完你觉得不太酷,就别发,你都觉得不酷,没人会觉得酷。”(Manus放弃AI浏览器项目的核心判断依据。)
  19. “不要把人的限制强加给 Agent—— 人类分工是因为能力有限,模型是全能的,无需生搬硬套组织架构。”(批判 Multi-Agent 角色分工的误区)
  20. “做通用 Agent 不是‘大而全’,而是让每个单点能力都能与其他能力产生网络效应,多走一步就是壁垒。”(解释通用策略的本质)
  21. “Context Window 不是越长越好,让模型学会‘压缩感知’和‘记忆卸载’更重要。”(对技术趋势的判断)