查看原文
其他

MindOS:站在AGI风口,创业两年的教训与思考

Founder Park 2023-12-16

The following article is from Kisson不聊广告改煲鸡汤了 Author Kisson

Mindverse心识宇宙成立于2022年1月,自主研发了一套以大模型为底座的脑启发AI模型。心识宇宙旗下的产品MindOS在2022年11月初发布了内测版本,面向少数B端客户试点。这是一个AI角色生成引擎,通过简单的填写配置、拖拽上传,就能完成一个具备专业知识、记忆和人格的AI角色,大大提升应用交互的体验。

这篇文章,是心识宇宙联创&COO林宋琪根据其在阿里的分享整理的稿件,分享了他们创业两年来的思考。



01

MindOS: 创业一年,风口来得太猛烈

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=g3531mt56c6

MindOS第一支演示视频 (2021年)

2021年底我们拿着这个视频出来融资的时候,我们跟投资人讲 AGI,讲AI agent,讲LUI与未来的人机交互,讲AI-native的操作系统。投资人问:AGI是什么?多久能实现?

投资人最常问的一些问题:
AGI是什么?多久能实现?
有哪些单点问题AGI能解决得比现在的AI好?
大厂都没搞出来,凭什么你们能搞出来?
大厂搞出来了,你们凭什么能跟它们竞争?
一个做虚拟人的干嘛叫OS?
护城河是什么?差异化打法是什么?
你们商业模式是什么?今年打算赚多少钱?

当时我们想大概20年,但我们很鸡贼地给投资人画饼说5年左右吧。

事实证明我们还是格局小了。创业不到一年,ChatGPT横空出世,让几乎所有人一夜之间知道了AGI的概念,给世界,也给我们,带来了非常深远的影响。

ChatGPT推出之前,我们判断当时的AI就像自动驾驶的L1, 那么从L1到L4的过程中最重要的是什么?是技术不成熟的时候怎么落地赚钱,让现金流可以支撑到技术成熟的阶段。所以我们选择了2B, 并且切入营销场景,因为他们有钱且愿意尝鲜 -- 即使这样,还是碰了很多壁,因为当时大家关注虚拟人、元宇宙、文生图;客户对AI agent的理解就是有个形象的客服机器人。也的确,2B不能创造新赛道,也不能在技术还没成熟去强推。

ChatGPT推出之后,我们最大的挑战一下子变成了如何一夜之间滚动飞轮,在千团大战中搭建壁垒。于是我们就做了两个大的转型决策:1是从2B转向2C,因为2B的决策周期会大大拖慢构建规模壁垒的速度;2是从尝试用开源fine-tune到直接接GPT的API,因为用户不在乎你是否自研,他们只在乎多快好省。当然还有另一个大转型就是从国内转向国外,但这是另一个故事了。

那时候Character.ai也很火。和每况愈下的经济对比,AI赛道显得格外如火如荼。我们也因此得到非常多关注。对于我们这帮第一次正儿八经创业的人,第一次创业就遇到互联网一样大的风口,真的是爽。但又爽又痛,因为一夜之间,竞争就变得非常激烈,尤其是OpenAI自己什么都想做且又快又好。

这个是我在ChatGPT出来的时候在即刻上写的思考。也是我们创业时就有的思考。只是,未来来得比预计的快好多。我们以为超前了好几年的认知,最后也可能只是超前了几个月。再加上公司小执行慢,到我们做出产品的时候巨头也已经准备好了。作为创业公司,在今天这个时代,要么看的更远一点,做你觉得有5年时间窗口的产品,因为实际时间窗口也许就2年;要么就做小而美,巨头肯定不想啃的骨头。我们还是坚定选择博一票,往更远更大的事出发。

一个春节过后,我想通了一件事:AI会从4个阶段改变生活和工作。
  • 第一阶段 - AI去改变分发,这已经发生,并且创造出很多千亿级公司
  • 第二阶段 - 自然语言改变UI,这就是后来很快发生的copilot。这个阶段很适用于低频刚需app, 或者场景式搜索,或者信息密集型app。
  • 第三阶段 - Agent作为新的软件形态,这就是最近发生的GPTStore。这是聊天作为UI和生成式AI结合,实时生成服务和内容,以Agent和chat UI提供给用户。
  • 第四阶段 - 但是聊天并不是最immersive的方式。就好比人与人在讲话时有时会想在白板上比划比划。所以真正AI-native的交互应该是你一打开电脑,界面是一张白板,你画出或描述你的工作流,AI可以自动创建这样的软件给到你。这就是Canvas。而真正的AGI,就像made-to-order于制造业一样,会重新改写供给与需求的关系

我们之前做的是第三阶段的事,AI agent。这之后,我们应该聚焦更远的第四阶段,Canvas. 于是6月我们开发出Canvas的最雏形。7月初,整个带Agent创建后台(包括API,workflow),Agent marketplace (当时已经有数十个agents),Canvas交互能力的MindOS,首次在ProductHunt上发布, 作为我们正式踏入国际舞台的第一步,当天就获得了最高票数。一直到现在也还是好评最多的AI产品之一。

这是我们7月初发布的版本。这几天看到字节coze.com的agent创建后台,感觉他们在有很多功能上都对我们表示了肯定(包括当时产品经理随便找的图标),让我们这个小团队备受鼓舞。😝

(非本文主题,举一个例子就够了)

当然,作为小公司,要去做一件大事,无异于以卵击石。一直到移动互联网时代,创业者还可以因为认知更超前打一定的时间差,但现在AI极大降低了创新门槛,让数据、设计都不再像以前那样可以差异化,剩下的壁垒就只有规模(客户、用户)、资本、供应链这些优势。无论在技术还是产品上,创业团队多数时候只是帮助大厂探路罢了。

果然,还没等我们把规模优势积累好,OpenAI就在两周前开放了GPTStore。有些同事一时间忧心忡忡。但这种情况我们早有预料,只是没料到OpenAI行动力这么强这么猛。Dev day的第二天我们紧急进行了数小时的战略探讨,还是坚定去走更大更长更远的路线。Be LLM agnostic,be the all-in-one interface. 这个结论我在最后一部分会展开讲。

没等我们消化掉焦虑,一周后,Sam Altman就被OpenAI辞退了。再一个周末过后,神反转来了,Sam Altman要被Microsoft收编。结果两天后,神反转又来了,Sam Altman回归OpenAI,还重组了董事会。同时也暴露了惊天大瓜,超越人类智力的通用人工智能也许真的到来了。

作为一个刚在蹒跚学步的创业公司,这个风口真是一下把我们吹到高空,一下把我们狠狠拍到地上,这感觉就像一边坐过山车一边修车轮,你永远不知道下一刻会发生什么。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=d3531iy0tu1

MindOS今年7月全球发布的版本

那么OpenAI到底想做什么呢?AI的终局是什么?我的猜想不一定对,但我可以分享一下,也欢迎大家多多评论,一起探讨。


02

OpenAI的野心

鉴于OpenAI最近极其抓马的宫斗,要说OpenAI的野心,还是得加个前提: Sam Altman统治下的OpenAI。Again,这里不做科普,不谈技术,因为论信息量和价值许多公众号已经非常高了。本文仅论我的看法和猜想。

继年初放出Plugins失败后,OpenAI在6月发布了Agent框架的论文 (作者Lilian Weng),开启了Agent这个篇章。

如果把大模型比作大脑前额叶,负责计算,那么Agent也许更像整个大脑,有记忆,规划,行动,和使用工具的能力,包括搜索、管理日历,等等。你可以上传知识和文档,让它更好的代表你,也可以用它的自主性训练它自动写代码和完成复杂任务的能力。所以对比大模型,Agent更像一个完整的app。想象一下你要去健身,现在你需要打开健身app,选择时长、要健身的部位、周边仪器、难易程度... 这么一套点击下来几分钟没了,更别说选择困难症或者不熟悉app的情况。在Agent时代,你的虚拟健身教练直接帮你计划一套适合你的课程,每天提醒你上课,实时演示给你看,帮你矫正错误动作,锻炼完还帮你点餐,指导你的饮食。Agent时代的人机交互就像人与人的交互一样,更自然,更沉浸,更个人化。最近Bill Gates的发言也说明了AI agent的前景: Preference + automation作为基本的闭环元素。

有了上述背景信息,几周前OpenAI推出GPT Store的那一刻,野心就已经非常明显了。就是想打造API+OS+硬件+芯片 的超级帝国。


03

API+OS+硬件+芯片 的超级帝国

在现有的移动端,每个App还是可以内嵌GPT作为chatbot,就像Copilot。但Copilot不是最好的方式,因为你还需要进入app里面,而且每个copilot的天花板还是app的walled garden - 淘宝的就只有购买数据,飞猪的就只有旅游数据。就像我在文章最前面提到的,copilot只是第二阶段。

而第三阶段,agent的到来,会和现在的app生态有非常大的不同。

  • 首先,供给会大量膨胀。科技的作用就是增加供给,就像移动互联网时代的App数量比PC时代的软件数量多,AI时代的Agent数量对比App又会暴增。但供给越多,对于中心化的分发就越是依赖。所以未来的分发权,比现在会是更大的生意。

  • 与此同时,在AI时代会产生一个前所未有的飞轮 - Data to intelligence。商家和开发者为了制作AI员工,会上传自己的服务和数据;用户在和AI对话的过程中也会帮助AI学习提升。

综上,AI时代的OS会拥有比iOS更强的壁垒


04

GPTStore的悖论

要达到上述的理想阶段,GPTStore还有很长的路要走。其中一个重要问题就是任何平台都避免不了的 - economic mobility。你认为Agent究竟是分散的还是集中的市场?

今天GPT的能力还是有很明显的限制:8000 token - 虽然以后会继续提升,但不会到无限量的程度。比如创建GPT时喂进去的数据越多反而表现力越差,这个问题我们在年初就发现了。这就意味着一个Agent不能做到无限多事情。需要多个agents,就像这个世界有许多理财顾问、法律顾问,不仅仅因为每个人供给有限,也是因为术业有专攻。从供给角度说,会需要许多许多agents,每个专注在一个特定领域,甚至理财顾问都可以分出许多不同投资理念的专家。

但一个人的注意力不能分散给无数agents。移动互联网时代,90%的app在下载后仅仅被打开过一次就没有再被用过。何况对比app的一目了然,用户要和agents聊才能知道他们的能力 - 验证门槛更高。所以从需求角度来说,agents必须要更中心化。

那就意味着大量agents得不到关注。除非有agents之间能自动协作。比如一个健身教练agent自动找到适合的膳食专agent,和膳食agent协作一起帮用户制定和指导健康计划。

这还是会带来两个问题:

1. 成本大幅上升,因为市场上会充斥着大量UGC低质agent,健身agent需要在GPTStore广撒网,发布同一个prompt, 才能筛选出适合的膳食agent来协作;

2. 变现很难,因为协作模式会导致按月订阅不可取(大量agents是一次性消费),更合理的是收取服务佣金,或者按每次对话付费。佣金在短期内很难,因为目前阶段AI的服务无法闭环。按对话付费有可能,但ROI不太高,收入天花板也会有限(试想Apple不收过路费了,按流量收费)。

而且无论是哪种状况,只要供需存在这么大的失衡,就意味着有其它平台的机会,就像有Amazon还有Shopify,不同分发机制能有不同平台承载。

所以,AI的终局会长什么样?


05

AI赛道的终局猜想及创业者的机会

再次申明:我只是说自己的猜想,肯定不一定对,欢迎一起探讨。

  • 硬件形态现在还没有统一认知:下一代硬件来临时间还早。Sam Altman投资的Humane在11月推出了AI pin,很多人觉得是OpenAI对未来硬件的理解。我觉得不是。OpenAI有硬件野心是肯定的,Humane未来会和OpenAI合作推出真正下一代的硬件也是极大可能的。但现在这一代的AI pin更像是OpenAI要获取更多现实影像数据的渠道。两个原因导致我有这样的猜测:1. OpenAI过往的投资都是为了获取更多数据;2. 现在的大模型缺乏对现实的理解,需要补上这个能力(Rewind可以了解一下)。Anyways,我们离离开手机的时间还早。硬件会有更多形态,也会有不同LLM,不同OS。
  • 硬件+OS会有一超多强的格局:移动互联网时代各大OS的差异化点还是在交互(包括硬件)、品牌、生态。AI时代,硬件、交互、大模型能力、生态、品牌、算力,会有更多的考虑因素。Apple, Google, Meta, OpenAI, 微软都会推出自己的硬件+OS,还会有一些小而美的硬件+OS,他们的差异化点可能是更好的数据隐私保护,或更开放的生态(开发者可以在所有有API或开源的模型中进行选择)。
  • 中间层的机会:今天iOS和Android,以及多种机型并存的情况已经让开发者很头疼了。未来多种硬件和大模型、私有化和非私有化部署,只会更加复杂。这就是面向开发者的中间层的机会 -- 兼容不同大模型,统一标准,一站式开发Agent并部署到不同平台。另外还有上面提到的不同分发逻辑的垂类Agent store,可以作为面向用户的中间层机会。
  • OS会很像微信:这仅仅是我个人对于AI-native的操作界面的猜想。左边有各种AI agent,包括你的personal AI, 像人一样可以联系他们,与他们聊天。聊天界面可以打字、语音、voice call, 以及使用各种程序,在聊天界面直接画画。你不觉得,很像微信吗?而微信就是一个操作系统,只是把现在微信里面你的各种朋友换成AI agents,这很有可能就是未来OS和App的形态。在移动端它像微信,在工作流它像钉钉/飞书,但不变的是发信息成为最主要的command机器的方式。上面聊到Agent市场的最终形态,以及Agents的分发,我们类比微信好友列表以及搜索好友,就可以有更具象的感知了。真是这样的话,Agent给用户主动发信息就会很有意思了(AI时代的私域流量,哈哈)。
  • 是否存在AI-native的垂类应用:今天的平台(淘宝、携程)起到的中心化排序推荐的作用,将来会被OS自身的个人AI助手替代,而各个应用的壁垒,就变成供应链和供给端的内容。比如你让AI助理帮你买新年礼物给各位朋友,它可能把适合的东西都放到淘宝购物车,然后给你展示购物车页面让你最终确认下单;或者在OS聊天框里,各种agent给你推送购买消息。无论哪种方式,重要的不再是各个app的UI和智力,而是供应链。AI会进一步缩减供应->需求的路径,供应商可以自己训agent,直接通过agent把货品和服务给到终端用户。
  • 创业公司的机会:上面说到的都是非常非常宏观的猜想。对于创业公司,机会还有很多很多,比如Gleen.ai,做企业服务;比如给一人公司做工作台OS,一个完全AI-native的钉钉;比如可以接入所有大模型的Agent框架,可以开源,或者做成平台,让大家来创建之后发布到不同的OS和硬件;比如更好的数据存储和传输解决方案;比如给应用和个人做定制化开发。这个图可以很好地把我能看到的一些创业机会串联起来:
    • 在不同LLM和硬件之间做用户信息/数据隔离和传输,尤其是非结构化、无标签的数据

    • 更好用的AI-native的界面,让开发者接入自己的agents

    • LLM以外的其它AI能力 - 虚拟人、文生图、视频、实时翻译、语音、3D等等

    • 能结合human in the loop的AI应用或操作台

    • 帮助开发者更好发现和连接供应端的服务商,以及帮助供应端更好开发的开发者

    • 托管各种模型和数据的平台 (LLM agnostic)

    • 深度创建Agent的开发者工具,或者简易创建的模版类工具 --- 可以理解为Agent的Shopify

    • Agent的各个组件的'淘宝’,包括各种知识库、API、workflow模版、虚拟形象、声音、prompt

    • AI社交/内容赛道

    • 等等。。。。。。



    06

    创业感想和给想创业的同学的建议

    技术型 vs 商业型的两条路径:之前很多投资人不敢投技术型创业团队,怕这类团队拿着锤子找钉子。但我觉得关键在于技术是否能带来9x体验提升。我还记得去年初大家谈论的还是元宇宙、虚拟人,所以我们一直说我们是AI角色;于是我们拿着并不是很聪明的AI虚拟人,跟品牌们演示,教育他们虚拟人代言不能解决任何用户痛点,虚拟人能做销售和客服那才牛。我跑了50多家客户,没有一家成交。一个很大的原因就是当时的大模型连营销的场景都不够,远没有达到让人惊艳的程度。技术没有达到临界点,需求就不存在。所以很多技术的同学出来创业被人说是拿着锤子找钉子,其实因为技术还不够好。要改变用户习惯,需要比现有体验更好9倍 (9x effect)。当然这是一个比喻,但点就在于量变到达临界值,就能引起质变。大模型也是一样,模型参数到达临界值,真的能涌现出AGI。你看当character.ai和chatgpt推出的时候,管理层并不知道用户可以用它来干嘛,但因为技术太惊艳了,用户自己发掘并分享了很多玩法。所以从技术还未成熟,到技术刚成熟,到完全成熟,这个变现路径是完全不同的。而AI的时代,技术成熟的那一刻,之后的进度条就会爆发式推进。
      什么是壁垒:技术迭代的本质是创新门槛变低壁垒变弱。AI让通用数据、UI设计的差异化都变弱了,也让开发成本变低很多。当创新壁垒降低时,资本就会是非常有效的壁垒。另外但是人的注意力永远是最稀缺和有限的,人的懒惰也永远会越来越厉害。所以switching cost还是有的,品牌、记忆、连接,这些就会构成更强的壁垒。

      天时地利人和,天时是第一:

      OpenAI的战斗力让大家都望而生畏。AI时代的竞争和创新也会变得越来越快。之前创业者很重要的优势必须是看的比巨头远,是那个Vision。但现在我们很难估计技术突破的那一刻,也难估计市场,不确定性会越来越多,变化会越来越快。时运就越发重要了,因为太早入场和太晚入场肯定都不行,但现在难以估计太早还是太晚(比如ARVR到现在都还没成熟),最好的做法就是不停地蓄力,活下去,看更远,保持组织韧性,去等待属于你的‘天时’。

        创业要选择自己不用费力就能做的事:打工人要不停挑战自我,但初次创业最好还是选择自己的舒适区,做自己70%努力就能够得着的事,不能好高骛远,靠梦想和自信强撑。除非是要"to VC" - 但也没毛病,毕竟画饼在假老板这样的创始人的能力范围内。怕就怕既要画大饼又想真做出来,但能力范围又力所不能及,就会有两个麻烦:1. 小公司本身就要少招人,很多工作要老板自己干,会占用很多时间;2. 很多事情创业之前预料不到,真躬身入局了才知道原来大部分时间要处理自己之前没预料到的事。于是你用仅剩的30%的精力还要去做一件超越能力范围很多很多的事,这个stretch就不太可持续了。抓住不变量:我很喜欢Jeff Bezos的一段话,我在多个场合也经常提到 --- 人们经常问我10年后哪些会改变?但几乎没人问我10年后什么不会变。在今天瞬息万变的市场,尤其是AI这样的赛道,抓住什么不会变才能做得好。比如用户会越来越懒,要求越来越高,注意力会越来越稀缺,供给越来越多,链路越来越短,时间和认知差越来越短,交互越来越自然、个性化、沉浸。。。还有一个恒定不变的,就是创新者窘境里面提到的:既得利益者会为了维护既得利益和生态圈,尤其是现有客户关系,而错过颠覆自己的机会。Marketing Warfare这本书也提到过:打败对手不在于抓住它的缺点,而在于看它的优点能带来什么反面,因为缺点易改,优点难改。结合上面这两个点,应该能找到很多创业团队的机会。



          如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。



          更多阅读
          GPTs大爆发后,AI创业者该如何进场?
          AI女友产品开发记录:语音带来增长,OpenAI审查升级后访问量暴跌70%
          拼多多创始人黄峥早期访谈:我们都是时代的产物,在大环境下做好自己该做的事情
          月之暗面杨植麟:大模型需要新的组织范式,场景摩尔定律能催生 Super App
          张鹏对话谢欣:飞书 7.0,如何重塑 AI 时代「人和组织」的关系?

          转载原创文章请添加微信:geekparker
          继续滑动看下一个

          您可能也对以下帖子感兴趣

          文章有问题?点此查看未经处理的缓存