- A+
图片来源:由无界版图AI工具生成
市场现状
从 Stable Diffusion 到 ChatGPT,AIGC模型已经成为硅谷的聚光灯焦点。当web3和加密货币行业寒冬降临,风投资本争先恐后涌入AI赛道。人工智能技术的近几年的突飞猛进让AI算法可以在几秒之内编写脚本,甚至生成艺术作品。在深受估值暴跌、大厂裁员和web3寒冬打击的科技领域,AIGC赛道成为了罕见的例外。(2020 年AI还没有那么热的时候,我们在Leonis Capital就很看好AI。事实上,这个赛道从本质上并没有变。从长远来看,我们将AI和web3的去中心化协议都视为“超级周期技术”“supercycle technologies”。我们在即将发表的下一篇文章中将更详细地阐述这一论点,并解释这些基础技术如何为人类社会创造新的方式来生产、控制、存储和验证数据,从而在未来几十年影响我们的社会。)
但AIGC(生成式AI)究竟是什么?AIGC的大热又为创业者和投资人提供了什么样的机会?
在社交媒体上随处可见这种AI生成的自拍。图像来源:MIT科技评论
生成式AI应用是由大规模预训练模型(又称“foundation model”,大模型)的技术突破驱动的。这些模型与上一代 AI 模型的不同之处在于它们的参数量更大、在广泛的任务(例如文本和图像生成)上表现更好,并且拥有新的性能,例如视频生成。了解这种底层技术对于理解这个领域初创公司的成败至关重要。
在这篇文章中,我们想带领大家了解AIGC赛道的现状,包括该领域的应用app、落地案例和初创企业。我们还想给大家介绍一下大模型的技术基础,以便了解这项技术的商业化潜力。最后,我们会评估我们认为在这个快速发展的领域中被高估或者忽视的机会。
AIGC的市场现状
带星号(*)的是Leonis Capital投资的企业
自从GPT-3 API在2020年9月公开以来,AIGC初创公司呈爆炸式增长,AIGC应用涵盖文案编辑、营销和知识检索等众多领域。 Stable Diffusion(2022年4月)、DALLE-2(2022年4月)和 Midjourney(2022年7月)等图像生成模型的发布进一步推动了视觉设计和图像创作领域初创公司和应用程序的发展。(我们这里提供了他们的演示链接,大家有兴趣可以自己试一下!)
DeepMind开源其AlphaFold模型的决定也使蛋白质折叠技术能为更多公司所用。很多科学家利用蛋白质设计技术建立生物医学初创公司。其中,生物技术初创公司Generate Biomedicines发布了一个名为 Chroma 的AI程序,并称其为“生物学界的 DALLE-2”。
当前的AIGC的创业环境是由大模型的民主化驱动的。大模型API的公布和模型的开源使得资源有限的初创公司能用上最尖端的AI生成技术。但这也让这些公司之间产生了激烈的竞争,因为其他的开发公司可以使用相同的底层模型。即使是这个领域相对成熟的公司也不享有重要的技术、产品或数据护城河。在AIGC赛道上,不论公司大小都需要不断创新以跟上新模型的发布。
基础层的权力集中也成为了应用层初创公司的痛点。这也就是为什么很多应用层公司都想开发自己的模型。例如,Jasper.ai已经在Cerebras超算电脑上训练自己的模型,从而减少对OpenAI模型的依赖。自己训练模型也让应用层的公司可以更好地针对特定场景对模型进行微调,并且自己保留模型生成的数据。
与此同时,更通用的AI模型可能会超越以前垂直领域的应用模型。OpenAI最近大火的ChatGPT(也称GPT 3.5)八成要比营销领域的专用模型,比如 Lavendar.ai 或 Smartwriter.ai,功能更加强大。目前很多垂直领域的模型都是在GPT-3的基础上微调构建的。大模型革命的一个关键趋势就是,新模型通常比专用模型表现得更好。应用层的初创公司可能会在使用更强大的通用模型和构建自己的垂直模型之间进行迭代。
基础层的通用模型与应用层的垂直模型之间应该会保持一种紧张但健康的竞争关系。因为文本生成AI是研究最成熟和投资体量最大的领域,这种竞争形式会是最激烈的,市场变化也会是最快的。
在视频、音频和代码生成等其他领域,虽然现在还没有现成的开源或基于API的模型,但初创公司已经设法使用与GPT-3和Stable Diffusion类似的架构来训练自己的 AI 模型。视频生成公司 Rephrase.ai构建了一个专有的AI模型,可以将文本映射到语音和图像,使营销团队能够轻松创建超个性化的广告视频。
在 Leonis Capital,我们相信AIGC将颠覆现有内容生产模式,这种颠覆将从文本生成辐射到其他的媒体形式。至于初创公司如何打破既有公司的护城河在AIGC领域发光,我们觉得仍有待观察。
让AIGC领域这么卷的另外一个因素就是,这个技术几乎在起飞之后就已成为市场共识。通常,技术革命进展很缓慢,因为大多数人一开始都持怀疑态度。个人电脑和智能手机的发展就是很好的例子。但就在GPT-3发布的两年多以来,风投资本对AIGC的投资增长了 400% 以上。今年达到了惊人的 21 亿美元。
生成式AI风险投资情况,来源:PitchBook
这可能是因为AIGC超高的ROI创造出了很多新的(伪)市场类别。(说这些市场是“伪新市场”的原因是,AI程序、公司解决的问题并不是新的问题,比如文案写作、销售、内容创建和编程。只不过,AIGC采用更有效的方式打入已有的市场,并且提供新型工具来拓展这个市场。) 像 copy.ai 或 Jasper 这样的公司正在通过软件的可扩展性、可重复性和AI生成的低成本来助力文案写作、营销和销售。同样,Midjourney和Stable Diffusion正在加速媒体/艺术/娱乐创作的速度,而Mutable.ai和Github Co-pilot把程序员的生产力提高了一个数量级。这些类型的应用(其实很多都是炒作)是资本市场前所未有的。这也就是为什么风投资本认定了AIGC是“下一个热门赛道”。(有趣的是,随着这些AIGC公司的产品进入主流媒体市场(AI自拍、视频和聊天机器人),它们会引起更多的轰动和炒作,促使风投基金向这些领域投入更多资金。)
也正因如此,投资者在为市场的火爆买单。就在最近,Coatue和Lightspeed Ventures领投了 Stability.ai 1.01亿美元的种子轮(!),给该公司开出了超过 10 亿美元的超高估值。Stability.ai就是广受欢迎的 Stable Diffusion 模型背后的公司,但这个估值是否合理还有待观察。但事实是,Stability.ai在风投资本注入时只是一个开源程序。
值得一提的是,并非所有AIGC公司都使用最先进的生成式AI模型。因此,这些应用程序往往不如ChatGPT或者Stable Diffusion那么惊艳。例如,动作捕捉的初创公司在技术上并没有使用“生成人AI”,而许多视频生成公司也没有使用类似DALLE-2的扩散模型进行文本到视频的生成。我们把这些公司纳入我们的AIGC市场生态地图中,是因为这些领域可能会被新模型颠覆。
然而,有趣的是,这些公司也可能从AIGC的大热中受益,因为投资者经常把它们纳入AIGC的范畴。但除非它们创新其基础技术,否则不太可能在大模型的时代收获技术革命创造的价值。
技术趋势:局限性、对技术的误解...生成式 AI 到底会有多好使?
在生成式 AI 的新兴领域,底层技术决定了应用层可以做出哪些产品。
两年前 GPT-3 的发布促成了一系列文本生成的初创公司,例如Jasper.ai 和 copy.ai。现在,图像和代码生成模型的发布为新的营销、设计和编程应用程序奠定了基础。继AI头像app Lensa.ai爆火之后,新一波初创公司正在构建AI图像生成的应用程序。
但不同应用的底层技术到底有多好?接下来的这一部分,我们会给大家提供模型层的概述。
来源:红杉资本,生成式AI:充满创造力的新世界(2022)
来源:红杉资本,生成式AI:充满创造力的新世界(2022)
文本模型是AIGC模型中最成熟的一类,也是最早开发的模型。与任何其他类型的AIGC模型相比,文本模型的数量更多,并且有更多可用的API和开源模型。除了OpenAI和DeepMind等知名实验室外,不少创业公司也在为AI语言模型基础设施层做贡献,包括以色列的AI实验室AI21和加拿大的初创公司Cohere。
我们在这里把2018年以来发布的所有大型大型语言模型 (LLM) 做了一个可视化分析(模型很多!)。显而易见,这些模型的参数量在以指数级的速度增长,算力和数据需求也越来越高。大模型的“缩放定律”(“scaling law”)预测模型能力将随着模型参数规模的增加而提高。
文本模型可视化分析
在图像生成领域,DALLE-2、Stable Diffusion和Midjourney这种大火的模型使图像生成AI首次出圈。我们已经习惯了AI生成的惊艳的技术作品,比如DALLE-2经典的宇航员骑马图,还有Midjourney细致入微的绘画。
“一名骑马的宇航员,写实风格”。由 DALLE-2 生成
Jenn Mishra作品。由Midjourney生成
然而,我们在网上看到的精美图像并不能代表所有AI生成的图像。图像生成AI模型仍然存在可控性问题,很多时候不会响应使用者的指令,或者会漏掉指令中的关键信息。这为更广泛的商业应用造成了技术障碍。
我们可以用三个顶尖的AI图像生成模型做一个有趣的小实验。
每个指令生成的第一张图像被选为示例。我们可以看到DALLE-2和Stable Diffusion 2.0生成的效果类似,对指令的响应能力也差不多。它们可以生成写实的小猫还有西班牙画家萨尔瓦多·达利风格的柯基犬。作为在专业的艺术数据集上训练的小模型,Midjourney在创建艺术图像方很厉害,但往往完全忽略语言指令。它生成的猫并不真实,生成的小柯基也不像是达利的画风。并且三个模型没有一个对“使用披萨大小的硬币去买硬币大小的披萨”做出很好的反应。这个指令正是要测试模型的语言理解能力。有两个模型生成的人手手指看起来很奇怪。
DALLE-2、Stable Diffusion 2.0、Midjourney三个AI图像生成模型产出的图像对比
大模型在目前也很难生成高质量的视频。AI模型生成的视频真实感差、分辨率低。以下是Google的Imagen Video模型(2022年10月)生成的视频图像。在AI技术领域,这个模型的“高保真度、可控性和真实世界知识”被业界专家广为称赞。但不难看出,AIGC要生成好莱坞大片还为时尚早。
Google的Imagen Video模型(2022年10月)生成的视频图像
Google的Imagen Video模型(2022年10月)生成的视频图像
基于文本的视频生成模型可能至少需要 2-3 年才能达到以假乱真的效果,而此类模型可能需要 3-5 年才能在商业应用上发挥作用。但在此之前,这些模型可能适用于对保真度和可控性要求较低的场景。
尽管 AI 研究社区普遍看好大模型,AI创业社区仍在争论到底“更大”还是“更专”才是最佳出路。
一个典型的例子是OpenAI和Tabine在代码生成领域发展思路的不同。OpenAI一如既往地选择构建一个超大的通用模型Codex,成为了Github 代码生成模型Copilot背后的功臣。然而Copilot的主要竞争对手Tabine采取了完全不同的方法,为30多种编程语言构建了一系列的专用模型。这两种发展路径孰强孰弱会对大模型的落地起到决定性的作用。
由于当前AI模型的局限性,低风险、快节奏的游戏设计可能是一个理想的AIGC应用领域。在这个领域里,速度和创新比模型的准确性和可靠性更重要。比如,AI合成的语音听起来还是很有机器人的生硬感、真实性低,虽然尚不适合销售等领域,但游戏玩家应该不会介意,甚至会有点喜欢像机器人的NPC。此外,AI 生成的音乐还远远不及Spotify上的热门歌曲,但可能成为绝佳的游戏背景音乐。因为制作游戏的视觉效果和音乐非常昂贵,AIGC的出现提供了一种极大降低游戏制作成本的解决方案。
除了游戏制作之外,当前一代的 AI 模型非常适合重复性高但报酬高的任务,以及人类可以在产出循环中及时纠偏的任务。编程、营销和视频编辑都是AI可以很好地协助人类专家完成的任务,让他们能够更快、更好地进行原创产出。
AIGC:泡沫还是机遇?
在研究了之前由GPT-3驱动的一波AI热和当前的AIGC格局之后,我们认为有些AIGC领域肯定被炒作过头了,但也有被低估和忽视的机遇。以下是我们对这个新兴领域市场机会的一些拙见:
被高估的领域
特别卷的领域 – 还是别卷了。
到目前为止,已经有超过20家公司在做AI文编和营销,市场竞争异常激烈。使初创公司集中在这一领域的原因是GPT-3和类似语言模型的特定能力。当这些模型在两年前发布时,它们已经非常擅长修改草稿,但由于技术水平不够,写不出很多原创内容或者有意义的对话。所以毫不奇怪,那个时候成立的初创公司都去卷营销和销售领域了。
在一些拥挤的领域,早入场的公司可能有很强的先发优势。(这就是为什么顶级的VC基金,比如红杉资本,相信会有产品在垂直领域持续领先。)早期玩家可以用用户的数据来调试模型并且进一步改善用户体验。这也使新玩家很难打入市场,使后期投资更难以取得巨大成功。不过,新模型的发布可能会为新公司提供进入市场的机会。
过度承诺的 AI 产品。
一个惊艳的AIGC模型发布时,总能在硅谷引起巨大的轰动和兴奋。 DALLE-2和Stable Diffusion让投资人开始讨论AIGC什么时候可以取代导演和人类演员,而ChatGPT的首次亮相又制造出了很多AGI(通用人工智能)出现或者ChatGPT取代Google的谣言。这种兴奋使资本涌入雄心勃勃但往往过度承诺的项目,只可惜技术不到位,产品达不到预期的效果。
这个问题在自动驾驶、法律和医药等高风险、监管严格的领域尤其严重。自动驾驶技术其实已经非常成熟,但由于监管限制仍未得到充分利用。最后 5%,甚至 0.001% 的性能提升对于 AI 模型来说总是最难实现的。这就是FedEx放弃其“最后一英里送货机器人”的原因 – 99%AI送货省下来的钱根本弥补不了1%的错误带来的损失。
拿着锤子找钉子。
过于关注AI技术而忽视客户和市场规模的AIGC产品,本质上就是锤子找钉子。它们一开始看起来很酷,但随着类似产品的出现或消费者习惯了这种AI模型,它们很快就会失去吸引力。
一个典型的例子是AI Dungeon,一个最早基于GPT-3构建的应用程序之一。AI Dungeon在2020年7月大火,主要原因是它是普通用户使用GPT-3的唯一途径。但自 2021 年年中以来,该应用在 Google 商店的评分从之前的4.8高分直线下跌至2.6以下,原因是用户对其内容审核机制感到不满。此后,很多AI Dungeon的用户纷纷迁移到了类似的、但无审查机制的平台上,例如由 GPT-Neo支持的AI故事生成软件NovelAI。
没有产品的开源项目。
投资者往往会高估复制AI模型的困难程度。虽然Stable Diffusion是目前使用最广的图像生成AI模型之一,其训练成本仅为60万美元左右。这个价格区间意味着普通公司完全有能力训练自己的AI大模型。随着越来越多的学术人员开始研发大模型,AIGC领域的人才基础也逐渐丰富。这也意味着像Stability.aii这样的底层模型初创公司可能并没有什么护城河。
事实上,一年多以前,一个叫做Eleuther.ai的独立研究团体训练并开源了语言模型GPT-J和GPT-Neo,两个性能和较小版本的GPT-3(Ada、Babbage 和 Curie )类似的模型。与 Stability.ai不同的是,Eleuther.ai团队没有大肆宣传,因此没有引起投资者的太多关注。
被低估的机遇
基于现有产品的AI工具。
不可否认,风险投资人都喜欢新的创业公司和新的应用程序。这可能就是为什么知名公司开发的AI工具很少受到关注。在硅谷对ChatGPT惊叹不已的同时,Notion的新AI写作助手受到的关注要少得多。然而,Notion.ai很有可能会成为AI写作创业公司的强劲竞争对手。Notion的内置AI文本编辑器会比独立的app程序更加方便使用。成为既有产品的插件对于创业公司来说也是个很好的切入市场的方式。
在技术到来之前先建立起业务。
一个新的创业策略是先建立公司,然后等待更强的AI模型的发布。事实上,许多AIGC公司在其底层模型发布之前就已经成立了。Lensa.ai在2018年的时候作为一个照片编辑工具成立,但在2022年4月Stable Diffusion发布的时候迅速采用了该模型。AI Dungeon于2019年推出,最初使用 GPT-2,然后转用更强大的GPT-3。创业者可以先在相关领域构建公司,然后再采用AIGC模型。投资人可以预测AI技术的发展方向,并且成为先行者。(Uber的投资者就是在预测到了打车软件的兴起才投资了Uber。)
小众的垂类产品。
在做行研的时候,我们很快就发现有些领域人满为患,而另外一些垂直应用领域却被创投社区给忽视了。例如,教育是一个很明显可以用到AIGC模型的领域。儿童教育和外语教育并不需要非常强大的AI模型。GPT-3 的写作能力远远超过了儿童和外语学习者,Minerva(Google 2022 年 6 月发布)的推理和数学能力又远远超过普通儿童。
话虽如此,对于创始人来说,意识到市场潜力也很重要,特别是自己的公司是否能获得风险投资。当然,借助人工智能技术,创业者不论有没有风险投资的支持,都有机会创造出改变世界的产品。
送给创始人的三个建议
首先,恭喜你读到这里。到这里,我们希望这篇文章已经让你了解了AIGC的现状、市场参与者、底层技术/AI模型、未来的趋势还有当前AIGC的局限性和投资人对技术的误解。
但这一切对于创始人来说又意味着什么?
1. MVP、PMF、GTM……创业的基本逻辑没有变。
尽管 AI 的表现十分惊艳,但是创始人应该抵制两种极端的行为:在产品做出来之前过度承诺,或者在真正了解市场之前过度构建产品。
人工智能是一种新的编程方式。它是一个创业者用来开发新产品、解决社会问题的强大工具。创始人要有勇气去无视媒体上乃至资本市场里的喧嚣,而去关注特定的用户的特殊应用场景。
AI主导型公司的MVP(最简化可实行产品)可能与上一代软件公司不同,但随着基础设施层和AI 模型的不断成熟、收益逐渐增加,AI会逐渐渗透到我们日常生活中的很多产品之中。到时候,AI技术会变得更加“隐形”,就像今天的互联网、云计算和移动通讯技术一样。
也正如其他的底层技术,AI作为一种工具,可以为我们构建下一代的软件产品。
2. 产品的扩张。
鉴于AI模型基础设施层面的“开放性”,初创公司在进入市场时要深思熟虑。有可能的话还要想办法和大厂达成合作伙伴关系。的确,在拥挤的垂直领域,例如文本生成类产品,要判断AI产出的质量是个主观的问题,所以一种观点认为,产品市场的扩张、进入市场的策略还有产品品牌的效应更加重要。这个说法是有一定的道理的。但是产品扩张、销售是AI企业起步的手段,而并非维持生意的方式。这也正好带我们来到了最后一点。
3. 数据还是王道。
在一个典型的软件业务中,创始人应该对技术或者业务的痛点要有独到的见解,或者两者兼具。在AI驱动型产品/业务中,除了这种洞察力之外,AI初创公司的创始人还需要又独特的方法持续获得数据。
从长远来看,拥有更好的(也许是更小众的垂直领域的)数据有利于公司微调其AI模型,给客户带来更好的产品体验。这样公司可以创造出一条可持续的护城河。
随着AI基础设施模型使用成本的下降,更多创业者的资源和投资者的资金将用于获取更多、更好的微调数据,以及获得可以持续贡献此类数据的用户。(AI技术中的数据所有权/身份与web3去中心化协议之间存在一个有趣的交集。我们的下一篇博客将对此进行讨论。)
这也许会产生飞轮效应。
- 我的微信
- 这是我的微信扫一扫
- 我的电报
- 这是我的电报扫一扫