丁磊的大模型试验田，单季营收15亿

发表评论
66,777 views

A+

“国内好的大模型应用目前还是太少了，2023年大家都使劲做大模型，反倒在应用方面没有大的突破。”这是网易有道CEO周枫投身大模型一年后最大的感受。

在他看来，2024年大模型应用即将迎来爆发，“咱们中国创业者在移动互联网时代可是最会做应用的”。2023年，周枫去美国转了一圈，他发现那边的创业活力非常强，大家都在各个层级上创新，他意识到国内需要再次加速，尤其在应用层。

过去一年，不同于百川智能创始人王小川、智谱CEO张鹏等清华大学校友研发超大规模大模型，周枫带领团队研发出“子曰”教育大模型之后，就快速投入到大模型原生应用的开发中，业务被逼着进入一种快速迭代的状态，周枫参与业务会议的频率从月会变成了周会，他形容当时的团队状态是“应用团队和模型团队互相逼”。

截至目前，基于“子曰”教育大模型，有道已推出10多款学习类AI原生应用和功能，成为国内开发AI原生应用最多的大模型企业之一。而基于大模型对原有业务的重构，有道的业绩变化也真实地体现在公司的经营数据中。

根据有道2023年第三季度的财报，网易有道该季净收入15.4亿元，毛利率上升至55.9%，达到近两年新高；季度经营亏损同比收窄73.7%，总运营费用也同比下降，经营效率进一步提升。

在具体产品和业务上，受益于大模型的助力，AI Box的升级以及AI写作功能的推出，带动有道词典及有道翻译第三季度会员费同比增长160%以上，在线营销服务净收入较2022年同期增长113.5%。

“搭载了子曰大模型的产品，比同期发布的未搭载大模型应用的产品，在用户使用频率上要高出50%以上。”周枫告诉《中国企业家》。

从2006年网易有道成立，周枫相继做了有道搜索、有道词典、有道云笔记、有道精品课、有道词典笔等业务，业务范围覆盖K12教育、成人教育、素质教育、智能硬件等领域，这让大模型的应用落地有了众多的场景。

有道旗下部分产品和服务。来源：受访者

虽然有道并非大模型企业中规模最大的一家，但周枫采取的“小快灵”AI应用开发路线，很显然已率先在商业模式上奏效。当外界在追问大模型到底给企业带来哪些增量时，有道已经在各业务的用户反馈中得到了答案。

“做企业最重要的是挑什么仗去打。”周枫说道，“如果你告诉团队去打根本不可能赢的仗，那不是害大家吗？”

把重心转移到应用上

时间回到2022年11月底，ChatGPT发布之后，周枫试用后感到非常震撼。他跟算法团队来来回回地用，测试它的能力底线，在公司内部评测模型不同能力的细节。为了了解更多技术细节，周枫把从GPT-2开始的所有语言模型相关的论文全部读了一遍。

2023年1月，有道内部召开年度战略会，这是公司每年的传统，周枫把总监以上的团队集中在一起连续开三天会。不同于往年，2023年周枫让有道首席科学家段亦涛讲了一个多小时GPT相关的技术，让大家做了充分的讨论。

最终的结论是，大模型是一个革命性的技术，如果有道不迅速入局，革新和颠覆自己，就连起家的词典和翻译业务就也别干了。当时，周枫和团队一直在思考，ChatGPT、大模型跟有道到底有没有关系？有道到底要做什么？有没有合作方可以调用？

“我们从第一天开始就决定要做一批应用，而不是说我要训个模型出来，然后看怎么办？我不是这个想法，只是当时找了一圈都没有可调用的大模型，只能自己训练。我觉得你把大模型弄出来，却搞不明白用来干什么的话，自己做大模型的意义就不大了。”周枫告诉《中国企业家》。

其实，当时美国可汗学院等教育公司已经开始尝试接入GPT-3.5，做一些教育服务尝试，但国内还没有能力综合又非常成熟的可以接入的模型，周枫必须得自己做。

很快，周枫就和团队达成两个共识：第一，有道团队一定要自己做大模型，如果自己不做是很难完全摸清楚门道的，公司的动作就会变得很慢，做什么都落在别人后面，成为一个跟随者；第二，做开源大模型肯定打不过专门做超大规模大模型的公司，必须把重心转移到应用上。

作为资深技术从业者，周枫过去20年见证了好几轮技术变革浪潮，历史经验告诉他，每一次大的浪潮里，机会不仅仅在于基础技术。就像互联网发展之初，做服务器和路由器的公司最赚钱，但大家很快就发现互联网的精髓不在路由器，而是在互联网应用上。

他认为，如果中国的创业者眼睛全盯着要去做大模型，就会像移动互联网时代那样，整天盯着怎么做手机而忽视了微信、淘宝、抖音等应用的机会。

不做1000亿参数以上大模型

截至目前，有道大模型团队超过100人，且大多数都是从原来的团队转过来，他们中很多都有人工智能领域的相关研发经验。

除了人才外，有道在AI方面也有深厚的积累。早在2008年，有道成为国内第一家提供统计机器翻译模型的公司；2017年，有道从机器翻译引擎升级成神经网络翻译引擎，随后又升级到现在主流的Transformer技术。因此，在做大模型的时候，有道团队过往很多积累都可以用上。

但即便有技术积累和人才优势，周枫给团队设定的边界是：坚决不会做1000亿参数以上的模型。

在周枫看来，大模型目前可分为三个层级——1000亿参数以上的超大模型、100亿参数~1000亿参数的中间模型和100亿参数以下的小模型。每个层级都定位不同的实用场景，其中超大模型提供最佳质量，具备较强数理推理能力；中间的模型具备知识的能力，且因为成本较低，但效果不错，可以广泛应用；而小模型则是放到设备里，具备语言能力和情绪能力。

“我们基本上相对早期的时候就琢磨明白这件事儿了，超大规模的模型应该留给专门以大模型为全部工作的公司去做，一方面太贵了，另一方面市场也不需要重复建设。”周枫告诉《中国企业家》。

在他看来，有道作为教育科技企业，核心的差异应该来自于中间和底下两个模型。而这其中，要求开发者对不同层级的模型能力有深刻的理解，且能将产品需求和能力模型匹配。

在结合过往业务寻找落地场景应用的过程中，周枫确立了两个原则：第一，解决用户在教育场景的需要；第二，能快速变现，有足够的商业空间。而虚拟人口语教练Hi Echo、AI家庭教师小P老师等应用和功能，都是他认为既能满足用户学习需求，又能实现商业化变现。