生成式AI产业发展的前途与挑战

本文综合未来主义和现实主义的双重视角考察方兴未艾的生成式AI产业。一方面，着眼未来，把生成式AI置于数字化浪潮推进的历史中，预判其作为大智能时代基础设施的战略意义；另一方面，立足现实，分析生成式AI产业生态的供给侧、需求侧及区域条件三大维度，指出中国生成式AI产业发展面临的结构性问题。最后，提出三条政策启示。

文 / 侯宏

生成式AI推动大数据时代向大智能时代跃迁

产业观察家们注意到生成式AI的革命性意义，并作出丰富解读。英伟达创始人兼首席执行官黄仁勋称生成式AI的推出为“AI产业的iPhone时刻”，意指其颠覆性的技术突破和产品形态或将引发Al产业的全面变革。投资公司a16z的合伙人马丁·卡萨多（Martin Casado）则称其为“第三个计算时代”，意指继微芯片将计算的边际成本降到零、互联网将分发的边际成本降到零之后，大模型将创作内容的边际成本降到零的第三次飞跃。麦肯锡技术合伙人莱瑞拉·余（Lareina Yee）则将其类比为计算产业经历过的大型机到PC的剧变，意指生成式AI将技术使用权从精英转向大众，实现了AI技术的民主化。然而，以上解读局限于AI产业自身，没有考虑生成式AI如何重塑更广泛的经济。笔者认为，生成式AI和大模型有潜力成为整个国民经济智能基础设施，进而奠定所谓的大智能时代。

生成式AI，有何不同

不同于专注解释现有数据的分析式AI或根据给定输入推断输出的预测式AI，生成式AI专注于生成新内容，或称合成数据（synthetic data）。ChatGPT仅是大模型的一种，准确地说，它仅是文本大模型的一种。文本大模型之外，还有音频大模型和视觉大模型。最近，大模型已发展至具备多模态对话能力。

不同于预设规则或者试图寻找结构化规则的传统AI，生成式AI直接从海量未经标签化的非结构化数据中提取基础模型（foundation model）。由于基础模型的参数巨大，常被称为大模型。大模型的训练极端昂贵，但具备一系列传统AI模型不具备的优势：一是其采取的非监督训练的方式极大地降低了人工标注的需要；二是模型具有更好的通用性，可灵活应对多种任务；三是大模型可以理解并使用人类语言，交互体验非常自然。

归根到底，大模型是人类全量知识的压缩。传统AI利用有限的知识（预设的算法）从丰富的场景数据中提取结果，而大模型利用近乎完备的知识去解读场景数据（尽管它不一定丰富）。

大模型作为智能基础设施

生产力的进步通常体现为某种新型基础设施的建立。工业时代出现电力基础设施，网络化时代出现网络基础设施，而智能时代将出现何种基础设施？笔者断言大模型具备成为智能基础设施的潜力，因其具备基础设施的三个基本特征。

一是通用性。传统AI需要针对特定任务设计，表现出更多的专用性与垂直性。相比之下，经过高强度预训练的大模型具备灵活应对多种非预设任务的能力，可通过微调及提示词工程实现应用情景的高扩展，进而在通用性上大大提升。

二是规模经济。大模型的规模经济与两个概念有关。一是智能涌现。只有模型参数规模超越临界点之后，智能才开始涌现。工业经济情景下，低于最小有效生产规模的厂商无法有效参与市场竞争。类似地，厂商必须投入高昂的前期训练成本，才能参与大模型市场竞争。二是智能摩尔定律。传统摩尔定律预测硅片上的晶体管密度随时间推移指数级增长，而成本保持不变。智能摩尔定律则预测大模型智能所能覆盖的场景数（智能密度）具有类似的规律。这意味着，随着大模型参数的增长，其覆盖智能场景的单位成本呈指数级降低。

三是外部性。修好的路上不跑车，价值等于零。尽管大模型语境下的“车”是什么尚未完全确定，但确定的是大模型的出现将促进各类“车型”的创新。因此，大模型对经济的推动作用要远远大于生成式AI产业产值本身。聊天类应用仅仅是大模型应用的初级形态，创意和想象力与未知场景结合迸发出的产业能量，才是大模型作为基础设施最具想象空间之处。

通用性、规模经济和外部性是基础设施的一般性特征。那么，大模型作为智能基础设施的特殊性何在？笔者认为，这是人类历史上第一次实现智能的大规模集中供给，故而称其为智能基础设施。难道数字化时代不是已见证林林总总的智能化基础设施吗（如智能手机、智能电网、智能交通等）？此处需澄清，智能的基础设施化不同于基础设施的智能化。智能手机的核心是手机，智能电网的核心是电网，智能交通的核心是交通，赋予其各种智能内涵的过程是基础设施的智能化。智能基础设施的核心则是相对通用的智能本身，能对接千行百业。过去几十年，数字化基础设施围绕信息的采集、处理、传输、存储、计算等环节得到充分发展，而智能基础设施的发展才刚刚开始。

从大数据时代到大智能时代

每轮基础设施跃迁都会引发一轮新商业机遇。这是因为，基础设施将此前需要分散承担的可变成本转化为集中承担的固定成本，推动新要素普及、降低创新门槛。智能基础设施带来的新要素就是智能：大模型压缩了人类所有知识，将场景数据输入大模型，大模型就能根据其知识反馈相应结果。当这种智能产生模式广泛应用，我们或将见证前所未有的大智能时代。

笔者认为，大智能时代区别于大数据时代的核心特征是数据与智能的解耦。谷歌常因所谓数据网络效应被反垄断机构约谈：搜索引擎的市场份额越大，用户数据就越多，数据训练出来的机器算法也就越智能，用户体验进一步提升，进而获取更大的市场份额。曾鸣教授更是基于阿里巴巴的类似经验，提炼出以“数据智能”为基石的“智能商业”方法论。这种思维强调企业构建的数据飞轮是智能商业的前提：无数据，不智能。

在大智能时代，这一圭臬在产业层面仍然成立，但在企业层面的应用却值得推敲：智能不再完全来自于企业自身构建的数据飞轮。数据作为智能原料的地位无可撼动，然而，大模型使用这种原料的效率远超过此前分散部署的“小模型”，以至于有志于“智能商业”的企业构建自身数据飞轮丧失经济性。国家电网能稳定输出电力时，为何要在工厂旁边自建小发电厂呢？

智能基础设施化的后果之一是数据与智能的解耦（见图1）。数据与智能的解耦并不意味着数据不重要，而意味着小数据也可以撬动大智能。当前，大模型的进一步发展面临高质量数据源不足的障碍，可见数据的重要性。但这不意味着任何企业都需要花心思囤积数据。过去，企业要精心构建并维护一个数据供应链，才有可能实现所谓的数据智能。而今，大模型使得智能不需要在低水平重复开发。企业只需要用小数据去微调这个模型，便有可能开展“智能商业”。由此，企业可节省精力聚焦业务创新，释放出所谓——智能红利。

生成式AI产业生态的三大维度

立足当下，本部分尝试从三个视角来把握高度动态复杂的生成式AI产业生态。一是供给侧视角的技术生态，有助于理解生成式AI技术实现所需的生产要素；二是需求侧视角的应用生态，有助于了解生成式AI的应用方向；三是中美竞争背景下的区域生态，有助于理解需求侧和供给侧在不同条件下的互动模式。

生成式AI技术生态

大模型技术生态符合典型的IT垂直分工架构。最底层是基础设施，负责提供大模型训练以及推理所需的算力。产业初期，算力主要用于模型预训练。随着各大模型纷纷商用，用于响应用户请求所需的推理算力占比快速增加。众所周知，大模型的算力需求主要由GPU（图像处理单元）来满足，NPU（神经网络处理器）和TPU（张量处理器）等专为大模型推理运算设计的芯片也逐步成熟。NPU主要用于手机、无人机等终端产品的计算单元，TPU是谷歌设计的云计算芯片。值得注意的是，硬件集群只是基础设施的一部分，负责硬件资源调度的云平台也非常重要。

基础设施之上是大模型。大模型有开源和闭源之分。Open AI的GPT是一个闭源模型，而2023年7月，Meta的Llama II宣布支持开源和商用，引爆了大模型领域的开源运动。选择开源模型还是闭源模型，似乎和应用有关。chatGPT、Midjourney等广受欢迎的面向消费（2C）领域的应用都构建在私有大模型之上。但面向企业（2B）领域的应用通常构建在开源大模型之上，因为开源大模型支持私有化部署，并在微调方面提供了更大的灵活度。

值得指出的是，大模型层与应用层之间存在一个中间层，旨在帮助应用开发者解决两方面问题。一方面，基于大模型做二次开发（微调、提示词工程或基于人工反馈的增强学习）需要一系列工具或模板；另一方面，由于市面上存在多种大模型，应用开发者可能希望一站式接入和管理。所谓MaaS（模型即服务）集成了这些工具和功能。

大模型应用生态

技术生态主要是巨头和工程师的场域，应用生态则是创业者和产品经理的沃土。在技术生态部分，应用层在技术堆栈中的位置得到了强调。本部分谈及的应用生态从需求侧视角展开，根本上是要回答大模型如何对接应用场景、创造用户价值。这个问题可以沿着两个维度思考：客户属性和产品策略。

一方面，2C领域和2B领域的大模型应用在价值创造方面具有显著差异。首先，消费类应用的价值创造几乎都在应用内完成，而企业级应用需要与企业内部价值链和IT系统整合。其次，消费类应用几乎都基于公有云，而企业客户因隐私顾虑偏好私有云或混合云部署。最后，消费类应用通常以一对多的方式提供服务进而迅速规模化，而企业级应用服务通常需要一对一定制。以上2C和2B客户市场的一般性差异，并不因大模型技术的开创性而改变。可见，2C应用的价值创造具备独立性，而2B应用的价值创造高度依赖其他互补性资源。进而，2C应用有望构建出一个以自身为中心的生态，而2B应用通常嵌入在位玩家（包括客户）的生态中。

另一方面，无论是2B还是2C，大模型应用可考虑增强、替代或整合三种策略。增强策略为现有产品或服务加入大模型性能，进一步提升产品体验。比如，Office产品中嵌入了基于大模型辅助工具（Copilot）或者视频游戏中引入大模型生成个性化剧情。替代策略则把大模型应用作为生产力工具替代原有的低效流程。比如，在客服行业，替代正在大规模发生，一部分营销设计工作也有望在大模型的支撑下实现自动化。相较于增强现有产品和替代低效流程，整合策略跳出了现有产品或流程，重新定义客户体验。笔者避免使用颠覆一词，因为这种重新定义很大程度上是基于重组现有要素发生的。大模型并不创造要素，但提供了高超的整合能力（如通过智能体即Agent进行整合）。

上述两个相对独立的维度可以构建出一个2X3的矩阵。这个矩阵中的一些格子看起来比另外一些格子更令人兴奋。但一个机会令人兴奋的程度，通常与其进入门槛成正比，与最终胜出的概率成反比。最终，这个矩阵会被具有不同资源禀赋和风险偏好的创新者（或创新采纳者）所填满，构成一个复杂而多元的大模型应用生态。

生成式AI的区域生态

产业不可避免地嵌入在区域中。纵观全球，生成式AI的产业竞争主要在中美之间开展。对于中美AI产业的一般性对比分析不是本文的重点。本文主要关注的是两国区域条件的差异如何影响技术生态、应用生态以及两者之间的良性反馈。

静态对比，中美两国在技术生态方面的差距并不致命。诚然，美国在聚集、培养生成式AI技术人才方面具有显著优势。并且，GPU出口管制在很大程度上也增加了中国企业的成本，但同时要看到我国有三个方面的有利因素。第一，得益于开源运动的知识溢出效应，中美技术差距并没有大到足以阻碍中国的产业进步；第二，中国企业对开源的贡献也日益显著，中国也吸引了一些顶级科学家回国创业；第三，盲目的科技军备竞赛并不可取，大模型产业竞争的焦点已转向工程化和商业化。

令人担忧的反倒是中美应用生态的差距。高科技产业的发展，短期内可以靠资本维系，长期则需要靠市场来支付发展所需的成本，包括消费者侧和企业侧的支付。然而，中国消费者的付费能力远不如美国消费者。中国移动通信用户的月均支出约为50元，美国约为50美元，但中国企业购买GPU的成本要高于美国企业。在2B市场，先不论支付能力，中国企业数字化水平低首先就是一个大问题，尤其体现在SaaS（软件即服务）的低渗透率上。大模型应用更容易部署到SaaS化程度较高的企业，因其底层数据治理较规范，流程标准化程度较高。SaaS化程度不高的企业需花费大量时间、精力和资源去做前期准备，这会导致大部分企业浅尝辄止或望而却步。

值得强调的是，中国在移动互联网时代的“场景优势”在生成式AI产业是不成立的。场景优势建立在迭代之上，而迭代的前提是发展用户。纵观所有国内大模型企业，没有一家像推广移动互联网应用程序那样去不遗余力发展用户。关键原因在于，移动互联网应用程序服务一个新用户的边际成本几乎为零，而大模型应用发展一个用户的边际成本恒不为零。在商业模式清晰之前，地主家也没余粮这么烧。

如果说中国移动互联网的成功经验之一在于前端场景优势与后端技术进步的正反馈，笔者担心中国生成式AI产业正在经历一个截然相反的过程。从这个动态视角再去看待中美之间技术生态的差距，恐怕会得到与静态对比不同的结论。

几点思考与建议

据说，人们容易高估一件事的短期影响但低估其长期潜力。关于生成式AI产业，本文的观点恰好相反：笔者长期看好其作为智能基础设施的前途，但短期内对其结构性障碍持悲观态度。前文没有论述中美生成式AI产业发展面临的共性挑战，而是聚焦中国相对于美国的比较劣势。那么，中国有没有比较优势呢？笔者相信，发挥以下三方面的比较优势或有助于弥补劣势：移动互联网生态、产业协同治理和商业模式创新。

一是打通移动互联网生态与生成式AI产业生态。我国移动互联网产业在网络、终端与应用环节具备端到端的竞争优势，有望加持孱弱的2C生成式AI应用生态。比如，微信生态如何引入生成式AI、国产手机操作系统如何与生成式AI融合、云网一体如何助力AI算力网络效率提升等议题都应沿着如何利用业已建立的比较优势去哺育生成式AI产业的思路去思考。

二是推动智能产业群协同发展。智能基础设施的建设需要整合算法、算力和数据等要素，是数字基础设施和数字资源体系的有机融合和升级。支持数字基础设施运营企业向智能基础设施运营企业升级，实施算力、数据、算法的一体化运营。在需求侧，通过降低各行业使用生成式AI的成本，拉动应用、工程、运营等配套服务的发展。

三是坚定鼓励商业模式创新。生成式AI产业面临的问题归根到底是价值创造和价值分配的问题，即商业模式。无论是打通移动互联网生态还是推动产业协同发展，都旨在为生成式AI生态的发展创造一个更广阔的环境和更坚实的基础。这些比较优势能否有效转化并弥补上述比较劣势，商业模式起决定性作用。

侯宏：北京大学国家发展研究院管理学助理教授

责任编辑：刘永选

来源：《清华管理评论》2024年4月刊