少数科技巨头正在引领AI基础模型的发展
回顾近十年的人工智能模型发展,我们发现AI技术提供商数量稀少且进入门槛不断提高。2017年起,人工智能研究从小 模型转向大语言模型,导致模型体量成倍增加,需要更多GPU算力和配套设施投入,大量的前期资本投入以及过长的回 报周期阻碍了许多新进入者。
大模型时代,模型体积几何式增长导致前期投入过高,成功者往往依赖科技巨头的资金、数据等支持。在过去五年内, 我们看到成功的人工智能独角兽都在寻找互联网科技大厂作为其背后的依靠,主要因为:1)能够得到充足而短时间内不 求产出的资金支持;2)依靠互联网大厂的公有云等相关资源进一步降低成本;3)获取互联网大厂长期以来所积累的优质 数据源。
(资料图片)
AI巨头从开源走向闭源
大模型研发的高门槛让头部少数AI厂商占据主导权,并开始从技术研发向商业化落地迈进。从Bert开始到GPT-3再到谷歌 的PALM,人工智能技术的发展潮流始终由OpenAI、谷歌等少数几家巨头主导,其他厂商根据先行者的开源资料以及相关 论文进行模仿并创新。但从OpenAI发布GPT-3走向商业化盈利开始,谷歌也迅速效仿,不再公布T5模型及后续版本的细 节。头部的AI厂商希望将自身的技术优势构筑为商业化能力的核心壁垒,以延长后来者的追赶时间。
人工智能头部厂商从开源走向闭源,利用其综合优势来保持持续的领先。谷歌与OpenAI作为行业内的技术领先者已经明 确选择了闭源模式:本次OpenAI推出GPT-4的形式与以往不同,OpenAI既没有发布GPT-4的相关论文,也没有提供详细 的框架说明,仅仅提供了一份98页的技术文档(主要描述模型能力以及相关评测的得分,几乎没有任何技术细节)。通 过这一方式,OpenAI阻断了所有借鉴者参考的直接途径(模型大小、数据集构建、训练方法等),迫使想要融入GPT-4 能力的软件服务商与其合作,OpenAI提供对应的API接口以及部署指导。
追赶者更倾向于通过培养开源社区
相较于头部AI厂商,追赶者更倾向于通过培养开源社区,共同迭代模型以缩小和头部厂商的差距。头部厂商闭源模型后, 落后一到两个身位的公司(Meta、Amazon、NVIDIA等)可能会选择开源路线,寄希望通过社区的力量加速迭代。目前 大语言模型开源社区的主要贡献者包括Meta、NVIDIA以及Huggingface等,通过分享部分模型与大语言模型相关的知识 培训逐渐培养起了一批开源开发者。Meta于2023年3月发布了其新一代大语言模型LLaMA并将源代码开源给社区。社区 用户及企业可以免费使用公开的模型以及数据源,但受证书限制不能用作商业用途。
软件服务商需在与闭源头部厂商合作或免费开源方案之间做出抉择
在见证了ChatGPT的成功后,拥抱AI能力成为了软件服务商的普遍共识。Gartner预计到2025年,生成式人工智能将占所 有生成数据的10%。由于底层大语言模型的高门槛,只有部分科技巨头有能力完全自研底层模型。而绝大多数软件服务商 需要在成为闭源头部厂商的合作伙伴与使用自有数据在开源项目的基础上开发之间做二选一的抉择。
1)软件提供商选择闭源厂商方案的优缺点分析
与开源方案相比,闭源大厂技术更为领先:目前开源项目的准确度仍不及2021年发布的前代模型GPT-3.5与PaLM。软件 提供商与闭源大厂成为合作伙伴会得到更加可靠的模型支持。对于数据存量较大且存储种类较为复杂的行业来说,闭源厂 商的模型更能保证在大规模应用场景下的稳定性。以2023年3月Meta开源的LLaMA为例,最大参数量65B的LLaMA模型在 准确率上与2021年谷歌闭源发布的PaLM模型差距明显。
闭源大厂为软件服务商封装中间技术细节,简化训练、部署等环节,降低软件厂商技术难度,并提升接入、开发效率。 大多数企业和个人难以承担部署和运维成本,也不具备通过汇编语言对底层CUDA加速框架进行优化以降低推理成本的能 力和经验。针对上述问题,闭源大厂可以通过云服务平台将复杂的技术问题进行封装,使软件服务商直接使用AI模型并根 据自身业务对模型进行微调。此外,闭源模型会直接提供一步到位的API端口,软件服务商直接将API接入到软件中就可 以使用。
与闭源大厂合作的潜在顾虑:昂贵的成本、用户隐私&数据安全等。在与软件服务商的合作方案上,OpenAI按照使用量 来收费。对于数据密集型行业来说,每1GB数据的处理需要花费超过8000美元。此外,另一个顾虑在于数据源并不掌握 在企业自身手中,对于数据隐私程度较高的场景,目前相关的数据隐私与安全监管仍然不完善。
2)基于开源方案自建大语言模型的优缺点分析
基于开源方案自建大语言模型使资金投入更加灵活与可控。目前开源社区中基于LLaMA、Alpaca、Bloom等的开源项目 都是免费提供。尽管限制商业化用途,但企业可以通过提取权重的方式进行规避。根据自身的数据规模以及相关业务对于 准确度的要求,企业可以灵活控制对硬件采购的投入以及相关训练成本的支出。与此同时,市场也出现了诸如Colossal-AI 等开源解决方案,致力于优化底层推理和训练的效率。
开源方案可将数据留在本地,最大限度地保护用户隐私和数据安全。对于数据安全至关重要的行业,确保数据隐私是选 择基于开源方案自建的最大理由。2023年4月,意大利就因为担忧数据隐私与保护监管的制度不完善禁止企业使用 ChatGPT,三星亦因担心内部资料泄露问题限制了部分部门对ChatGPT的访问。尽管目前相关限制并未涉及API和模型实 例的使用,但基于数据隐私的考虑,基于开源方案自建是企业的最优选择。
小结
对于拥有海量经授权的垂类数据、充裕现金流以及直接 落地场景的软件大厂适合基于开源模型进行AI能力的构 建。比如Bloomberg基于BLOOM(GPT-3变种)的纯 解码器因果语言模型构建了BloombergGPT,其训练数 据集为超过7000亿个标签数据的大型训练语料库,金融 数据集包含3630亿个标签,占据54.2%的训练集。海量 的垂类经授权语料、直接落地场景以及人才、资源的稳 定支持使Bloomberg基于开源模型训练AI能力具有充分 的价值。类似的,我们认为生命科学CRM&研发管理领 域的Veeva亦有能力基于经授权的垂类语料赋能医疗 CRM、药物研发流程管理环节。
不满足以上三项条件的厂商,直接接入闭源模型应为理 论上最优的解决方案。对于Salesforce、Workday等平 台型应用软件厂商,尽管具备充裕的资源和落地场景, 但其平台上的数据集多为用户私有数据,无法投入模型 训练。因此,参照Microsoft Copilot产品实现逻辑,通 过用户私有数据增强prompt后,导入微调闭源模型进行 推理,进而实现内容生成、流程&命令自动化等效果应 为这类厂商实现AI能力的主要方式。
应用软件:平台型、垂类软件等有望显著受益,单点解决方案或将受损
我们主要从产品体系、客户结构、数据沉淀、生态构建等维度来衡量应用软件领域的受益&受损逻辑。 产品体系:大语言模型对应用软件的强化主要体现在两个方面 。 单点功能的增强:比如在销售环节自动进行线索整理、生成销售策略,在营销环节自动生成营销文本、个性化广告投 放,在客服环节自动生成或扩展客户问题回复等;我们认为客户会率先向更容易落地、实现ROI转化的领域进行预算 投放,包括客服、营销、辅助内容创意等领域。 增强各项功能的协同效果:交互界面进一步上移,比如用户可以通过一条指令实现销售线索归集整理、营销内容生成 及个性化投放的全流程,而这在过去需要在不同的产品页面中完成。显然产品体系更全面、丰富的平台型厂商更容易 实现这一效果,而单纯单点功能的强化将具有较强的同质性,平台型厂商的优势有望在大模型赋能下进一步增强。
客户结构: 在过去的应用软件市场,大型企业客户的需求往往更为复杂,SMB客户更为倾向于接受功能相对简单但使用门槛较低 的方案,因此面向两种客户的产品往往是割裂的。 但伴随着大语言模型的渗透,复杂的功能和配置项可以依赖自然语言的交互进行实现,增加了企业级产品向SMB客户 下沉的可能性,而此前针对SMB用户的产品则有可能遭受降维打击。
数据沉淀: 海量经授权的垂类数据、充裕现金流以及直接落地场景的软件大厂适合基于开源模型构建AI能力,但对大部分厂商而 言调用第三方闭源模型仍为理论上最优的解决方案。底层模型同质化背景下,数据独特性是实现差异化的核心手段。 考虑到客户数据的隐私性和安全性至关重要,参照Microsoft Copilot产品实现逻辑,通过用户私有数据增强prompt后, 导入微调闭源模型进行推理。同时,厂商可以通过各个客户的用户反馈数据持续训练个性化小模型,进一步优化大模 型的生成效果,降低“幻觉”问题的出现概率,不断优化用户的使用体验。 在这一逻辑下,预计拥有海量数据&流程沉淀的平台型软件厂商亦将充分受益,而仅在工具层面实现浅层次整合的厂 商将不具备显著产品壁垒。
基础软件:AI显著降低产品使用门槛,数据管理最为受益,安全、 运维等亦将受益
大模型的训练、部署以及稳定&安全运行仍然需要数据管理、性能监控、信息安全等系列产品的配合和支持。在软件开发 环节,大语言模型有望凭借对代码的生成和理解能力实现产品和产业链价值的重构;在其他的基础软件环节,大模型也有 望降低从业人员门槛,拓宽产品覆盖面和变现方式。以下,我们将对数据管理、性能监控、信息安全、软件开发等细分市 场展开具体分析。
性能监控:大模型在运行过程中需要对于性能指标进行实时的监测和分析,但考虑到大模型本身的特殊性,在训练和部署 环节同样需要专用的工具完成相关指标的监控、调整和可视化,其中包括: 实验管理:在训练环节对于学习率、批量大小、迭代次数等超参数空间的系统性搜索,选择最优超参数组合,并记录 和可视化训练、评估过程; 性能监控:在推理环节对于损失函数、准确率等各类模型性能指标的监控和可视化,横向&纵向比较模型的性能变化。 在大模型专用监控工具领域,Weights&Biases、Comet ML、Arize、Fiddler,以及Databricks推出的开源工具MLflow 等均有相应产品,其中Weights&Biases和MLflow在产品完整度和用户覆盖面上更为领先。
软件开发:企业开发者团队需要借助Devops工具自动化低价值的流程,以更快实现新功能的发布。 由于软件开发流程有价值的环节体现在项目管理&协作和代码编写&托管两个节点,因此这两个节点上的头部参与者 具备整合软件开发全链条的较大潜力。 根据IDC的统计,2021年全球软件开发市场Top2的玩家分别为Atlassian和微软,恰好对应项目管理&协作、代码编写 &托管两个节点的龙头。根据IDC,在大语言模型普及之前,Atlassian的份额以及份额获取速度持续领先于微软。但 大语言模型普及之后,GitHub CoPilot能力的强化大幅提升了开发效率,开发链条的核心有可能由项目管理向代码编 写&托管转移,这在一定程度上可能削弱Atlassian的竞争优势和平台化潜力,而更为利好微软的全链条整合。当然, 与GitHub在同一环节竞争的GitLab更有可能受到直接冲击。
更加紧密、复杂的软件分工协作体系
人工智能浪潮带来的另一个变化是科技巨头构建以人工智能服务为核心的新商业模式,使软件产业分工更加明确。 LMaaS(大语言模型即服务)将成为AI服务提供商的主要商业模式,以泛用的大语言模型为基础统一过去公有云中的繁 杂PaaS层,并更好地融入软件层,用户通过单一模型可对接多种外部API并更好地理解用户意图。
目前以OpenAI&微软为代表的厂商已经构建起以LMaaS为核心的商业模式,围绕GPT逐步向上下游拓展生态。目前 OpenAI的主要模型包括GPT-4、GPT-3.5、Dalle2、Whisper、Embedding等,包含了泛用大模型、图片、语音、微调等 多个维度,其中最为泛用的GPT类模型将作为一个接口根据用户需求调用不同的模型。
插件功能(Plugins)使LMaaS能够连接不同的外部API,极大地扩展了大语言模型的上层软件生态。OpenAI于2023年3 月在ChatGPT中推出插件接口,旨在接入小公司的微调成果。插件接口简化了小公司微调大语言模型的难度,并丰富了 基于大语言模型的生态环境。第三方厂商无需接触部署大语言模型,降低了微调实施的难度。
关联落地(Grounding)是LMaaS模式中协调外部软件API与大语言模型生成内容可靠性的关键步骤。微软的Copilot大 量使用关联落地技术,通过Grounding提高接收提示质量,确保模型准确执行用户指令,完成多模态转换并提升指令准确 性。
对于用户而言,LMaaS体验优于原先的公有云服务,简化了 本地部署与调试过程。LMaaS通过云服务封装复杂技术问题, 使用户无需关注底层实现。LMaaS平台可根据用户需求,对通 用AI模型进行特定任务微调,提高模型在特定领域表现。 在LMaaS商业模式下,我们认为行业最终将形成AI巨头提供 泛用性模型以及服务主要通用需求,中小公司切入特定垂直 行业并根据需求微调优化模型的格局。 有利于发挥各自优势,使大型AI企业专注于提供稳定、高 效基础模型,降低成本,提高性能和覆盖范围。同时,中 小型公司充分发挥行业专长和敏捷性,为特定行业客户提 供定制化、高度针对性解决方案。 为行业带来更多创新、快速响应和精细化的服务,有助于 进一步提升AI技术在各行各业的落地应用效果。 推动行业生态的繁荣,鼓励更多创新型中小企业和创业团 队投入到AI领域,企业之间的合作将变得更加紧密,形成 一个互补的生态系统。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
关键词: