1 大模型发展历程及发展现状:科技巨头引领行业,国内大厂布局较早,众多厂商结合自身优势积极布局
国内大模型布局:基于历史业务经验探索大模型
各垂直领域厂商百花齐放,结合自身所在领域,进行大模型探索,在视频推荐、人机对话、智能助理、编程等多领域有所探索。
(资料图)
2 海外及国内的热门AI应用:国内自17年以来,一级市场AI+垂直赛道项目众多
海外热门应用所用模型梳理:从文本生成与图像生成到视频生成与3D生成
按照生成内容的种类,目前海外AI应用可以分为辅助决策类、文本生成类、图像生成类、视频生成类、代码生成类、3D生成类等, 其中文本生成类和图像生成类应用相对较为成熟,视频生成类、代码生成类、3D生成类仍处于发展前期。 文字生成及辅助决策类应用:以NLP领域中的transformer模型为主(transformer解决了RNN不能并行处理的问题,因此可以堆 高模型参数)。图像生成类应用:原本以CV领域中的GAN模型为主,现以多模态模型中的diffusion model为主(diffusion model解决了GAN模 型效果不稳定的问题);4月以来,SAM、SegGPT、Grounded-SAM模型接连诞生,可以识别图像和视频中的一切物体,CV领域或 亦迎来了“GPT-3时刻” 。视频生成类应用:23年3月20日,首个多模态视频生成模型Gen-2诞生。
国内主要应用:以文本生成、图像生成、音乐生成类为主
国内自2017年以来,AI领域一级市场投资频繁,主要集中在特定领域的应用,如续写、法律公文翻译、简历生成、歌词生成、辅助 作曲、广告文案等。
3 目前主流AI模型及应用解读:从文本生成辅助决策到视频生成
文字生成及辅助决策类应用模型:从RNN到Transformer
文字生成及辅助决策类应用:17年以前NLP领域中应用最为泛的模型是基于RNN架构的Seq2Seq模型,但RNN为序列模型,训练时间 开销较大,且难以实现并行处理;2017.6谷歌提出了Transformer模型,解决了RNN不能并行处理的问题,可以堆高模型参数,大大 提高了训练和推理的速度。
1)文本生成类-Copy.ai(文本生成工具)
Copy.ai是基于GPT3的文本生成工具,可应用于商业文章写作、营销文案、产品描述等场景。
2)文本生成类-Notion.AI(智能在线文档编辑工具)
功能:具有智能化的协作、搜索、分类和推荐功能,具体包括生成新内容、编辑现有内容、总结内容、翻译内容 ;模型:基于GPT3 ;应用场景:被广泛应用于知识管理、团队协作、个人笔记等领域。
图像生成类应用:从GAN到diffusion model再到SAM类模型
图像生成类应用:原本以CV领域中的GAN模型为主,现以多模态模型中的diffusion model为主(diffusion model解决了GAN模 型效果不稳定的问题);4月以来,SAM、SegGPT、Grounded-SAM模型接连诞生,可以识别图像和视频中的一切物体,CV领域或 将迎来GPT-3时刻。
1)图像生成类-Stable Diffusion(文生图)+Stable Diffusion Reimagine(图生图)
Stable Diffusion和Stable Diffusion Reimagine都是Stability.ai创作的AI生成图像模型/工具。 Stable Diffusion:是Stability AI公司开源的AI文生图扩散模型,通过DreamStudio的API将Stable Diffusion货币化。用 户只用输入提示文本或者拼合的素材图+文本就可以获得完整的的设计图,可用于创造新颖和独特的设计、辅助场景构图等。 ·Stable Diffusion Reimagine:2023年3月17日,StabilityAI推出Stable Diffusion Reimagine,用图像编码器取代了原来 的文本编码器,只要上传一张图片,就可以创作无数张外观相似、但细节和构图不同的图像,该功能目前由Clipdrop工具实现。
2)图像生成类-Midjourney (文生图+图生文)
功能:Midjourney是一款图片生成应用,输入prompt即可生成图像。该产品搭载于Discord社区,用户可通过与机器人Midjourney bot进行对话式交互,并选择不同的主题、风格和分辨率,来生成图像作品,可广泛应用于游戏、影视等领域;4月5日Midjourney是 上线新功能“/describe”,可从图像中反推prompt,极大的节省了创作者学习prompt的时间、提升了图片输出的精准度。
模型:2023年3月16日,Midjourney宣布推出V5模型,与前一代V4相比,V5拥有更多风格选择、更高分辨率、拥有刻画更丰富细节 比如手部细节的能力、对Prompt指令的理解力更强。
视频生成类-Runway Gen-2 (文生视频、图生视频、文+图生成视频)
功能:Runway是一款视频生成应用,其Gen-1版本功能为视频生视频,Gen-2版本功能包括文生视频、文本+参考图像生视频、 静态图片转视频,该工具目前搭载于Discord社区。模型:23年2月公司推出模型Gen-1,通过提供初始视频、叠加文字提示语或图片提示,生成新的视频;23年3月20日,首个多 模态视频生成模型Gen-2诞生,相比Gen-1,Gen-2可实现从零开始自动创作短视频的功能,大幅缩短视频制作周期。应用领域:生成式AI视频有望在游戏、影视、营销等领域实现广泛应用。
3D生成类-Luma(文生3D、图生3D、视频生3D)
功能:Luma是一款3D内容方案平台,具有文生3D模型、图生3D、视频生3D等功能。模型:基于NeRF(神经辐射场)模型,其原理是利用深度神经网络,从多个角度拍摄的图片中学习一个连续的三维场景表示, 该表示可以用于合成任意视角下的新图片。Luma使用了NeRF的改进版本,可以在移动设备上实时运行,并提供了一些便捷功能, 如自动对齐、背景消除、模型编辑等。
代码生成类-GitHub Copilot X(代码补全、代码建议、代码测试等功能)
功能:GitHub Copilot X是微软与OpenAI共同推出的一款AI编程类开发工具,能够实现代码补全、代码建议、代码测试、代 码重构、生成代码文档等功能 。模型:23年3月22日推出的CopilotX基于GPT-4 模型,21年推出的GitHub Copilot基于OpenAI的Codex模型(GPT-3模型的低配 版),帮助开发者提高了55%的开发速度。功能更新:相比GitHub Copilot,CopilotX新增了聊天和语音功能等,具体包括: 1)Copilot Chat聊天功能:集成与VS Code和Visual Studio的聊天界面,帮助分析代码、生成单元测试和修复bug 2)Copilot Voice 语音功能:开发者通过口头指令进行自然语言陈述意图,Copilot Voice即可生成代码片段。
4 国内一级市场及二级市场公司在AI领域百花齐放,有所积累
Yahaha:元宇宙UGC生产工具(搭建虚拟3D元宇宙空间及组件)
功能: 把一个类似“游戏引擎”的交互式平台开放给开发者,让开发者在上面可以开发出各种3D渲染的虚拟元宇宙空间,可以让开发者在上 面通过摆放角色,摆放场景物件,和加入实时交流功能,搭建出互动式的3D虚拟空间,最终可以用于会议,营销,电商,现场活动,及游戏等。用例:公司的平台可以用户搭建以下的场景并提供实时互动的交互体验,包括在企业内部会议虚拟交互空间,市场营销广告巡展,线上购物 商品展示及互动,和现场活动带来沉浸式体验。
RCT AI:为游戏开发提供人工智能解决方案
核心产品“混沌球”: 采用强化学习的算法,可以通过算法自定义或生成剧情故事,故事的走向会随着玩家交互行为改变而发生变化。 用例: 通过输入文档和基本信息,提取出角色核心的要素,通过调整参数,进行强化学习,运算出在各种触发条件下可以生成的情节走向, 最终生成有别于传统叙事方法的“基于混沌球式的交互式叙事(即包含多种结局,无限种剧情树)”。
秘塔写作猫:文档写作助手及交互聊天工具
秘塔写作猫采用自研的大规模概率语言模型,是中文AI生成文本内容的一项应用突破。 发展历程: 2018 年 4 月,专门为法律从业者及其他文字工作者研发了包括翻译功能在内的各类 AI 办公工具; 2020 年正式上线一款文书写作助手:秘塔写作猫,功能类似于中文 Grammarly 的 AI 软件,可以自动进行文档纠错、文书改写、 文字优化,适用于所有文字工作者 如今在基于多年的 AI 研发经验基础上,进一步推出了对话写作猫,弥补了交互聊天的短板,除了日常对话、知识解答、算数之 外,具备写小说、写影评、制定财务计划等数百种技能,采用秘塔科技自研的 MetaLLM 大模型,这是一个超级大模型,有上亿的 参数,截至目前,对话写作猫训练花费不足1 亿美金。 模型特点: 注意力结构:自研模型与GPT-3相比,优化了注意力结构,配合集成学习方法,降低对数据传输和GPU型号的要求,降低训练和使 用成本; 语料库内容:GPT-3是基于英文语料训练的模型,生成英文文本并适用英文语境;秘塔通过自研大模型训练,语料库来自全国各新 闻网页或其他公开资料清洗后的高质量数据,使中文AI生成本文产品能够投入使用。 产品功能: 文本校对、文章润色、AI辅助创作:根据标题或文本一键生成大纲、文章,能够自行纠错和改写,无限次数生成。
彩云小梦:AI文本及语音工具,与阅文及喜马拉雅合作
2019年与阅文集团合作的30部AI翻译网文作品,上线阅文旗下海外门户起点国际;2022年AI续写应用彩云小梦入驻喜马拉雅,由其AI续 写的小说故事由喜马拉雅AI主播“喜小道”演播并发布。 模型原理: 彩云小梦2.0基于大规模语言模型的自然语言处理模型,进行各种类型文本创作;用 NLP 技术驱动对话场景,情节续写的基础 上实现用户与虚拟人物对话,提供互动和情感陪伴; 模型功能: AI文字聊天、AI语音通话、AI剧情文本续写。应用领域包括文本营销领域、剧情写作领域、文本交互游戏领域 。 模型效果: 经过测试,对比1.0版本及其他开源模型。创新得分/逻辑得分/通顺得分为43.889/52.778/64.444,均为最高 。 产品定价: 会员单价为25~25元/月,按季售价36元,续费方式灵活;相比非会员,会员服务增加了续写字数上限(100K字/月)、语音通 话时长400分钟/月和海量文本对话消息数。“字数加量包”能够增加续写字数,50K/100K/1000K字分别售价30/50/298元。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
关键词: