2023年2月随着微软推出由ChatGPT支持的Bing搜索引擎,谷歌推出与ChatGPT正面竞争的对话式程序Bard,国内包括百度、360在内的科技大厂也加入到这场大规模语言模型的竞争中,引发了商业世界对于大语言模型未来所能带来变革的广泛思考。
自然语言模型的历史发展主要分为三个阶段,从基于规则,到基于统计,再到基于神经网络,我们可以清晰地看到语言模型架构越来越趋近于人脑思考的方式,在处理大量数据中不断地优化学习过程和训练方法,模型准确度持续提高。
阶段一(直到1970年代),模型基于规则:该阶段自然语言处理主要基于手写规则,只能处理少量数据
阶段二(1970-2000年代),模型基于统计:从数学统计的角度预测下个词的出现概率,代表模型如N-Gram等,推理过程非常直观,但是推理结果非常受数据集的影响,容易出现数据稀疏(即空值)等问题
阶段三(2000年代到现在),模型基于神经网络:模型开始像人脑一样学习,2017年以前主要是小模型阶段, 在2017年Transformer发布之后,模型开始尝试大量数据的训练学习,进入大语言模型阶段,在加入人工干预的反馈基础上,模型效果攀上新的台阶
在此次ChatGPT发表之前,我们在使用智能音箱等一系列产品时经常碰到对话助手所了解内容的边界十分有限、无法联系上下文、答非所问等问题。出现这些情况的背后主要是过往语言模型本身不够智能,这种智能程度不够高的问题主要有以下两个底层原因:
数据信息容量有限:语言模型所使用的的训练数据不够丰富全面,数据质量不够高,以致于模型对于通用知识定理和特定场景信息都不够了解
推理难以递进发散:模型底层架构不具备发散的因果推理和学习能力,只能回答训练过的特定问题,而不能回答开放性问题
ChatGPT在推出之后引起了广泛关注,其对话主题无限制、能够联系上下文、支持反复多轮对话、信息和用户意图理解准确度大幅提升的优异表现,与过往的对话助手形成了强烈反差。ChatGPT能够达到如此智能的程度,其背后主要是以GPT-3/GPT-3.5为代表的大语言模型实现了以下三个方面的关键突破:
数据信息容量巨大:当今大语言模型本身的参数量增长迅速,使用的预训练数据量和对应算力达到历史罕见的规模,这些成为模型能够理解对话内容的基础。例如,2020年发布的GPT-3,算力消耗费用达到千万美元级别,预训练数据量达到45TB(包括了全网页爬虫数据集、维基百科文章、书籍文章等),实际参数量达到1750亿。对比来说,10年前部分典型的LTSM模型具有的参数数量还远不到5000万
底层模型结构优秀:相比于之前的RNN模型,目前大语言模型普遍使用Transformer模型,其优点在于可以理解距离较远但是联系密切的词汇关系,关注文本重点而非全文,且并行计算处理速度快。对比而言,小模型时代流行的RNN架构,机械地假设了距离较近的词汇之间的关系更密切,也不能同时处理大批量的语言数据
模型训练方法完善:在模型训练中加入更多的人类反馈和强化学习,使得模型具备更智能的语言指令理解能力。例如,GPT-3.5所使用的RLHF(Reinforcement Learning from Human Feedback)训练方法,通过使用人工标注数据微调模型、训练奖励模型并以奖励模型来更新预训练模型参数,三个步骤反复迭代大大提升了GPT-3.5模型的性能表现
在芯片产业,著名的摩尔定律揭示了技术进步的速度,其核心内容为:集成电路上可以容纳的晶体管数目在大约每经过18个月到24个月便会增加一倍。摩尔定律虽非自然科学定理,但在早些年的产业实践中得到了广泛验证。
反观近些年人工智能的发展趋势,我们看到AI模型达到人类认知水平所需要的时间越来越短。约10年前发布的模型达到人类水平大约需要6年,而近些年全新的AI模型进步速度大大加快,一般仅需要1年。
在此发现的基础上我们认为,AI领域的摩尔定律有望体现为,未来整体进步的速度呈现出超线性的增长趋势,在数据集上达到人类认知水平的时间每2年缩短2倍以上。AI人工智能三要素包括算法、算力和数据。此次大语言模型的优异性能表现,恰恰来自于算法结构的突破性创新,和背后超强算力对于消化海量数据形成的稳固地基。有理由相信,随着大量基础和应用科学研究投入到AI领域,得益于算法(例如架构)和算力(例如芯片GPU)进步的乘数叠加,AI领域的提升将进一步加速。
平台型模式的特点
研究平台级生意的历史可以发现,尽管在具体行业的呈现方式不同,但平台级产业在商业模式和竞争格局方面具备两项关键特点:
体现对于上下游明显的赋能和聚集价值:平台级机遇往往诞生在供需双边主体分散、需求多元的行业,如操作系统、移动出行、电商等。通过赋能分散的上游供给,降低供给门槛,提升供给数量和效率;同时聚集下游多样的消费者需求,最大化挖掘未被满足的需求种类形成完整生态,最终得以实现供求双方交易的高效匹配
形成赢家通吃的产业生态格局:在平台生态中,供给和需求互相吸引,往往能够引发滚雪球效果,理论上形成强烈的平台效应。过往在操作系统、搜索引擎、电商等行业中,头部玩家市占率基本可以保持在50%以上。正因为如此,平台型模式一旦形成,护城河高,商业空间想象力丰富,成为极具吸引力的生意模型
大语言模型具备形成平台型模式的巨大潜力
对照平台型模式的特点,本轮大语言模型在技术进步的加持下,已经体现出上下游赋能聚集和快速向头部聚拢的特点,有望成为全新的技术应用操作系统,形成新一代平台级产业生态:
催生上游供给升级提效和下游AI应用爆发,促进产业变革:在供给侧,围绕大语言模型生成的提效需求,将进一步牵引特定开发者工具生态的形成(如语言模型数据工程、系统适配工具等)和底层硬件的技术路线(例如专门用于AI的训练芯片);在需求侧,大语言模型极大提高了内容生成、聊天对话、文本翻译和搜索引擎方面的用户体验,促进下一代AI Native应用在多元场景中爆发
市场领先者呈现出指数级别的增长态势,平台效应初现:此次大语言模型的进步产出广泛应用于在线对话、文本翻译等2C端场景中,远不同于以前AI四小龙大多投身于政府安防生意,因而更易于被消费者感知和传播,平台头部效应将更快形成且更加明显。例如,ChatGPT推出仅两个月后,在2023年1月末的月活用户已经突破了1亿,将其他竞争对手远远甩在身后,也成为史上用户增长速度最快的消费级应用程序(对比来看, 达到同样用户量级APP Store花了2年的时间,Facebook花了4年半的时间)
开源与闭源的选择同样存在于当今大语言模型之上(例如,OpenAI闭源,Stable Diffusion开源)。诚然,开源与闭源各有鲜明优势和风险隐患,然而参照发展规律和市场现状,我们预计大语言模型采用开源模式有望赢得更宽阔的发展空间。
看历史,开源掌舵技术项目发展
尽管开源与闭源的路线争议几乎发生在所有软件技术中,但过往IT信息技术从闭源到开源的演变结果,例如从版本控制的Bitkeeper到Git,从编程语言的SAS到Python,从Web服务器软件的Microsoft IIS到Apache和Nginx,屡次证明了开源项目具备更加蓬勃的发展活力。
开源项目受到更多欢迎的本质原因,还是来源于开源路线所具备的独特优势,包括能够吸引优秀创新开发者,加速技术和产品创新迭代,同时树立项目品牌形象等。固然选择开源路线可能会造成技术受到不良利用,但是开源对于技术项目落地的强力引导作用,往往可以推动应用标准和相关监管的规范化,更有可能克服潜在隐患。
看未来,开源有望引领大语言模型进步落地
尽管开源与闭源的选择会存在不确定性,但结合当下AI大语言模型的市场现状,开源路线更适合大语言模型的推广存在两大核心原因:
首选,开源可以加快大语言模型的开发落地:当前大语言模型技术还处于初步推广应用阶段,借助开源社区人员的动能,不仅可以快速进行细节技术路线的更迭,还能够优化模型的训练效率。例如,文本转图像模型Dreambooth于2022年8月诞生并随即开源,又过了25天后训练所需内存空间就降低了79%,到了10月该模型已经能在普通的8GB GPU上训练,训练门槛的降低大大加速了模型的开发进程
其次,开源可以拓展大语言模型的应用场景:如前文所述,本轮大语言模型贴近消费者,通用性强。但另一方面来说,目前killer app应用场景还不明确,这就需要更多的开发者加入到社区中来扩展用例,牵引更多消费者来进行场景试验,才能最终打造出丰富的场景和生态配套服务
令人欣喜的是,我们目前可以看到部分与大语言模型相关的开源项目,已经获得了市场的认可,开源路线的优势在大语言模型上得到了初步印证。例如,文本转图像领域的开源模型Stable Diffusion,发布90天内GitHub已累计获得超过3w Star,成为历史上最快达到这一水平的项目。
大语言模型潜在的商业化选择
大语言模型在众多场景中具备提供突破性用户体验的可能性,未来商业化可挖掘空间极大。我们遍历历史上软件科技产品的发展情况,以下是其可能会参照的四种商业模式:
API调用模式:代表企业旷视科技,提供人脸识别算法的API接口,并按照调用次数付费
封装软件许可证模式:代表产品Windows,源代码闭源,主要靠向个人及企业售卖封装完整的软件许可证license收费
开源社区+企业级服务模式:代表企业Red Hat,源代码完全开源,通过提取开源社区中的上游技术产品,对其进行测试并整合打包,最终将完整产品或解决方案售卖给企业用户
交易佣金模式:代表产品Android,系统完全开源,不收取授权费用,主要收入来自于向应用商店内发生的APP下载购买以及APP内的商品服务交易收取佣金
对大语言模型采用不同商业化路径的考量
参照软件科技产品的历史商业化模式,结合大语言模型当前的突出优势和潜在局限,我们目前认为其商业化可能会遵从以下路线:
首先,API调用模式短期内行得通,但并非是优越的商业模式:调用模式在短期内赚钱的前提是某家AI平台公司建立持续性壁垒,在训练成本和落地效果上都保持明显优于竞争对手和企业自研的表现。然而随着技术成熟,大语言模型势必慢慢从底层研发过渡到工程打磨的比拼。如果没有独家创新,基于同样公开架构的模型效果走向同质化的可能性加大,这时API调用收费价格则会向成本趋近,难以支撑起令人激动的商业机会
其次,开源社区+企业级服务模式有望成为中短期内模型加速落地的关键路径:参照普通机器学习模型的落地情况,38%的企业中,数据科学家50%以上的时间都花在了部署而不是开发上,主要原因在于模型在数据、架构、代码上都具有极高复杂性,另需适配到不同的环境中。大语言模型参数更多,架构更复杂,预计会产生更多的部署和使用问题。参照前文所述开源路径和Red Hat商业模式,大语言模型AI公司有希望克服前述模型部署中的多重难题,凭借开源加速模型的产品化落地和生态构建,并通过提供高可用、高可信的企业级产品或解决方案来扩大营收。例如,可以提供Prompt工程方案、售卖适配企业环境的打包产品、按照AI对于场景价值的提升来进行分成等
最后,长期内成为AI时代平台级基础设施,按照佣金收费存在最大想象力:按照AI技术以超线性速度不断升级的规律,大语言模型有望找到明确的杀手级应用场景,向下支持AI Native原生应用生态的完善,向上牵引开发者工具链和硬件技术路线建设,建立深厚的护城河和平台效应优势。按照交易收取佣金,辅以其他广告、增值服务变现的方式,是未来最有可能助推大语言模型AI公司成为科技巨头的商业路线
纵观商业市场的历史发展,在每个时代总会诞生全新的产品和模式。大语言模型的突破性技术实现和所带来的颠覆趋势,标志着后移动互联网时代最令人兴奋的平台级机遇。当前大语言模型还存在诸多变数,兴许在不久的将来,还会诞生更多与AI特定相关的创新性商业路径。这种潜在的波动与可能性空间,也成为吸引我们持续探索AI技术应用的魅力所在。
本文由罗兰贝格全球合伙人李冰博士、高级项目经理姜汉以及咨询顾问何立阳共同执笔。
可以QQ联系我们:896161733;也可以电话:18121118831