1.1 多模态或成为AI 大模型主流......4
1.2 多模态发展路径逐步清晰,底层技术日臻成熟....4
2.1.1 OpenAI 密集剧透GPT-5,或将实现真正多模态.......6
2.1.2 OpenAI 推出首款视频生成模型Sora,视频更加接近真实世界......7
2.2.1 Gemini 正式对外发布,多模态理解优势突出.......11
2.2.2 Gemini 1.5 突破100 万token,多模态能力实现飞跃......12
3.1 通用多模态大模型积极开放,挖掘垂直场景广阔空间......21
3.2 AI+办公:重塑办公模式,解放员工生产力.... 22
3.3 AI+教育:助力教育行业应材施教,促进教育师资均衡.... 24
3.4 AI+电商:AI 模特换装到AIGC 赋能运营,全方位渗透电商产业链...... 24
3.5 AI+医疗:医疗领域数据模态丰富,大模型融入提升效能.... 25
图表1: 大模型朝多模态方向发展...... 4
图表2: 多模态大模型一般架构...... 5
图表3: 2019 年至今多模态预训练大模型重要算法与数据集.....5
图表4: CLIP 为连接文本与图像的桥梁....6
图表5: Meta-Transformer 可同时处理12 种模态.......6
图表6: 2023 年7 月,GPT-5 商标处于注册流程中.....6
图表7: GPT 历次更新梳理..... 7
图表8: GPT-4 数据集构成(预测) ...... 7
图表9: Sora 可生成一分钟长视频..... 8
图表10: Sora 将视觉数据转换为patch .....8
图表11: Sora 根据文本说明生成高质量视频....... 9
图表12: Sora 根据冲浪图片(左)生成冲浪动态视频(右) .......9
图表13: Sora 从视频片段开始向前/向后扩展视频......9
图表14: Sora 能够编辑视频风格..... 10
图表15: Sora 生成可变大小的图像..... 10
图表16: Sora 生成带有动态摄像机运动的视频..... 10
图表17: Gemini 支持输入文本、图像、语音和视频输出文本和图像.... 11
图表18: Gemini 包括三种不同规模的模型.....11
图表19: Gemini 识别蓝色小鸭子素材.....11
图表20: Gemini 处理做菜任务.....12
图表21: Gemini 处理视频任务.....12
图表22: Gemini 1.5 Pro 领先基础模型的上下文长度....... 13
图表23: Gemini 1.5 Pro 分析和总结阿波罗11 号登月任务的402 页记录.....13
图表24: Gemini 1.5 Pro 分析和总结44 分钟的巴斯特・基顿无声电影.......14
图表25: Gemini 1.5 Pro 高效处理100000 行代码..... 14
图表26: Gemini 1.5 Pro 在基准测试中性能领先....... 15
图表27: Gemini 1.5 Pro 在长token 理解上性能超越GPT-4 Turbo ....15
图表28: Meta 主要开源大模型梳理.... 15
图表29: ImageBind 为跨越六种模态的大模型...... 16
图表30: ImageBind 在音频和深度方面优于专家模型......16
图表31: AnyMAL 多模态输出示例..... 17
图表32: 我国部分多模态大模型梳理...... 17
图表33: 国产大模型与海外龙头厂商仍有差距......18
图表34: 阿里通义千问多模态大模型测试性能媲美GPT-4V 和Gemini ....19
图表35: 智谱CogView3 效果逼近DALLE·3 ......19
图表36: Emu2 在十余个图像和视频问答评测集上取得最优性能...... 20
图表37: 国产大模型与海外大模型差距逐步缩小......20
图表38: 多模态大模型可灵活部署于垂直场景......21
图表39: 调用GPT API 客户梳理.... 21
图表40: GPT 大模型降价前后对比..... 22
图表41: MS365 Copilot 解放员工生产力、提高技能....... 23
图表42: Microsoft 365 Copilot 应用领域.... 23
图表43: Dynamics 365 Copilot 在CRM/ERP 的应用.......23
图表44: 2023 年海外AI+办公产品梳理..... 24
图表45: Duolingo Max 产品介绍..... 24
图表46: Khan Academy 引导学生解决问题.......24
图表47: Stable Diffusion 应用AI 对模特换装....... 25
图表48: 2023 年海外公司利用AIGC 赋能运营案例.... 25
图表49: 医疗健康大模型的类别和实例...... 26
图表50: Med-PaLM-M 所用基准数据集的模态和任务....26
图表51: 国内外部分AI 医疗大模型梳理....27
每年为数千个企事业和个人提供专业化服务;量身定制你需要的信息管理的资料和报告
相信我们!企业客户遍及全球,提供政府部门、生产制造企业、物流企业、快消品行业专业化咨询服务;个人客户可以提供各类经济管理资料、商业计划、PPT、MBA/EMBA论文指导等。
点此填写您的需求可以QQ联系我们:896161733;也可以电话:18121118831