excel学习库-GPT-4V：多模态对算力影响探讨

（报告出品方：国盛证券）

多模态能力跃迁，GPT-4V 开启图像时代

9 月 25 日起，ChatGPT 正式具备图像与语音能力。

1）9 月 25 日，OpenAI 官方宣布，其开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面，允许用户进行语音对话或向 ChatGPT 显示正在谈论的内容。

2）简单的使用例子包括，在旅行时拍摄地标的照片，并实时讨论其中的有趣之处；当回到家时，拍下冰箱和食品储藏室的照片，以了解晚餐吃什么（并询问后续问题以获取逐步食谱）；晚餐后，通过拍照、圈出问题集，并让它与用户分享提示来帮助孩子解决数学问题。

3）9 月 25 日起接下来两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像。其中，语音将在 iOS 和 Android 上提供（在设置中选择加入），并且图像将在所有平台上提供。

核心视觉模型 GPT-4V 细节一并放出，其已于 2022 年 3 月训练完成、2023 年 3 月开始早期访问。

1）9 月 25 日晚，OpenAI 发布《GPT-4V(ision) system card》，探索并展示此次大模型在视觉上的能力及边界。

2）类似于 GPT-4，GPT-4V 的训练在 2022 年完成， OpenAI 从 2023 年 3 月开始提供早期访问。由于 GPT-4 是 GPT-4V 视觉能力的技术基础，其训练过程基本相同：首先，预训练模型使用来自互联网和许可数据源的大量文本和图像数据来预测文档中的下一个单词；然后，使用 RLHF 算法对额外数据进行微调，以产生人类训练者更喜欢的输出。

支持图像输入并分析为 GPT-4V 的主要革新，其在视觉理解、描述、推理等诸多方面表现出了类似人类水平的能力，前景广阔。

9 月 29 日，微软团队发布《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》，详细测评 GPT-4V 在多类任务上的表现，并传授整套多模态大模型提示词使用技巧。

1、输入方式：图像、子图像、文本、场景文本、视觉指针等。

仅文本输入：GPT-4V 强大的语言能力使其能够作为有效的单模式语言模型使用，在输入和输出中仅使用文本，GPT-4V 能够执行各种语言和编码任务。

图像-文本对：1）单个图像-文本对：接受图像和文本作为输入以生成文本输出，其中图像-文本对中的文本可以用作类似于“描述图像”的指令，或者用作视觉问题回答中问题的查询输入。2）交错图像-文本对：交错的图像-文本输入可以是视觉为中心的，例如带有简短问题或指令的多个图像；或者是文本为中心的，例如带有两个插入图像的长网页；或者是图像和文本的平衡混合。

视觉指向与视觉参考提示：“指向”可以表示为数值空间坐标，如框坐标和图像裁剪、或者覆盖在图像像素上的视觉标记，如箭头、框、圆和手绘图；视觉参考提示编辑图像像素，而不是常规的文本提示，以执行感兴趣的任务。

以上图像、子图像、文本、场景文本和视觉指针等输入方式可任意混合，GPT-4V 均表现出来较好的通用性。

2、能力：视觉语言能力、视觉参考提示、时间序列和视频理解等。

视觉语言能力：理解和解释视觉世界，即阐释图片信息。1）名人识别、地标识别、食物识别、医学图像理解、图标识别、场景理解等；2）对象定位、计数和密集标注； 3）多模态知识和常识推理：笑话和梗图、科学与知识、多模态常识；4）场景文本识别、视觉数学推理、图表理解与推理、表格理解与推理、文档理解；5）多种语言理解与推理；6）视觉编码能力，如根据手写数学方程生成 LaTeX 代码的能力。

视觉参考提示：指向特定的空间位置是与多模态系统进行人机交互的基本能力，核心思想是直接编辑图像像素空间以绘制视觉指针或场景文本作为人类的指示指令，包括理解指向输入、视觉指示提示、生成指向输出等。GPT-4V 能够解构问题，生成不同的视觉标记以在每个子步骤中迭代地聚焦于不同的图像区域，最终整合信息以制定最终答案。

时间序列和视频理解：尽管 GPT-4V 主要关注图像，但它能够以类似于人类的方式理解视频和时间序列，输入方式可以为多个选定的视频帧。1）多图像序列：GPT-4V 理解了各种姿势的序列和上下文，并且聪明地将它们与正在进行的活动关联起来； 2）视频理解：时间排序、后续动作预测、时间定位和推理；3）用于基于时间理解的视觉引用提示。

另外，GPT-4V 在抽象视觉推理与智力测试、情商测试等实验中均展现了良好的表现，其在理解视觉世界上的卓越能力，可应用于缺陷检测、安全检查、杂货结账、医疗影像、汽车保险相关评估、定制化图像生成、智能机器、GUI 导航等多个场景。

2.CLIP 打开图文对齐大门，或为实现多模态的核心基础

目前，视觉+语言的多模态大模型相对主流的方法为，借助预训练好的大语言模型和图像编码器，用一个图文特征对齐模块来连接，从而让语言模型理解图像特征并进行更深层的问答推理。

根据 OpenAI 及微软目前官方发布的 GPT-4V 相关新闻与论文，我们并不能详细了解其实现多模态，尤其是视觉模型的具体方法，但我们或许可以从 OpenAI 发布的 CLIP 以及其迭代后的 BLIP、BLIP2 等模型上，初步了解多模态大模型的实现方式。

CLIP 模型实现了图像与文本的特征对齐，基础架构已于 2021 年发布。

1）在 CLIP 提出之前，计算机视觉系统被训练成分类系统，这严重影响了其在未见类别上的泛化性和可用性，因为其需要用额外的有标注数据。因此直接从原始文本中学习是一个更有前景的可替代方法，其能带来大量广泛的有监督数据。

2）CLIP 由 OpenAI 于 2021 年 1 月发布，其通过超大规模模型预训练提取视觉特征，进行图片和文本之间的对比学习，即将一张图片与能较好表达这张图片内容的一段文字联系起来。该模型训练完毕后不微调直接进行推理，即可达到良好的效果。

CLIP 的输入是配对好的图片-文本对，输出为对应特征，然后在特征上进行对比学习，即可以实现 zero-shot 的图像分类。

1）CLIP 的输入是一对对配对好的的图片-文本对（例如输入是一张狗的图片，对应文本也表示这是一只狗），这些文本和图片分别通过 Text Encoder 和 Image Encoder 输出对应的特征。然后在这些输出的文字特征和图片特征上进行对比学习。结合 CSDN 解释：假如模型输入的是 n 对图片-文本对，那么这 n 对与相配对的图像-文本对是正样本（即对角线部分），其它 n 2 -n 对样本都是负样本，这样模型的训练过程就是最大化 n 个正样本的相似度，同时最小化 n 2 -n 个负样本的相似度。其中，Text Encoder 可以采用 NLP 中常用的 text transformer 模型；Image Encoder 可以采用常用 CNN 模型或者 vision transformer 等模型；相似度是计算文本特征和图像特征的余弦相似性 cosine similarity。

2）之后，根据任务的分类标签构建每个类别的描述文本：A photo of {label}，然后将这些文本送入 Text Encoder 得到对应的文本特征，如果类别数目为 n，那么将得到 n 个文本特征。

3）将要预测的图像送入 lmage Encoder 得到图像特征，然后与 n 个文本特征计算缩放的余弦相似度（和训练过程保持一致），然后选择相似度最大的文本对应的类别作为图像分类预测结果。进一步地，可以将这些相似度看成 logits，送入 softmax 后可以到每个类别的预测概率。自此，CLIP 即可以实现 zero-shot 的图像分类，即不需要任何训练和微调。

CLIP 最大的创新在于使用超大规模的数据集直接训练，简单而有效。

1）CLIP 其实并未提出超越以往的创新性架构，而是使用简单的 ConVIRT 模型在大规模“图像-文本”数据上训练，就是一个高效且规模化的方法。

2）在 CLIP 发布之前，视觉数据集主要有 3 个，MS-COCO、VisualGenome、YFCC100M。其中，前两者是人工标注的，质量高但是数据量小，大约只有 0.1M；YFCC100M 大约有 100M 图片，但是质量堪忧，有些标题只有无意义的名字，过滤后，这个数据集缩小至 15M，大约和 ImageNet 差不多大。

3）考虑到现有数据集太小，OpenAI 构建了一个 4 亿容量的数据集，使用 50 万个查询进行搜索，每个查询大约有 2 万个“图像-文本“对。该数据集被称为 WIT（web image text），数据量和 GPT-2 使用的类似。

2021 年彼时，最优的模型大约需要 256 张 V100、训练 12 天，效果即可显著优于传统视觉系统。

1）基于 5 种 ResNet 和 3 种 Vision Transformer 架构，OpenAI 训练了一系列模型。最大的 ResNet 模型 RN50x64 在 592 个 V100GPU 上训练了 18 天，而最大的 Vision Transformer 在 256 个 V100 GPU 上训练了 12 天。彼时，最优的模型为 ViTL/14@336px，即 ViT 表现优于 ResNet，且大的 ViT 优于小的 ViT。

3）将 CLIP 与先前的零样本迁移图像分类工作进行比较。CLIP 在所有三个数据集上的性能都有很大提高。

我们认为，通过将图像和文本的特征对齐，CLIP 在视觉和文本之间架起一座桥梁，将其整合到同一个潜在空间（一种矢量化的数据关系网）中，这种技术或可以让 ChatGPT 跨文本和图像进行上下文推理，CLIP 以及后续迭代的 BLIP、BLIP2 等为实现大模型视觉功能的核心基础。

3.多模态应用空间广阔，算力需求或呈量级式提升

训练阶段：多模态需求或呈量级提升，或对应数万张 A/H 卡。

1）根据 GPU Utils 报道， Inflection 表示，针对他们与 GPT3.5 相当的大语言模型，其使用了大约 3500 张 H100 进行训练。同时，对于初创公司而言，其需要数千张 H100 对大语言模型进行训练，需要几十张或者小几百张 H100 做微调。

2）根据 GPU Utils 报道，GPT4 有可能是在 10000- 25000 张 A100 上训练的。而对于 GPT5，其可能需要 25000-50000 张 H100 进行训练。相比 GPT3.5 约数千张 H100 的需求量，GPT4、GPT5 等相对成熟的多模态模型算力需求提升约数倍至十倍级别。

推理阶段：数据量角度而言，图片、视频、语音均相对于文字交互有数个量级的提升，或对应算力需求的高速扩张。

3.1 文字：从搜索到邮件，Outlook/Gmail、Word 有望渐次开放

邮件服务已落地，Outlook、Gmail 等主流邮箱已适配。

1）Outlook：Viva Sales 在微软云中利用 OpenAI 和 GPT 自动生成格式化的电子邮件回复。在回复电子邮件时，Viva Sales 根据“提出建议”、“答复询问”、“表达关切“或“自定义”等类别提供对应文本，用户只需选择适合他们需求的选项，在生成文本后根据自己的喜好进行编辑和发送。

2） Gmail：目前 ChatGPT 已经与 Gmail 邮箱进行适配，可以通过 ChatGPT AI 生成完整的电子邮件和消息，在 Google 浏览器提供免费 Chrome。

全球每天电子邮件发送量超三千亿封，Outlook 市占率约 8%。

1）根据 FinancesOnline 数据，2022 年全球企业和个人用户每天发送约 3332 亿封电子邮件，垃圾邮件占电子邮件流量的 47.3%。

2）根据 Litmus Email Analytics 数据，从 2021 年 1 月到 2021 年 3 月电子邮件客户端 Gmail 与 Outlook 的市场占有率为 27.2%、7.8%。则，可以推出每天企业和个人使用 Gmail 与 Outlook 客户端发送非垃圾邮件约 3332*（1-47.3%）*7.8%=137 亿封。

据估算，整体而言，Outlook 每日邮件数据量约为 25.52TB。

邮件字符数：根据 Aweber 统计，每封邮件平均长度为 434.48 个单词；根据 English Letter Frequency Counts:Mayzner Revisited or ETAOIN SRHLDCU 论文统计，谷歌扫描的书籍数据库中平均每个单词 4.79 个字母。

邮件数据量：每个英文字母大约一个字节（Byte），可推出一封邮件平均约为 434.48*4.79/1024=2KB。则考虑 Outlook 每日约 137 亿封邮件的发送量，总数据量约为 25.52TB。

其他影响因素：1）仅考虑纯文本，未考虑文字排版与储存格式对数据量的影响，根据 PC 网，Microsoft Word 100 页文档纯文本格式占用了 376KB，而 Word 格式保存同一份文档大小提升至 872KB；2）邮件平均长度数据为英文单词数，未考虑中文等其他字符。

接入 Outlook 邮件场景后，Chatgpt 每日生成数据量或为 261GB，相比目前官网问答式场景、或有约 8 倍的提升。

1）考虑存在推广营销邮件、工作日程邮件等群发场景，我们以 1%的比例，保守假设 Chatgpt 在邮件写作中的使用比例，则接入 Outlook 后，估算模型需要处理及生成的数据量约为 261GB。

2）对照而言，参考前文，Chatgpt 截至 2 月初，每日官网咨询量约为 2.5 亿，平均每个问题 30 词，同样假设平均每个单词中包含约 4.79 个字母，则其数据量约为 2.5*10^9*30*4.79B=33.46GB。

Word 等 Office 套件场景有望渐次接入，远期空间广阔。

9 月 21 日，微软宣布 Microsoft 365 Copilot 将于 11 月 1 日面向企业客户全面推出，Outlook、Word、Excel、Loop、 OneNote 和 OneDrive 中为 Copilot 引入新功能。

3.2 语音：Teams 已于 OpenAI 结合，大幅提升线上会议效率

Teams 与 OpenAI 结合，可实现生成纪要、划分章节、时间标记、实时翻译等多类功能。

根据公司官网，Teams 与 OpenAI 进行合作，从 6 月 30 日起，用户每月支付 10 美元，就可以使用 OpenAI 的 GPT-3.5 模型，体验自动生成会议纪要、实时字幕与语言翻译、自动生成会议章节、个性化时间轴标记、隐私保护等功能。

自动生成会议纪要：由 GPT-3.5 自动创建生成的会议纪要，功能将于 2023 年第二季度推出。
实时字幕与语言翻译：可以获得 40 种语言的实时翻译，同时可以自行选择字幕语言，实时标注在视频下方。
自动生成会议章节：AI 自动将会议划分为多个部分，自动生成会议章节，用户可以轻松挑选最感兴趣的章节浏览。
个性化时间轴标记：标注个性化时间轴标记，可以查看加入和离开会议的时间节点、名字被提及的时间节点，显示会议期间发言人，可以快速单击并收听错过的内容。
隐私保护：对于不可泄密的会议，提供加水印限制会议记录浏览等功能，同时可以选择端到端加密（E2EE）。

大模型输入模式由文字扩散至语音，Teams 新增数据量需求约为 336GB/日。

音频每秒数据量：根据张振花、田宏团、王西等所著书籍《多媒体技术与应用》，数字音频的存储量单位为“字节”，与采样频率、量化位数、声道数和时间有关，而量化位数/8 是将位数转换成字节数。根据《多媒体技术与应用》，电话质量的音频信号采用 ITU－TG·711 标准，8 kHz 采样，8 bit 量化，则码率为 64 kbit/s；假设音频为双声道，则存储量为 16bit/秒。由于 1B 等于 8bit，所以存储量可以换算成 2B/s。

音频时长：根据 Microsoft 官网文章，2020 年 4 月 Teams 每日会议总时长为 27 亿分钟，2020 年 9 月日活跃用户 1.15 亿；根据微软 22 年第二季度财报电话会，Teams 日活跃用户数超过 2.7 亿，未披露会议总时长。假设 2020-2022 年会议总时长与日活跃用户等比例增长，则 2022 年 Teams 每日会议总时长约 60 亿分钟。

音频数据量：Teams 每日 3600 亿秒，若参照电话质量估计，数据量约 671GB。假设约 50%的用户会参考 Chatgpt 整理会议纪要，则数据量约为 336GB。

其他影响因素：1）仅考虑电话质量的音频信号标准，音频信号的用途不同，采样、量化和码率的要求也不同，高保真立体声音频压缩标准、AM 广播等采样、量化和码率会更高。根据《多媒体技术与应用》，AM 广播采用 ITU－TG·722 标准，16 kHz 采样，14 bit 量化，码率 224 kbit/s，高保真立体声音频压缩标准由 ISO 和 ITU-T 联合制订，CD11172-3MPEG 音频标准为 48 kHz、44.1 kHz、32 kHz 采样，每声道数码率 32-448 kbit/s；2）使用 Chatgpt 辅助线上会议的用户比例可能有所变动。

3.3 图片：Filmora 接入 OpenAI 服务，实现“文生图”及“图生图”

Filmora 接入 OpenAI，一键智能生成图片素材。

万兴科技旗下视频创意软件 Wondershare Filmora 全球上线，接入 ChatGPT 母公司 OpenAI 相关服务。Wondershare Filmora 为视频制作平台，随着 OpenAI 的接入，用户在创作视频时可自由调用 OpenAI 强大的 AI 绘图功能，一键即可智能生成图片素材，快速创作大师“同款”作品。 Wondershare Filmora 情人节开发 AI 简笔画产品，用户用简笔画描绘出大致的形状，5 秒钟可以生成一副人机共创的完善绘画作品，从“文生图”到“图生图”，未来用户有望体验更多 AIGC 新功能。

以 Filmora 现有场景为基础，OpenAI 图片素材输出数据量约为 586GB/日。

单张图片数据量：根据 Photoshop 官网，每张图片数据量（Byte）=水平像素*垂直像素*3。其中，水平像素*垂直像素为分辨率，每个像素点中三原色（红色、绿色和蓝色）均占用内存中的 1 个字节，即 1 个字节用于红色，1 个字节用于绿色，1 个字节用于蓝色，总共 3 个字节。根据 Wondershare Filmora 官网，Filmora 默认尺寸 16:9，默认分辨率 1920px*1080px，则每张照片数据量约为 1920*1080*3B=6MB。

图片数量：根据万兴科技官方微信公众号报道，截至 2018 年底，视频剪辑软件 Filmora 月活跃用户已超过 300 万；假设单次视频剪辑约调用 1 次 OpenAI 接口自动生成图片素材，则月均调用 300 万次、日均调用 10 万次。

总数据量：6*10*10^4MB=586GB/天。

亿图脑图已结合 AIGC 功能，继续推动创作模式革新。

1）根据财报网报道，2 月 17 日，创意软件公司万兴科技旗下亿图脑图协同版正式开启 AIGC 功能内测，用户只需要输入一句话，即可一键生成头脑风暴、演讲大纲、SWOT 分析、活动策划、生活计划等脑图。这意味着，AI 加持下，亿图脑图将大大简化思维脑图的创作流程并革新创作模式，助力用户创作提质增效。区别于“从思维到脑图”的传统创作模式，借助 AIGC 新技术，亿图脑图将大幅省去用户的思索时间，助力用户更快生成灵感与解题思路，开启更智能畅快的思维脑图协作之旅。据了解，亿图脑图 AIGC 功能，即将面向用户开放内测申请，获得名额的用户届时可“尝鲜”体验。

我们认为，图片应用场景丰富，包括营销宣传、读物插画、艺术创作、医疗影响、安全检测等多领域，未来空间有望进一步打开。

3.4 视频：AIGC 辅助生成动画，星辰大海拉开序幕

AIGC 辅助商业动画片，视频领域前景广阔。

《犬与少年》是 AIGC 技术辅助商业动画片的发行级别作品，由 Netflix、小冰公司日本分部（rinna）、WIT STUDIO 共同创作。根据新华网报道，小冰公司前身为微软人工智能小冰团队，2020 年分拆为独立技术研发实体。 2022 年 11 月 7 日，小冰公司宣布完成总额 10 亿元规模的新融资，用于加速 AI Being 小冰框架技术研发，还宣布对旗下人工智能数字员工（AI Being Employee）产品线启动年度升级，升级内容包括大模型对话引擎、3D 神经网络渲染、超级自然语音及 AIGC 人工智能内容生成。根据新华网报道，小冰公司目前已经覆盖中国、日本、印度尼西亚等国 6.6 亿在线用户、10 亿台第三方智能设备和 9 亿内容观众。

Runway Gen2 已正式放开，生成一个视频约需 0.2 美元，商业化路径初显。

1）根据机器之心报道，7 月 25 日，Runway 宣布，Gen-1 和 Gen-2 已经彻底开放，任何人都可以注册一个账号免费尝试。生成的视频长度为 4 秒，每秒消耗 5 个积分，利用免费额度可以生成二十几个视频。如果免费积分耗尽，付费标准为 0.01 美元/积分，也就是生成一个视频需要 0.2 美元。

2）仅需输入文字、图像或文字加图像的描述，Gen-2 即可在很短的时间内生成相关视频，其为市场上首个公开可用的文本到视频模型。

单秒输出数据量达到 1MB，星辰大海或拉开序幕。

1）视频大小：根据存储卡制造商 ProGrade Digital 官网，视频文件大小（MB）=比特率（Mbps）/8（位）x 持续时间（秒）。《犬与少年》为 1920x1080 24fps（即 1080p，每秒 24 帧），根据 Youtube Help，1080p、 24fps 的 SDR 视频建议上传 Youtube 的比特率为 8Mbps，据此计算 1 秒视频大小约为 1MB。

2）随着 AIGC 技术在影视剧集、宣传视频等领域逐步渗透，视频创作效率或迎来显著提升，星辰大海拉开序幕。

综上，我们认为，目前应用较为广泛的文字交互仅为 Chatgpt 以及 AIGC 应用场景的冰山一角，语音、图片、视频等多形式的输入输出，或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验，亦将大幅提升支撑人工智能的算力需求，算力或迎来高速扩张时代，服务器、芯片、IDC、光通信等厂商有望核心受益。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：幻影视界

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

GPT-4V：多模态对算力影响探讨2024-08-20 12:57:41

多模态能力跃迁，GPT-4V 开启图像时代

1、输入方式：图像、子图像、文本、场景文本、视觉指针等。

2、能力：视觉语言能力、视觉参考提示、时间序列和视频理解等。

2.CLIP 打开图文对齐大门，或为实现多模态的核心基础

3.多模态应用空间广阔，算力需求或呈量级式提升

« 2024年12月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31