多模态AI工艺「涌现」，AI公司的「新机会」-观察观测站- 关注健康，享受独特内容

当前所在位置:首页 >> 乐集

多模态AI技术「涌现」，AI公司的「新机会」

发布时间：2025-07-11 18:09:45 作者：d 点击：1 【字体：大中小】

ChatGPT-4的多模横空出世，让AI行业再一次柳暗花明。艺涌

某AI企业人士如此评价GPT-4的现A新机进步：“GPT-3或3.5像一个六年级学生，而GPT-4像一个聪明的多模十年级学生。”

即将毕业的艺涌小学生与新晋高中生的思维差距，既体现在涉猎知识的现A新机广度上，也体现在独立思考的多模深度上。

GPT-4为代表的艺涌AI智力上的提升，直观表现为，现A新机从实现单调的多模文本交互，转变为可以接受图像、艺涌文本作为输入，现A新机并表现出更人性化的多模交互能力。

这种处理多种类型信息的艺涌能力，被称为“多模态”工艺。现A新机

接下来，掌握了多模态AI工艺秘钥的公司，将可以进一步拓展下游新兴领域，改变传统AI定制化的特点，向通用化方向增长。

整个产业也将在更加多样化的场景应用，以及产业链条的进一步集成融合中，迎来规模化的升级。

从简单的人脸识别、文字语音识别，上升到理解人的行为意图，像人一样懂得察言观色，以人类复杂性作为参考的机器智能与人类的差距之一，就是多模态信息的智能化理解。

如果说，机器智能的终极目的是让AI基于对环境的感知采取合理行动，从而帮助人类获得最大收益；那么，在更多复杂场景对 AI 工艺的应用效果提出更高要求的当下，多模态俨然成为 AI 产业突围的重点方向。

AI的未来范式：多模态

多模态并非新概念，早在2018年，“多模态”作为AI未来的一个增长方向，已开始成为业界研究的重点。

什么叫“多模态”？

“模态”一词最早是一个生物学概念，以人类为例，触觉，听觉，视觉，嗅觉、味觉，都是一种模态。从机器智能和计算机视觉的角度来说，模态就是感官信息。

简单理解，多模态AI=多种信息类型+多种智能处理运算规则。

以往单模态、单任务的机器智能工艺，局限于 AI 模型与信息之间的交互，通过让AI学习互联网上的海量文本、图片等不同模态的信息，寻找其内在规律，但在算力、信息资源的限制下，仅依赖互联网上信息学习很大可能会达到瓶颈。

多模态AI工艺，为AI能力的提升，提供了一个解法，即让机器智能自主学习并不断迭代新的知识。

之所以能做到这一点，是因为多模态AI工艺，是一种交互式的 AI 工艺，突破了以往单一的模型与信息的交互，可以实现模型与模型、模型与人类、模型与环境等多种交互。

举例来说，现在很火的AIGC，可以通过文本生成图像甚至影片，就是多模态AI的一个典型应用。

但多模态AI的想象力，远不止于此。

从工艺的创新上来看，模态不仅包括最常见的图像、文本、影片、音频信息，还包括无线电信息、光电传感器、压触传感器等更多可能性。

不同模态都有各自擅长的事情，这些信息之间的有效融合，不仅可以实现比单个模态更好的效果，还可以做到单个模态无法完成的事情。

多模态AI的设计和应用体现一个词：以人为中心。

当AI同时处理多个模态的信息时，其感知方式会更贴近人类，从而让机器更加全面、准确地理解人类的真实指令和意图，比如能够理解人类交流中细微差别的系统，具有高度关怀感和真实感的虚拟助手等，实现的是一种高度自然的人机交互和协同。

虽然AI在多模态方面取得了突破，但这种工艺及其应用还不成熟，由多模态AI带来的产业规模升级，还面临重重阻碍。

多模态AI的两大挑战：工艺、产业链

多模态AI探索的是人类行动和感知背后的关系，其蕴含的想象力与应用潜能毋庸置疑。

但围绕搜索和生成两项基本任务，多模态AI的训练还存在诸多难点，如多模态信息的收集、新的模型和架构的搭建、高效的信息融合等问题。

首先，多模态的信息收集、对齐和标注，复杂且不易完成。

一方面，优质的多模态信息规模还不够大；另一方面，在具体的业务场景中，很难同时满足所有的模态信息的收集。

共达地对雷峰网(公众号：雷峰网)表示：“视觉（图像/影片）和文本的信息可以根据语义描述来对齐，但需要经过精心的标注。同样，其它模态的对齐也面临类似的问题，需要考虑如何对齐。”

其次，不同模态具有不同的信息特性，多模态AI的训练，需要根据不同模态的特性，开发新的模型和架构。

构建统一、跨场景、多任务的多模态基础预训练模型，包含两个问题：

如何在统一的预训练模型中，处理视觉 (图片、影片、3D 图像) 三种模态的输入, 并将其映射到统一的特征空间的问题。

如何采用统一的模型和训练框架，分别训练文本、图像、语音的预训练模型的问题。

此外，开发能够大幅降低AI模型训练门槛，简化部署流程，让不具备AI专业知识的人员也能生产运算规则的平台也十分关键。

再者，让不同模态的信息有效融合以指导决策，也并非易事。

大模型中有非常多隐性的知识，对这些知识的优化、迭代是一大挑战。

多模态AI需要处理的信息和参数十分海量，如何利用并行计算和分布式计算等工艺来提高计算效率，也是多模态机器智能工艺需要解决的难点之一。

此外，中科摇橹船认为，“如何在多模态AI的下游任务中进行自监督学习也是一大难点。”

也就是说，如何通过构建自监督的任务，提高多模态模型的表征能力，缓解缺少大规模监督信息的挑战。

多模态AI最终是为了实现高质量的内容生成，背后需要参数规模巨大的模型以及海量信息集作为支撑。AIoT场景下，AI应用对于端云互动有着更强的需求。

这意味着，在硬件和芯片上，也提出了更高的要求。

硬件方面，由于要汇聚多种信息分析，行业对前端硬件种类和数量的需求会更大，如视觉、声音等不同模态的信息，都需要不同的设备去采集。

芯片方面，相比于单模态，多模态需要的是庞大的“机器智能算力网络”，单纯的语音芯片、视觉芯片等已很难满足多模态AI运算规则的需求。

云天励飞对雷峰网表示，从支持大规模并行计算的角度出发，芯片要能够同时处理多个任务和信息流，计算效率和本地存储能力需要进一步提升；从支持多模态AI长时间运行的角度出发，芯片还要能够维持较低的功耗，如通过提高单芯片计算能力，降低系统的复杂度和总成本。

目前，transformer是处理多模态比较常用的工艺，共达地李思晋也认为，“当前的芯片，transformer的计算并不高效，如果没有专用的硬件，或者为transformer定制开发，其计算效率比其它模型结构可能慢一个数量级。”

AI公司如何寻找商业化的落脚点？

经过模型参数与信息规模的比拼阶段后，搭载在摄像头、边缘计算盒子、机器人等智能设备中的多模态AI正走向场景应用。

目前已知的是，多模态AI首先在计算机视觉和自然语言处理等领域获得验证。

OpenAI 的 DALL-E模型，可以从文本描述中生成对应图像；谷歌的多任务统一模型MUM，可以做到从 75 种不同语言中挖掘上下文信息来提高搜索体验；英伟达的GauGAN2 模型，可以根据简单的文本输入生成照片般逼真的图像。

多模态大模型时代，AI应用也正走向产业纵深处。

工业场景中，运用多模态的智能化运营系统，正在走进工厂和车间。

以中科摇橹船的AGV调度运营系统为例，通过将雷达图像处理、视觉图像处理等图像处理工艺集成在同一产物中，可以轻松完成车辆、交通、调度、运行、叫料、通信、统计等运营工作。相比于人力，这种智能化的运营，更能满足当下制造业客户的柔性定制需求。

在城市治理场景中，多模态AI工艺可以运用在巡检机器人上。当前的巡检机器人可以通过“眼睛”识别占道经营、垃圾桶满溢等问题，并对相关情况进行提醒，但大多没有“耳朵”。

相关研究表明，人类获取的信息中的25%，都是通过听觉实现的。对于巡检机器人来说，没有耳朵，意味着难以监测到环境中的异常响动。

云天励飞表示，未来将研发下一代高效多模信息感知引擎，在原有的影片结构化工艺基础上结合三维场景信息、音频信息等其他模态信息，提升传感器信息流中语义和非语义信息的结构化密度，从而为相关产物及支持在更多应用场景的落地提供运算规则工艺支持。

但客观来看，在视觉和听觉之外，能够商业化落地的多模态工艺还很少，大多处于研究阶段。

多模态AI之路不好走，高度智能的人机交互道阻且长，主要表现为：

一、 AI 的理解和执行还不够可控、可信赖、可复制。

比如，多样化风险和AI偏见风险，当信息不具有广泛代表性时，运算规则就会出现偏差，偏差的不断被放大，（后果）

二、运算规则开发成本较高，产物不具性价比，市场和客户不愿意买单。

多模态AI的应用落地，需要大量专业的研究人员，包括运算规则架构师或AI开发者，也包括产业专家。而这两类专家关注点的相对独立，又往往进一步增加研发和落地过程中的成本。

此外，多模态AI的应用需要不同类型的信息、知识、产物等，其落地需要产业链整体加强协作和沟通，从核心的AI芯片，到物联网硬件，再到软件运算规则开发，时间周期长，需要协调各方利益。

三、业务场景较少，且业务场景的定义还不够清晰。

多模态AI产物和方案，需要根据实际需求针对性开发，什么场景需要使用哪几个模态，以及从成本和收益上来看，是否有商业价值，都需要进行前置考虑。

AI能力想要进入实体产业，尤其是工业属性相对较强的产业，需要从方方面面的复杂细节中进入，而答案都掌握在Know-How手中。

“与行业领域具备know-how的公司进行合作，降低场景验证的成本，是AI公司的机会点。”李思晋表示。

多模态工艺是个硬骨头，更加类人的智能需要AI公司投入大量的研发；其背后需要的大模型和海量信息，同时对产业链上的硬件和芯片厂商提出了更高的要求；业务场景的探索尚处迷雾之中；市场的接受度也还不尽人意。

但从好的一面看，无论是最近大火的AIGC，还是在国内默默壮大的多模态机器智能产业联合体，都说明AI将不断朝着多模态方向增长，以更为广泛的感知能力，进一步向产业落地。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

阅读全文

猜你喜欢

黑客大会遇上元宇宙：极客精神的又一次狂欢

2025-07-12 17:45

2081

金鹰卡通《三孩来了 3》：唐九洲谈原生家庭，井胧助力萌娃传递爱意

2025-07-12 17:36

2192

第三届浪潮创作人论坛在京举行，共同探讨AI共创时代的创新音乐叙事

2025-07-12 17:22

931

老铺黄金新加坡首店开业中国高端黄金品牌出海

成都警情通报：华阳“人贩子”实为误认亲

《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众

2025-07-12 16:23

1453

被镜与花映照的茶花女：是情的升华，更是勇的光辉

2025-07-12 16:21

524

阿比亚斯献唱“歌游内蒙古” 北疆文化活动季主题演出

突发！俄罗斯发动大规模攻击

张哲通《小娘惹之翡翠山》完美收官深情守护终获圆满

2025-07-12 16:10

595

2025北京仲夏艺术季“多彩世界・创意中国”主题展启幕多元艺术对话诠释文化多样性全球共识

2025-07-12 15:49

119

腾讯在线视频马延琨：跳出“长短”，以“横竖屏”重构剧集生态

2025-07-12 15:15

276

多模态AI技术「涌现」，AI公司的「新机会」

AI的未来范式：多模态

多模态AI的两大挑战：工艺、产业链

AI公司如何寻找商业化的落脚点？

猜你喜欢

上海交大新跑出一家具身智能公司「穹彻智能」

AI修复又一里程碑！ 爱奇艺与上影技术厂联合共建“影绮AI实验室”

《演员请就位3》终极盛典上演三大剧目，刘家祎获本季唯一S卡

《超人》曝“开战时刻”预告 7月11日登陆全国影院

北京：优化小客车指标配置，更好支持家庭用车需求

被镜与花映照的茶花女： 是情的升华，更是勇的光辉

白玉兰电视论坛透露行业新迹象 微短剧从流量狂欢转向价值引领

爱奇艺自制微剧《成何体统》6月28日上线，暑期档多部S级微剧蓄势待发

吉祥航空通报一航班发动机启动阶段出现机械故障

电影《热血江湖》在浙江丽水开机了由赵天齐领衔主演，还有多名熟脸演员加盟

乌兰图雅演唱亚非妇促会会歌《爱在亚非》发布

爱奇艺《喜剧之王单口季2》回归在即，多品牌锁定稀缺广告席位，共赢IP长期复利！

AI修复又一里程碑！爱奇艺与上影技术厂联合共建“影绮AI实验室”

被镜与花映照的茶花女：是情的升华，更是勇的光辉

白玉兰电视论坛透露行业新迹象微短剧从流量狂欢转向价值引领