美国新闻网-美国华文媒体融合平台-旅美华人的精神家园 - 中国团队成功构建全球首个图文音三模态预训练模型

中国团队成功构建全球首个图文音三模态预训练模型

2021-07-08 16:20 中国新闻网　-　浏览量：4329

　　中新网北京7月8日电 (记者孙自法)记者8日从中国科学院自动化研究所(中科院自动化所)获悉，该所科研团队成功构建全球首个图文音(视觉-文本-语音)三模态预训练模型，将解锁更多智能之美，让人工智能(AI)更接近人类想象力。

　　目前，已有的多模态预训练模型通常仅考虑“图像和文本”或者“视频和文本”两个模态，忽视了周围环境中普遍存在的语音信息，并且模型极少兼具理解与生成能力，难以在生成任务与理解类任务中同时取得良好表现。

　　针对这些问题，中科院自动化所科研团研究队提出图文音三模态预训练模型，将文本、语音、图像、视频等多模态内容联合起来进行学习。该模型由单模态编码器、跨模态编码器和跨模态解码器构成，采用分别基于词条级别、模态级别以及样本级别的多层次、多任务三级预训练自监督学习方式，更关注图文音三模态数据之间的关联特性以及跨模态转换问题，对更广泛、更多样的下游任务提供模型基础支撑。

　　科研团队指出，图文音三模态预训练模型不仅可实现图像识别、语音识别等跨模态理解任务，也能完成从文本生成图像、从图像生成文本、语音生成图像等跨模态生成任务。同时，引入语音模态后的多模态预训练模型，可突破性直接实现三模态的统一表示，特别是首次实现“以图生音”和“以音生图”。

　　此外，该模型灵活的自监督学习框架可同时支持三种或任两种模态弱关联数据进行预训练，能有效降低多模态数据收集与清洗成本，从而取得预训练模型突破性进展。

　　中科院自动化所表示，图文音三模态预训练模型的提出和构建，将改变当前单一模型对应单一任务的人工智研发范式，大幅提升文本、语音、图像和视频等领域的基础任务性能，并在多模态内容的理解、搜索、推荐和问答；语音识别和合成；人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值。

　　未来，“大数据+大模型+多模态”的多任务统一学习，将引领人工智能技术发展的潮流。

声明：文章大多转自网络，旨在更广泛的传播。本文仅代表作者个人观点，与美国新闻网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如有稿件内容、版权等问题请联系删除。联系邮箱：uscntv@outlook.com。

上一篇：2021年黄河调水调沙结束累计排沙6374万吨
下一篇：外交部驻港公署：敦促欧洲议会停止哗众取宠的政治表演

中国团队成功构建全球首个图文音三模态预训练模型

热点新闻

重要通知

服务之窗