中新网北京7月8日电 (记者 孙自法)记者8日从中国科学院自动化研究所(中科院自动化所)获悉,该所科研团队成功构建全球首个图文音(视觉-文本-语音)三模态预训练模型,将解锁更多智能之美,让人工智能(AI)更接近人类想象力。
目前,已有的多模态预训练模型通常仅考虑“图像和文本”或者“视频和文本”两个模态,忽视了周围环境中普遍存在的语音信息,并且模型极少兼具理解与生成能力,难以在生成任务与理解类任务中同时取得良好表现。
针对这些问题,中科院自动化所科研团研究队提出图文音三模态预训练模型,将文本、语音、图像、视频等多模态内容联合起来进行学习。该模型由单模态编码器、跨模态编码器和跨模态解码器构成,采用分别基于词条级别、模态级别以及样本级别的多层次、多任务三级预训练自监督学习方式,更关注图文音三模态数据之间的关联特性以及跨模态转换问题,对更广泛、更多样的下游任务提供模型基础支撑。
科研团队指出,图文音三模态预训练模型不仅可实现图像识别、语音识别等跨模态理解任务,也能完成从文本生成图像、从图像生成文本、语音生成图像等跨模态生成任务。同时,引入语音模态后的多模态预训练模型,可突破性直接实现三模态的统一表示,特别是首次实现“以图生音”和“以音生图”。
此外,该模型灵活的自监督学习框架可同时支持三种或任两种模态弱关联数据进行预训练,能有效降低多模态数据收集与清洗成本,从而取得预训练模型突破性进展。
中科院自动化所表示,图文音三模态预训练模型的提出和构建,将改变当前单一模型对应单一任务的人工智研发范式,大幅提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答;语音识别和合成;人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值。
未来,“大数据+大模型+多模态”的多任务统一学习,将引领人工智能技术发展的潮流。