AI大模型类型和原理

1.课程内容

介绍AI大模型基本知识、AI具身智能玩法中用到的大模型类型和原理简介

2. AI大模型简介

AI 大模型,即大规模预训练模型,是大数据、大算力和强算法深度融合的产物。简单来说,它就像是一个经过海量知识 “喂养”、反复训练的智能体,通过对大量数据的学习,掌握数据中的规律和模式,从而具备强大的通用性和泛化能力。这种能力使得 AI 大模型不再局限于单一任务,而是能够像人类一样,灵活应用所学知识,解决多个领域的复杂问题。其借助互联网文本、图像等多源数据,学习数据规律,具备强大泛化能力,能通过迁移学习或提示工程适配多种任务,还可能涌现出训练前未设定的逻辑推理、常识理解等能力。

3.常见AI大模型类别

3.1 文本生成大模型

3.2 多模态大模型

能够处理多种类型的输入数据,如文本、图像、音频、视频等。通过跨模态学习,理解不同模态数据之间的关系,并将多模态数据整合在一起,以充分利用各模态的信息,构建一个统一的表示空间,使得不同模态的数据能够互相理解和结合,进而执行更复杂和智能的任务。可用于跨模态检索,根据一种模态的数据检索另一种模态的数据;在视觉问答中,模型根据图像内容回答文本问题;还能进行图像描述生成,生成描述图像内容的自然语言文本;以及实现多模态对话,进行涉及多种模态信息的对话,在医疗健康、交通、安防监控等复杂环境中有广泛的应用前景。

3.2.1原理简介

通过跨模态对齐与联合建模,学习不同模态数据的统一表征空间,实现模态间的语义关联与协同处理。

融合方式

3.3 语音识别模型

3.4 语音合成模型

将输入的文本转换为语音信号。一般通过训练模型学习文本到语音的映射关系,模型根据输入的文本生成对应的语音特征,再通过语音合成技术将特征转换为可听的语音。广泛应用于语音助手、有声读物、智能客服等领域,为用户提供语音交互服务,使设备能够以自然流畅的语音与用户进行沟通。

3.4.1 原理简介

将文本语义 转换为自然流畅的语音信号,模拟人类发音的韵律、语调与情感。

深度学习合成:

 

 

4.AI模型对比总结

模型类型输入输出核心技术典型场景
自然语言大模型文本文本Transformer 自注意力写作、对话、翻译
多模态大模型文本 + 图像 / 音频跨模态内容跨模态对齐、联合编码图文生成、视觉问答
语音识别模型语音波形文本声学特征提取 + 序列解码会议记录、语音搜索
语音合成模型文本语音音频文本分析 + 声学建模 + 声码器语音助手、有声内容生产