声网新版对话式 AI 引擎亮相 WAIC 解锁声纹识别、数字人与视觉理解-宅配通娱网

7月26日消息，7月26日，声网亮相2025世界人工智能大会（WAIC），正式发布新版对话式 AI 引擎，该版本新增声纹识别、数字人与视觉理解三项功能，实现对话式 AI 音视频交互体验的全新升级。同时，口袋 AI 毛绒宠物—芙崽 Fuzozo、家庭陪伴机器人—赋之 EBO Air 2 Plus 等一系列搭载对话式 AI 引擎的人气AI 硬件也亮相声网展台。

全新对话式 AI 引擎三大功能实现多模态融合交互

1、声纹识别：选择性注意力锁定新增声纹识别功能，该功能赋予 AI 精准识别用户声纹特征的能力，有效区分不同说话者。用户只需在对话初期大声、清晰地说话，即可提升 AI 对声音的锁定效果。声纹识别不仅可以智能屏蔽95%的环境人声、噪声，对 AI对话更准确、高效，同时也适用于多人与 AI 对话的场景，实现更加多元化的对话式 AI 响应与服务。

2、数字人交互：支持商汤等市场主流的数字人方案，通过集成高度拟真、表情动作自然的数字人，用户可与屏幕中的高度拟人化的数字形象进行实时、生动的对话互动，增强交互的临场感与情感连接，且有多个数字人形象供选择，适用于虚拟客服、教育陪伴、娱乐社交等多种场景。

3、视觉理解：新增的视觉理解能力为 AI 加上“眼睛”，一方面支持实时视频，能够解析摄像头捕捉的画面信息，结合语音指令，AI能“看懂”用户手势、环境物体或特定视觉线索，实现“所见即所言”的智能反馈；

另一方面，支持拍照与图片上传识别，AI 会解答图片中的关键信息，可适用于教育场景的拍照识题与作业批改，智能助手场景的识物、翻译、分析等。在对话式 AI 中加入视觉理解，将为人机对话协作开辟更广阔的空间。

对话式 AI 正从基础的互动问答向深度理解、情感共鸣和情境感知演进。声网对话式 AI 引擎集成的声纹识别、数字人和视觉理解等能力，是构建下一代自然、沉浸式人机交互基础设施的重要一步。

从会说话到会共情多元 AI 硬件亮相展台

此次声网展台设置了多个对话式 AI 的体验展区，其中人气最高的当属 AI 硬件展区，多款搭载对话式 AI 功能的 AI 硬件集中亮相，包括：对话式 AI 开发套件以及搭载了开发套件的卡皮巴拉 AI 玩偶与数字人全息仓；具备 AI 陪伴功能的 AI 毛绒宠物—芙崽、家庭陪伴机器人—赋之 EBO Air 2 Plus、将 AI 玩具与角色手办结合的赛博大舞台、具备翻译与识图功能的AI 眼镜等，让现场的观众体验到既会说话，又能共情的各类 AI 硬件。

对话式 AI 开发套件让智能硬件设备实现自然流畅的实时语音对话、智能停顿及打断处理、以及超低延时响应，为开发者提供“对话式 AI 智能硬件开发”一站式解决方案。此次 WAIC 展出的双屏与单屏两类开发套件，可适用于AI 玩具、AI 教育硬件、AI 陪伴设备、智能家居等各类智能硬件场景。

此外，现场还展示了对话式 AI 在 AI 教育、AI 客服等场景的解决方案，包含 AI辅助教学：实现多个学生与 AI 助教进行对话；AI教育硬件：现场展示搭载了对话式 AI 的学习机、儿童故事机；AI 客服：拨打一通电话即可与 AI 坐席自然、流畅的对话，精准解答用户的各类疑问，并支持中英文等多种语言。

未来声网将持续完善对话式 AI 引擎与开发套件，通过多元化的功能、极致的对话体验，加速智能对话在各类终端和场景中的普及与深化，推动更加自然、智能、安全的人机共生时代加速到来。