7月26日消息,7月26日,声网亮相2025世界人工智能大会(WAIC),正式发布新版对话式 AI 引擎,该版本新增声纹识别、数字人与视觉理解三项功能,实现对话式 AI 音视频交互体验的全新升级。同时,口袋 AI 毛绒宠物—芙崽 Fuzozo、家庭陪伴机器人—赋之 EBO Air 2 Plus 等一系列搭载对话式 AI 引擎的人气AI 硬件也亮相声网展台。
全新对话式 AI 引擎 三大功能实现多模态融合交互
1、声纹识别: 选择性注意力锁定新增声纹识别功能,该功能赋予 AI 精准识别用户声纹特征的能力,有效区分不同说话者。用户只需在对话初期大声、清晰地说话,即可提升 AI 对声音的锁定效果。声纹识别不仅可以智能屏蔽95%的环境人声、噪声,对 AI对话更准确、高效,同时也适用于多人与 AI 对话的场景,实现更加多元化的对话式 AI 响应与服务。
2、数字人交互:支持商汤等市场主流的数字人方案,通过集成高度拟真、表情动作自然的数字人,用户可与屏幕中的高度拟人化的数字形象进行实时、生动的对话互动,增强交互的临场感与情感连接,且有多个数字人形象供选择,适用于虚拟客服、教育陪伴、娱乐社交等多种场景。
3、视觉理解:新增的视觉理解能力为 AI 加上“眼睛”,一方面支持实时视频,能够解析摄像头捕捉的画面信息,结合语音指令,AI能“看懂”用户手势、环境物体或特定视觉线索,实现“所见即所言”的智能反馈;
另一方面,支持拍照与图片上传识别,AI 会解答图片中的关键信息,可适用于教育场景的拍照识题与作业批改,智能助手场景的识物、翻译、分析等。在对话式 AI 中加入视觉理解,将为人机对话协作开辟更广阔的空间。
对话式 AI 正从基础的互动问答向深度理解、情感共鸣和情境感知演进。声网对话式 AI 引擎集成的声纹识别、数字人和视觉理解等能力,是构建下一代自然、沉浸式人机交互基础设施的重要一步。
从会说话到会共情 多元 AI 硬件亮相展台
此次声网展台设置了多个对话式 AI 的体验展区,其中人气最高的当属 AI 硬件展区,多款搭载对话式 AI 功能的 AI 硬件集中亮相,包括:对话式 AI 开发套件以及搭载了开发套件的卡皮巴拉 AI 玩偶与数字人全息仓;具备 AI 陪伴功能的 AI 毛绒宠物—芙崽、家庭陪伴机器人—赋之 EBO Air 2 Plus、将 AI 玩具与角色手办结合的赛博大舞台、具备翻译与识图功能的AI 眼镜等,让现场的观众体验到既会说话,又能共情的各类 AI 硬件。
对话式 AI 开发套件让智能硬件设备实现自然流畅的实时语音对话、智能停顿及打断处理、以及超低延时响应,为开发者提供“对话式 AI 智能硬件开发”一站式解决方案。此次 WAIC 展出的双屏与单屏两类开发套件,可适用于AI 玩具、AI 教育硬件、AI 陪伴设备、智能家居等各类智能硬件场景。
此外,现场还展示了对话式 AI 在 AI 教育、AI 客服等场景的解决方案,包含 AI辅助教学:实现多个学生与 AI 助教进行对话;AI教育硬件:现场展示搭载了对话式 AI 的学习机、儿童故事机;AI 客服:拨打一通电话即可与 AI 坐席自然、流畅的对话,精准解答用户的各类疑问,并支持中英文等多种语言。
未来声网将持续完善对话式 AI 引擎与开发套件,通过多元化的功能、极致的对话体验,加速智能对话在各类终端和场景中的普及与深化,推动更加自然、智能、安全的人机共生时代加速到来。