151% 增长背后，揭开 AI 新入口的神秘面纱！

6天前发布aigy

摘要：

2023年10月31日，北京举办的Convo AI & RTE 2025大会聚焦对话式AI与实时互动技术的融合。声网创始人赵斌宣布其年度服务分钟数首次突破1万亿，显示出RTE技术的重要性。调查显示，67%的企业将语音AI视为战略核心，84%计划加大投入。对话式AI正推动技术升级，提升人机交互质量，尤其是理解非语言信息。AI在情感陪伴和教育等领域的应用日益广泛，显示出其在缓解孤独感和提升学习效果方面的潜力。整体来看，AI语音技术正朝着更智能、更人性化的方向发展。

PTAG：1500亿美元的新机遇

在这股AI浪潮的推动下，语音技术正以前所未有的速度蓬勃发展。当我们期待AI能够真正“听懂”人类的言语和情感时，AI产业与技术是否也已经做好准备呢？

2023年10月31日，由声网与RTE开发者社区联合主办的Convo AI & RTE 2025第十一届实时互联网大会在北京隆重召开。本届大会以“AI有声”为主题，汇聚了全球顶尖专家，共同探讨实时互动（RTE）与对话式AI的深度融合之道。

声网的创始人兼CEO赵斌在开场演讲中宣告了一个里程碑：声网的年度服务分钟数首次突破1万亿分钟，这一成就标志着RTE技术已成为数字社会不可或缺的基础设施。根据Deepgram和Opus Research的调查，67%的企业已将语音AI智能体置于战略核心，84%的企业计划在未来一年增加相关投入。声网在对话式AI方面的使用量在2025年第三季度实现了151%的环比增长，显示出市场对这一技术的强烈需求。

对话式AI正在推动RTE完成从“正常对话”到“声情并茂”的关键跃迁。ARK Invest预测，AI陪伴赛道将扩展至700-1500亿美元，表明对话式AI已成为下一代AI基础设施的核心组成部分。

在实时互动技术迈入“万亿分钟”时代之际，声网正加速推动从“连接”到“对话”的变革。作为实时互动领域的基础设施构建者，声网对AI语音的认知已经超越了单纯的技术连接，专注于如何让AI真正“听懂”人类语言背后的情感与意图。随着多模态大语言模型的逐步成熟，如何发挥其理解能力成为了关键。

赵斌指出，如今AI对话体验面临的核心挑战在于：人类对话中仅有7%的信息来自语言内容，而超过90%的信息感知依赖于语调、表情和肢体语言等非语言要素。为了提升人机对话的质量，我们必须教会AI识别这些“言外之意”，并从中分析出说话者的真实意图。

在赵斌看来，对话式AI正在推动RTE从“正常对话”向“声情并茂”的关键跃迁，这不仅是技术的升级，更是交互模式的根本转变。

声网在过去的几年里持续攻克“听到、听懂、理解”三大难题。在“听到”层面，声网自研的SD-RTN网络实现了76ms的端到端延迟，较WebRTC标准提升了8倍，为高质量语音交互奠定了基础。这一全新的网络架构不仅显著降低了端到端响应延迟，还能兼容多种主流大模型。

在“听懂”层面，声网的对话式AI引擎2.0实现了技术的飞跃。通过多模态融合，它不仅能够处理音频，还新增了声纹识别、数字人与视觉理解功能，使AI能够识别说话者的身份特征、感知环境信息，将单纯的声音信号升级为有上下文的“场景数据流”。声纹识别功能赋予了AI精准识别用户声纹特征的能力，并智能屏蔽环境噪声。

而在最核心的“理解”层面，声网通过上下文管理、情感理解等系统化方案，主要捕捉那93%的非语言信息。

从技术到应用，声网正推动对话式AI在多个关键场景中规模化落地。赵斌指出，对话式AI将率先在情感陪伴、智能硬件、在线教育等三大场景中实现规模化应用。

声网认为，在情感陪伴场景中，AI正在成为缓解现代人孤独感的新载体，受到越来越多人的关注。例如，珞博智能的AI毛绒宠物“芙崽”通过长期记忆系统，能够感知用户的情绪变化，并主动召回快乐的记忆。

AI情感陪伴产品通过技术手段为用户提供情感支持，正在逐渐成为新的社会情绪稳定器。调查显示，85%的用户都有负面情绪，许多人在与AI交流中找到情感的寄托，帮助他们缓解压力与焦虑。

在教育领域，盒智科技的CTO张昊介绍了其产品LOOKEE口语侠搭载的AURA动态调控系统。该系统能够异步分析孩子的情感状态、内容理解度及对话积极性等多维数据，并实时调整对话策略，旨在让孩子“乐于对话”，从而提升学习的有效性和趣味性。

在RTE2025大会的AI硬件专场，小匠物联的创始人米雪龙分享了他们对AI与硬件融合的深刻见解。他认为，未来的智能硬件将不再是简单的功能执行者，而是能够主动理解人类并与用户建立情感链接的“陪伴者”。

在声网RTE2025大会的主论坛之外，展区同样人流如织。我带着对AI有声的好奇，亲身感受AI音频技术在不同场景下迸发的活力，愈发意识到人和AI之间流畅的对话并非易事。大家讨论的焦点主要集中在两个问题上：AI如何理解人类的断句，以及当多个AI语音智能体同时开启时，如何判断用户是在与哪个AI对话。

针对前者，声网联合打造了TEN.VAD语音活动检测AI模型，该模型不仅能够在真实场景中减少62%的音频传输数据量，还能快速检测语音与非语音之间的切换，降低人际交互的延迟。而对于后者，目前尚未有较好的解决方案。

除了软件层面的挑战，我们也观察到不同场景下的AI语音功能表现出不同的特性。在AI教育展区，盒智科技推出的LOOKEE口语侠是帮助孩子进行英语口语学习的AI硬件。它引入的自研AURA动态调控系统能够分析孩子的情绪状态与对话积极性，实时调整对话策略，以实现个性化教学，让语言学习变得生动有趣。

在AI硬件展台，AI潮玩产品“芙崽 Fuzozo”备受欢迎。它不仅是毛绒玩具，更能通过语音进行自然对话，甚至拥有自己的“毛毛语”。工作人员介绍，其内置的多模态情感模型和长期记忆系统，能记住用户的喜好与聊天内容，成为真正的伙伴，产品的退货率远低于行业平均水平。

此外，我们还见到了Lumu机器人，这是哈尔滨工业大学孵化的陆吾智能打造的桌面机器人，能够执行简单的前进、跳舞和蹲下等基础操作。

我们还观察到许多AI语音创业公司正在开发市场调研、AI传记编写等软件。例如，ListenHub希望成为创作者的AI助手，主要为创作者提供真实自然的语音内容和服务，如数字人配音、播客、小说朗读和有声故事书。通过数据积累和大规模工程化，ListenHub的AI系统能够在1-5分钟内将任意文本转化为具备真实对话感的高质量音频。ValidFlow.AI则通过AI研究员与全球用户池的结合，提升用户洞察的效率与完整性。

目前，AI音频的应用已远远超越了“听清”的基础要求，正朝着“听懂”、“感知情绪”和“创造沉浸”的方向迈进。它正在悄然融入硬件、教育及日常交互的各个方面，一个更加智能、自然且充满温度的有声世界，正逐步展现在我们眼前。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/gm9gupd5