151% 增长背后,揭开 AI 新入口的神秘面纱!

6天前发布aigy
0 0 0
标签:
摘要:

2023年10月31日,北京举办的Convo AI & RTE 2025大会聚焦对话式AI与实时互动技术的融合。声网创始人赵斌宣布其年度服务分钟数首次突破1万亿,显示出RTE技术的重要性。调查显示,67%的企业将语音AI视为战略核心,84%计划加大投入。对话式AI正推动技术升级,提升人机交互质量,尤其是理解非语言信息。AI在情感陪伴和教育等领域的应用日益广泛,显示出其在缓解孤独感和提升学习效果方面的潜力。整体来看,AI语音技术正朝着更智能、更人性化的方向发展。

151% 增长背后,揭开 AI 新入口的神秘面纱!的封面图

PTAG:1500亿美元的新机遇

在这股AI浪潮的推动下,语音技术正以前所未有的速度蓬勃发展。当我们期待AI能够真正“听懂”人类的言语和情感时,AI产业与技术是否也已经做好准备呢?

2023年10月31日,由声网与RTE开发者社区联合主办的Convo AI & RTE 2025第十一届实时互联网大会在北京隆重召开。本届大会以“AI有声”为主题,汇聚了全球顶尖专家,共同探讨实时互动(RTE)与对话式AI的深度融合之道。

声网的创始人兼CEO赵斌在开场演讲中宣告了一个里程碑:声网的年度服务分钟数首次突破1万亿分钟,这一成就标志着RTE技术已成为数字社会不可或缺的基础设施。根据Deepgram和Opus Research的调查,67%的企业已将语音AI智能体置于战略核心,84%的企业计划在未来一年增加相关投入。声网在对话式AI方面的使用量在2025年第三季度实现了151%的环比增长,显示出市场对这一技术的强烈需求。

对话式AI正在推动RTE完成从“正常对话”到“声情并茂”的关键跃迁。ARK Invest预测,AI陪伴赛道将扩展至700-1500亿美元,表明对话式AI已成为下一代AI基础设施的核心组成部分。

在实时互动技术迈入“万亿分钟”时代之际,声网正加速推动从“连接”到“对话”的变革。作为实时互动领域的基础设施构建者,声网对AI语音的认知已经超越了单纯的技术连接,专注于如何让AI真正“听懂”人类语言背后的情感与意图。随着多模态大语言模型的逐步成熟,如何发挥其理解能力成为了关键。

赵斌指出,如今AI对话体验面临的核心挑战在于:人类对话中仅有7%的信息来自语言内容,而超过90%的信息感知依赖于语调、表情和肢体语言等非语言要素。为了提升人机对话的质量,我们必须教会AI识别这些“言外之意”,并从中分析出说话者的真实意图。

在赵斌看来,对话式AI正在推动RTE从“正常对话”向“声情并茂”的关键跃迁,这不仅是技术的升级,更是交互模式的根本转变。

声网在过去的几年里持续攻克“听到、听懂、理解”三大难题。在“听到”层面,声网自研的SD-RTN网络实现了76ms的端到端延迟,较WebRTC标准提升了8倍,为高质量语音交互奠定了基础。这一全新的网络架构不仅显著降低了端到端响应延迟,还能兼容多种主流大模型。

在“听懂”层面,声网的对话式AI引擎2.0实现了技术的飞跃。通过多模态融合,它不仅能够处理音频,还新增了声纹识别、数字人与视觉理解功能,使AI能够识别说话者的身份特征、感知环境信息,将单纯的声音信号升级为有上下文的“场景数据流”。声纹识别功能赋予了AI精准识别用户声纹特征的能力,并智能屏蔽环境噪声。

而在最核心的“理解”层面,声网通过上下文管理、情感理解等系统化方案,主要捕捉那93%的非语言信息。

从技术到应用,声网正推动对话式AI在多个关键场景中规模化落地。赵斌指出,对话式AI将率先在情感陪伴、智能硬件、在线教育等三大场景中实现规模化应用。

声网认为,在情感陪伴场景中,AI正在成为缓解现代人孤独感的新载体,受到越来越多人的关注。例如,珞博智能的AI毛绒宠物“芙崽”通过长期记忆系统,能够感知用户的情绪变化,并主动召回快乐的记忆。

AI情感陪伴产品通过技术手段为用户提供情感支持,正在逐渐成为新的社会情绪稳定器。调查显示,85%的用户都有负面情绪,许多人在与AI交流中找到情感的寄托,帮助他们缓解压力与焦虑。

在教育领域,盒智科技的CTO张昊介绍了其产品LOOKEE口语侠搭载的AURA动态调控系统。该系统能够异步分析孩子的情感状态、内容理解度及对话积极性等多维数据,并实时调整对话策略,旨在让孩子“乐于对话”,从而提升学习的有效性和趣味性。

在RTE2025大会的AI硬件专场,小匠物联的创始人米雪龙分享了他们对AI与硬件融合的深刻见解。他认为,未来的智能硬件将不再是简单的功能执行者,而是能够主动理解人类并与用户建立情感链接的“陪伴者”。

在声网RTE2025大会的主论坛之外,展区同样人流如织。我带着对AI有声的好奇,亲身感受AI音频技术在不同场景下迸发的活力,愈发意识到人和AI之间流畅的对话并非易事。大家讨论的焦点主要集中在两个问题上:AI如何理解人类的断句,以及当多个AI语音智能体同时开启时,如何判断用户是在与哪个AI对话。

针对前者,声网联合打造了TEN.VAD语音活动检测AI模型,该模型不仅能够在真实场景中减少62%的音频传输数据量,还能快速检测语音与非语音之间的切换,降低人际交互的延迟。而对于后者,目前尚未有较好的解决方案。

除了软件层面的挑战,我们也观察到不同场景下的AI语音功能表现出不同的特性。在AI教育展区,盒智科技推出的LOOKEE口语侠是帮助孩子进行英语口语学习的AI硬件。它引入的自研AURA动态调控系统能够分析孩子的情绪状态与对话积极性,实时调整对话策略,以实现个性化教学,让语言学习变得生动有趣。

在AI硬件展台,AI潮玩产品“芙崽 Fuzozo”备受欢迎。它不仅是毛绒玩具,更能通过语音进行自然对话,甚至拥有自己的“毛毛语”。工作人员介绍,其内置的多模态情感模型和长期记忆系统,能记住用户的喜好与聊天内容,成为真正的伙伴,产品的退货率远低于行业平均水平。

此外,我们还见到了Lumu机器人,这是哈尔滨工业大学孵化的陆吾智能打造的桌面机器人,能够执行简单的前进、跳舞和蹲下等基础操作。

我们还观察到许多AI语音创业公司正在开发市场调研、AI传记编写等软件。例如,ListenHub希望成为创作者的AI助手,主要为创作者提供真实自然的语音内容和服务,如数字人配音、播客、小说朗读和有声故事书。通过数据积累和大规模工程化,ListenHub的AI系统能够在1-5分钟内将任意文本转化为具备真实对话感的高质量音频。ValidFlow.AI则通过AI研究员与全球用户池的结合,提升用户洞察的效率与完整性。

目前,AI音频的应用已远远超越了“听清”的基础要求,正朝着“听懂”、“感知情绪”和“创造沉浸”的方向迈进。它正在悄然融入硬件、教育及日常交互的各个方面,一个更加智能、自然且充满温度的有声世界,正逐步展现在我们眼前。

© 版权声明:
本文地址:https://aidh.net/kuaixun/gm9gupd5

暂无评论

none
暂无评论...