Rokid Glasses AR+AI 眼镜最新研发进展:提词器翻页自动匹配语速,告别遥控戒指

内容摘要IT之家 4 月 11 日消息,Rokid Glasses AR+AI 眼镜于去年 11 月发布,用户通过戒指的轻触即可控制提词翻页。然而,这种看似炫酷的交互方式仍存在诸多痛点:手动操作分散注意力、固定翻页节奏僵化、演讲者过度依赖提词器等问

IT之家 4 月 11 日消息,Rokid Glasses AR+AI 眼镜于去年 11 月发布,用户通过戒指的轻触即可控制提词翻页。

然而,这种看似炫酷的交互方式仍存在诸多痛点:手动操作分散注意力、固定翻页节奏僵化、演讲者过度依赖提词器等问题。

基于这些使用痛点,Rokid 研发团队宣布近日提交了一份“一种基于智能算法的提词器功能”的专利,可以根据演讲者的语速和演讲节奏自动匹配文稿。其核心技术在于将演讲者的语言表达与文稿滚动实现无缝同步,解决了传统提词系统的顽疾。

Rokid 介绍称,在演讲场景中,提词器的交互方式长期受限于三种模式:手动触控、物理遥控器、固定定时滚动。尽管这些方案在特定场景下有效,但其局限性日益凸显:

人工交互的注意力消耗手动操作眼镜侧面触摸条或使用遥控戒指时,演讲者需在表达内容与控制设备间频繁切换注意力。

滑动眼镜的动作可能被观众误读为紧张或不自信的肢体语言。

固定节奏的定时滚动模式虽然解放了双手,但机械化的翻页速度往往与演讲者的语速脱节。当演讲者因情绪高涨加快语速时,文字滚动可能滞后半句话;而遇到需要停顿强调的环节,文字却仍在机械前滚,这种错位会引发认知混乱。

IT之家从公告获悉,Rokid 的新专利通过三项核心技术构建了智能提词系统:

1. 多模态语音识别引擎系统采用端到端的深度神经网络模型,可实时解析演讲者的语音内容。其创新之处在于:

方言兼容性:除普通话外,也支持多种方言,满足多语言场景需求;

抗干扰能力:在 45 分贝背景噪音下仍保持 98% 的识别准确率;

非线性识别:能精准捕捉重复朗读、跳跃式朗读等非常规表达,如演讲者突然回顾前文或跳读关键段落时,系统能智能判断意图并调整文稿位置。

2. 动态语速适配算法该算法构建了“语速-文本密度”的动态映射模型:

实时语速追踪:每 0.5 秒更新一次语速数据,覆盖 80-200 字 / 分钟的宽泛区间(覆盖 99% 的演讲场景);

弹性缓冲机制:当检测到 5 秒以上停顿时,系统自动暂停并标记当前位置,恢复时通过上下文语义分析定位正确段落。

3. 多场景演讲匹配算法多场景匹配算法结合,满足演讲场景的全方位交互需求:

精准匹配算法:演讲者无论是跳词还是漏字,都能精准地匹配到正在阅读的语句;

模糊匹配算法:演讲过程中,演讲者脱稿即兴发挥或与观众无稿交流时,匹配算法将暂停,不影响演讲者的节奏,当演讲者回到演讲稿中,匹配算法会立即识别,继续精准匹配。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-4

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: