数码之家

 找回密码
 立即注册
搜索
查看: 132|回复: 1

[产品] Rokid Glasses AR+AI 眼镜最新研发进展:提词器翻页告别遥控戒指

[复制链接]
发表于 2025-4-12 20:06:38 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x
IT之家 4 月 11 日消息,Rokid Glasses AR+AI 眼镜于去年 11 月发布,用户通过戒指的轻触即可控制提词翻页。
然而,这种看似炫酷的交互方式仍存在诸多痛点:手动操作分散注意力、固定翻页节奏僵化、演讲者过度依赖提词器等问题。
基于这些使用痛点,Rokid 研发团队宣布近日提交了一份“一种基于智能算法的提词器功能”的专利,可以根据演讲者的语速和演讲节奏自动匹配文稿。其核心技术在于将演讲者的语言表达与文稿滚动实现无缝同步,解决了传统提词系统的顽疾。
Rokid 介绍称,在演讲场景中,提词器的交互方式长期受限于三种模式:手动触控、物理遥控器、固定定时滚动。尽管这些方案在特定场景下有效,但其局限性日益凸显:
  • 人工交互的注意力消耗手动操作眼镜侧面触摸条或使用遥控戒指时,演讲者需在表达内容与控制设备间频繁切换注意力。
  • 滑动眼镜的动作可能被观众误读为紧张或不自信的肢体语言。
  • 固定节奏的定时滚动模式虽然解放了双手,但机械化的翻页速度往往与演讲者的语速脱节。当演讲者因情绪高涨加快语速时,文字滚动可能滞后半句话;而遇到需要停顿强调的环节,文字却仍在机械前滚,这种错位会引发认知混乱。

IT之家从公告获悉,Rokid 的新专利通过三项核心技术构建了智能提词系统:
1. 多模态语音识别引擎系统采用端到端的深度神经网络模型,可实时解析演讲者的语音内容。其创新之处在于:
  • 方言兼容性:除普通话外,也支持多种方言,满足多语言场景需求;
  • 抗干扰能力:在 45 分贝背景噪音下仍保持 98% 的识别准确率;
  • 非线性识别:能精准捕捉重复朗读、跳跃式朗读等非常规表达,如演讲者突然回顾前文或跳读关键段落时,系统能智能判断意图并调整文稿位置。

2. 动态语速适配算法该算法构建了“语速-文本密度”的动态映射模型:
  • 实时语速追踪:每 0.5 秒更新一次语速数据,覆盖 80-200 字 / 分钟的宽泛区间(覆盖 99% 的演讲场景);
  • 弹性缓冲机制:当检测到 5 秒以上停顿时,系统自动暂停并标记当前位置,恢复时通过上下文语义分析定位正确段落。

3. 多场景演讲匹配算法多场景匹配算法结合,满足演讲场景的全方位交互需求:
  • 精准匹配算法:演讲者无论是跳词还是漏字,都能精准地匹配到正在阅读的语句;
  • 模糊匹配算法:演讲过程中,演讲者脱稿即兴发挥或与观众无稿交流时,匹配算法将暂停,不影响演讲者的节奏,当演讲者回到演讲稿中,匹配算法会立即识别,继续精准匹配。


发表于 2025-4-12 21:11:06 | 显示全部楼层
这个体验很棒
回复 支持 0 反对 1

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-1 21:53 , Processed in 0.218401 second(s), 10 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表