数码之家

 找回密码
 立即注册
搜索
查看: 282|回复: 2

[业界] 如虎添翼,谷歌探索 AI + 机器人未来

[复制链接]
发表于 2024-7-14 01:44:55 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x
科技媒体 The Verge 昨日报道,谷歌旗下的 DeepMind 团队正在使用 Gemini 训练其机器人,让其能够完成更复杂的任务,且能在复杂的环境下自由穿梭。
DeepMind 团队已经发表了最新的研究论文,利用 Gemini 1.5 Pro 的上下文窗口(达到 200 万个词元),让用户可以更轻松地使用自然语言指令与 RT-2 机器人互动。
IT之家注:上下文窗口(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。
其工作原理是拍摄指定区域(如家庭或办公空间)的视频导览,研究人员使用 Gemini 1.5 Pro 让机器人“观看”视频以了解环境;然后,机器人可以根据观察到的情况,通过语言和 / 或图像输出来执行命令。
例如用户向机器人展示一部手机,并询问“在哪里可以充电?”,机器人会引导用户找到室内的电源插座。
DeepMind 称,在一个 9000 平方英尺(IT之家备注:约 836.13 平方米)的操作区内,机器人在升级 Gemini 之后,测试发出 50 多条用户指令,成功率高达 90%。
研究人员还发现 "初步证据" 表明,Gemini 1.5 Pro 能让机器人计划如何完成导航以外的指令。
例如,当一位桌上摆放着许多可乐罐的用户询问机器人是否有他们最喜欢的饮料时,Gemini “知道机器人应该导航到冰箱,检查是否有可乐,然后返回用户处报告结果”。DeepMind 表示计划进一步研究这些结果。

发表于 2024-7-14 08:07:47 | 显示全部楼层
以后资本利润会更大了。
回复 支持 反对

使用道具 举报

发表于 2024-7-14 08:40:14 | 显示全部楼层
老虎是危险的动物。。。。
回复 支持 反对

使用道具 举报

发表于 2024-7-14 08:47:33 | 显示全部楼层
通过语言或图像输出来执行命令
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-21 05:34 , Processed in 0.249600 second(s), 7 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表