如虎添翼，谷歌探索 AI + 机器人未来

数码芝华士 · 发表于 2024-7-14 01:44:55

您需要登录才可以下载或查看，没有账号？立即注册

x

科技媒体 The Verge 昨日报道，谷歌旗下的 DeepMind 团队正在使用 Gemini 训练其机器人，让其能够完成更复杂的任务，且能在复杂的环境下自由穿梭。

DeepMind 团队已经发表了最新的研究论文，利用 Gemini 1.5 Pro 的上下文窗口（达到 200 万个词元），让用户可以更轻松地使用自然语言指令与 RT-2 机器人互动。

IT之家注：上下文窗口（context window）是指语言模型在进行预测或生成文本时，所考虑的前一个词元（token）或文本片段的大小范围。

其工作原理是拍摄指定区域（如家庭或办公空间）的视频导览，研究人员使用 Gemini 1.5 Pro 让机器人“观看”视频以了解环境；然后，机器人可以根据观察到的情况，通过语言和 / 或图像输出来执行命令。

例如用户向机器人展示一部手机，并询问“在哪里可以充电？”，机器人会引导用户找到室内的电源插座。

DeepMind 称，在一个 9000 平方英尺（IT之家备注：约 836.13 平方米）的操作区内，机器人在升级 Gemini 之后，测试发出 50 多条用户指令，成功率高达 90%。

研究人员还发现 "初步证据" 表明，Gemini 1.5 Pro 能让机器人计划如何完成导航以外的指令。

例如，当一位桌上摆放着许多可乐罐的用户询问机器人是否有他们最喜欢的饮料时，Gemini “知道机器人应该导航到冰箱，检查是否有可乐，然后返回用户处报告结果”。DeepMind 表示计划进一步研究这些结果。

leafchy · 发表于 2024-7-14 08:07:47

以后资本利润会更大了。

feng7293789 · 发表于 2024-7-14 08:40:14

老虎是危险的动物。。。。

kerchi · 发表于 2024-7-14 08:47:33

通过语言或图像输出来执行命令

账号		自动登录	找回密码
密码			立即注册

[业界] 如虎添翼，谷歌探索 AI + 机器人未来