数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 40|回复: 3

[科技] 苹果新研究:大模型能靠听声音识动作,你的日常它可能比对象还懂

[复制链接]
发表于 1 小时前 | 显示全部楼层 |阅读模式
你肯定遇到过这种场景:手机甩在沙发上,屋里传来叮叮当当的声响,厨房飘来焦香——你妈大概率在煎鱼,而你的智能设备却还在傻乎乎地问“是否需要播放音乐”。但苹果最近一项研究可能会让这种尴尬成为历史:他们发现,大语言模型(LLM)光凭设备采集的声音和动作数据,就能像福尔摩斯一样推理出你到底在干啥。而且,这可不是靠偷听你说话,而是通过分析声音特征和动作模式来“脑补”全场。

一、研究背景:为什么苹果要教AI“看图说话”?
这项名为《使用LLM进行多模态传感器后期融合的活动识别》的论文,核心想解决一个问题:如何让设备更懂你,但又不必24小时监控你的隐私。过去,智能设备识别活动主要依赖单一传感器,比如加速度计测运动、麦克风收声,但一旦数据不全(比如你静音看电视),或者动作模棱两可(比如边洗碗边抖腿),系统就直接懵圈。

苹果研究团队从Ego4D数据集中挑了12种日常活动片段,每种20秒,包括做饭、打篮球、撸猫、举铁等。这些片段全是第一视角拍摄,堪称“生活版楚门的世界”。但重点来了:LLM根本看不到原始视频或录音,它拿到的是“二手情报”——由小模型先对声音和动作数据做初步分析,生成文字描述(比如“有规律的摩擦声+间歇性水流声”),再让LLM根据这些文字猜活动。

二、实验设计:AI怎么玩“你画我猜”?
研究团队给LLM(用了Gemini-2.5-pro和Qwen-32B两个模型)设置了两种难度模式:

闭卷考试:直接告诉AI“备选项有12个,比如洗碗、打球……你挑一个”。
开卷考试:啥提示都不给,让AI自由发挥猜场景。

结果发现,哪怕没有任何针对性训练,LLM在“闭卷”模式下准确率显著高于瞎蒙,而只要给一个例子(比如先告诉它“洗碗声是哗啦啦+擦盘子声”),表现还能再上一层楼。这相当于AI仅凭几条文字线索,就拼出了完整行为画像——比如通过“球鞋摩擦地板声+急促呼吸+间歇性欢呼”推断出在打篮球。

三、技术细节:如何避免“ creepy ”的监控感?
苹果特别强调,LLM不接触原始音频,只分析文本化的特征描述。比如运动数据来自设备IMU(惯性测量单元,含加速度计和陀螺仪),转换成“手臂反复摆动”“身体短暂静止”等文本;声音数据则被抽象成“金属碰撞声”“持续低频嗡鸣”。这种“信息脱敏”操作既保护隐私,又降低了计算量——毕竟不需要时刻处理高清音频流。

研究团队还公开了所有实验数据(包括时间戳、提示词模板),欢迎同行复现结果。这种“摊牌式科研”在苹果并不常见,或许暗示他们想推动行业在多模态融合上形成标准。

四、未来想象:你的手机将成为“生活导演”?
这项研究的脑洞远不止于判断你是否在健身。举个例子:

早晨手机检测到“水流声+咖啡机嗡鸣+短促步行”,自动播报天气和日程;
晚上电视识别出“打哈欠声+遥控器按键声”,调暗灯光并启动睡眠模式。

更重要的是,在医疗康复、老年监护等场景,设备可以通过结合声音动作数据,判断用户是否摔倒、遗忘服药,甚至发现帕金森患者的异常震颤模式——而所有这些都不需要摄像头贴身跟踪。

五、吐槽时间:技术虽好,但别成“过度解读狂魔”
当然,这种技术也有翻车风险。比如“啃薯片声+电视剧背景音”可能被判定为“看电视”,但万一你其实在剪视频时摸鱼呢?再比如,如果AI通过“叹息声+键盘敲击声”断定你在加班,反手给你推送减压广告,会不会精准得让人头皮发麻?

苹果在论文中也承认,目前模型对复杂叠加行为(比如边遛狗边回消息)的识别仍有局限,且环境噪音容易干扰判断。但无论如何,用LLM做多模态融合的思路,相当于给设备装上了“情境脑补”能力——未来或许真能实现《钢铁侠》里贾维斯那样的无缝交互。

结语​
这项研究最妙的地方在于:它让冷冰冰的传感器数据有了“人情味”。你的手机不再只是机械记录步数或分贝,而是试图理解你生活的节奏。当然,但愿苹果未来能把这种能力用在“贴心”而非“贴脸”的方向——毕竟,谁也不想被手机吐槽:“您今晚吃薯片的声音比昨天响了三倍。”(手动狗头)

注:本文基于苹果公开论文《Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition》解读,保留全部技术细节并做生活化转译,未删减任何原始信息。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
发表于 1 小时前 | 显示全部楼层
还以为今后可以听片了。
回复 支持 1 反对 0

使用道具 举报

发表于 29 分钟前 | 显示全部楼层
这些高科技普通人很应用,但坏.人可以用来干很多事
回复 支持 反对

使用道具 举报

发表于 12 分钟前 | 显示全部楼层
苹果落后了,我经常放屁,我手机就给我推送放屁是哪里不好,手机好几个麦克风都能监听。你炒菜他都能听到给你推送菜谱,我喜欢光着脚,被后置摄像头看到了,就给我推扁平足视频,我就是扁平足
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-11-22 15:01 , Processed in 0.093600 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表