苹果新研究:AI如何用文字描述识别你的动作?
创始人
2025-11-22 08:04:52
0

11月22日,科技媒体9to5Mac报道,苹果公司最新研究显示,大语言模型(LLM)能够通过分析音频和运动数据的文本描述来精准识别用户活动,未来有望应用于Apple Watch。这项名为“后期多模态传感器融合”的技术,结合了LLM的推理能力与传统传感器数据,即使在传感器信息不足的情况下,也能准确判断用户正在进行的具体活动。

研究的核心方法是,大语言模型不直接处理用户的原始音频录音或运动数据,而是分析由专门的小型模型生成的文本描述。音频模型会生成描述声音环境的文字,如“水流声”,而基于惯性测量单元(IMU)的运动模型则会输出动作类型的预测文本。这种方式既保护了用户隐私,又验证了LLM在理解和融合多源文本信息以进行复杂推理方面的强大能力。

为验证该方法,研究团队使用了包含数千小时第一人称视角视频的Ego4D数据集,从中筛选出12种日常活动进行测试。结果显示,即使没有任何针对性训练,大语言模型在活动识别任务中的表现也远超随机猜测的水平,其F1分数表现优异。当获得一个参考示例后,模型的准确度还会进一步提升。这项研究表明,利用LLM进行后期融合,可以有效开发出强大的多模态应用,节省额外的内存和计算资源。

相关内容

热门资讯

新能源车维修惊现天价:轻微剐蹭... 近日,新能源车维修费用高昂成为热议话题。车主卢小姐在轻微剐蹭后,4S店给出的维修报价高达10700元...
49欧元/月!零跑T03德国租... 5月11日,零跑汽车在德国推出了T03汽车租赁方案,月租价格低至49欧元,折合人民币约392.3元,...
26名“洪迪厄斯”号邮轮人员抵... △“洪迪厄斯”号邮轮(资料图)当地时间10日晚,一架载有26名“洪迪厄斯”号邮轮人员的飞机抵达荷兰埃...
168.6亿千瓦时!“核电老大... “十五五”开局,广东核电便以一骑绝尘的姿态,再度确立了自己在全国能源版图中的“领跑者”地位。据北极星...
贾跃亭回归FF CEO,宣布战... 今日,贾跃亭在视频回顾中宣布,自己已回归法拉第未来(FF)担任全球CEO,同时Jerry被任命为FF...
花都宠物文明形象大使选拔赛·融... 2026年5月10日,由广州市花都区宠物产业协会、广东省农业科学院动物卫生研究所联合主办的“花都宠你...
“宇宙超级快递小哥”即将出发 ... 新一单“太空快递”即将发货!近日天舟十号完成转运和全区合练各项发射准备工作全部就绪我国第十艘货运飞船...
广州“捡瓶小狗”疑被毒狗团队盯... 近日,网红小狗“小白”的安全牵动了无数网友的心。这只靠捡瓶子攒了10万元,有超50万粉丝的小狗,疑似...
好评中国|从“无人行李箱墙”读... 刚刚过去的“五一”假期期间,武汉地铁8号线梨园站,一溜行李箱靠墙而立,无人看管却井然有序,成了刷屏全...
文博日历丨妈妈的爱,有万千种模... 💐今天是母亲节💐让我们从一捧陶土里读懂时光深处永不褪色的温情△东汉红陶哺乳俑,重庆中国三峡博物馆藏一...