用可穿戴设备的行为数据做健康预测:一篇“看得懂”的技术笔记
“
原文:Beyond Sensor Data: Foundation Models of Behavioral Data from Wearables Improve Health Predictions
写在前面:为什么又聊可穿戴健康?
你手上那块 Apple Watch,除了看时间、收消息,其实每天都在记录 27 种“行为-生理”指标——步数、心率、睡眠效率、步行速度、甚至摔倒次数。
过去大家主要盯着原始传感器波形(PPG、ECG、加速度),但这篇苹果与哈佛团队的新研究告诉我们:用更高层、更贴近日常行为的数据做大规模预训练,反而能把健康预测这件事做得更准、更广。
一、研究到底做了什么?
二、把复杂技术拆成 5 个“人话”问题
1. 为什么不用原始 PPG,而要用行为指标?
- ▸
PPG 断断续续:一天只采几次波形,夜间、洗澡、充电都会缺数。 - ▸
行为指标全天候:步数、站立时间、夜间心率——只要戴表就有。 - ▸
医学专家已验证:VO₂max、6 分钟步行距离等,本来就和疾病强相关,省得模型再费劲学。
2. 27 个指标长什么样?
3. 模型怎么学?——WBM 训练流水线
-
切窗口:每人每周 168 小时,生成 168 × 54 的矩阵(27 变量 + 27 缺失掩码)。 -
tokenize:用 TST(Time Series Transformer)思路,把每小时压成一个向量。 -
backbone:双向 Mamba-2,比 Transformer 省内存,适合长序列。 -
自监督:同一个人的两周互为正样本,随机 token drop 做增广,InfoNCE + KoLeo 正则化。 -
下游:线性探针(ridge 回归),不做端到端微调,保持公平。
4. 57 个任务都测了什么?
5. 结果一句话总结
- ▸
WBM 单独用 已打败“均值+方差”这种传统特征 39/47 次。 - ▸
WBM + PPG 联合 在 42/47 次任务里拿到第一,最高把房颤预测 AUROC 从 0.826 拉到 0.860。 - ▸
行为数据更擅长 睡眠、受伤、怀孕等“行为驱动”场景;PPG 在糖尿病、抑郁等“生理主导”场景仍领先。
三、技术细节 FAQ
Q1:缺失值那么多,模型不崩吗?
A:TST tokenization 直接全局均值填充 + 缺失掩码,简单粗暴但有效;论文也试了 mTAN、Tuple 等花哨方法,结果反而略差,可能因为噪声高。
Q2:Mamba-2 是什么?
A:一种「选择型状态空间模型」,相比 Transformer 省显存,仍能双向看全局。论文在 8×A100 上 16 小时训完 2.5 亿参数模型,推理只需毫秒级。
Q3:为什么不用 Masked AutoEncoder?
A:试了,年龄预测 MAE 从 4.05 → 6.39,因为稀疏且噪声大,重建任务让模型只关注高频变量(步数、热量),忽略了 VO₂max 等关键但稀少的指标。
Q4:隐私怎么保障?
A:研究基于 Apple Research app 的知情同意,数据不公开;模型权重因合规原因未开源,但论文给出了完整超参与实现细节,方便复现思路。
四、真实场景落地指南
五、局限 & 下一步
- ▸
人群偏倚:样本多为美国、中高收入的 Apple 用户,外推到 Android 或其他国家需谨慎。 - ▸
标签噪声:多数疾病标签来自问卷自报,未来与 EHR 交叉验证会更可靠。 - ▸
时间窗口:目前只做到“周级”预测,若要做小时级预警,需要更细粒度建模。
六、快速体验:如何自己试玩?
“
由于原始数据与权重受合规限制,个人无法直接下载,但你可以用公开数据集(如 UK Biobank 加速度子集)复现思路。
最小可复现 pipeline(伪代码)
# 1. 准备数据
# 每行:user_id, week_start, variable_name, hourly_value
df = pd.read_parquet('my_wearable_weekly.parquet')
# 2. 构造 168×54 矩阵
def make_matrix(week_df):
mat = np.zeros((168, 54))
for hour in range(168):
for v, idx in VAR2IDX.items():
val = week_df.query('hour==@hour & var==@v')['value']
if val.empty:
mat[hour, idx] = 0 # 均值填充
mat[hour, idx+27] = 0 # 缺失掩码
else:
mat[hour, idx] = val.values[0]
mat[hour, idx+27] = 1
return mat
# 3. 用开源 Mamba-2 实现 + InfoNCE 训练
# 参考:https://github.com/state-spaces/mamba
七、结论
这篇研究告诉我们两件事:
-
把“行为”本身当成信号,比死磕原始波形更接地气、更连续。 -
大模型时代,数据类型决定天花板——选对指标、选对架构,才能在真实健康场景里拿到看得见的效果。
如果你正在做可穿戴算法、数字疗法或保险科技,不妨把这篇论文加入阅读清单。下一步,你可以思考:
- ▸
我的用户群体与 AHMS 有多大差异? - ▸
现有指标里,有没有 VO₂max 这样“稀疏却高价值”的变量? - ▸
能否用 Mamba-2 替换掉当前 Transformer,换来 30 % 的显存节省?
“
参考文献:
Erturk E. et al., “Beyond Sensor Data: Foundation Models of Behavioral Data from Wearables Improve Health Predictions”, ICML 2025.