🧠 方法框架 · Talking Tennis 复现

基于 arXiv 2510.03921(Dashore et al. 2025-10),三段管线的工作机理 + 优缺点 + 提升路线图。

管线总览

感知/识别(已实现) biomech 计算(已实现) LLM / 知识层(已实现) 论文未交代 / 我们补的

两条支路完全独立 — 分类支路只看 RGB 像素,biomech 支路只看姿态。它们在 LLM 那里第一次相遇:预测的 stroke 类别决定用哪套 REFERENCE_RANGES。即使分类错了,biomech 的数值依然是真实测量,只是参考区间会按"错误的目标 stroke"判 LOW/HIGH。

模块拆解

1️⃣ 分类支路 — CNN-LSTM(§3.1)

组件	具体	设计理由
Backbone	timm efficientnet_b0 (1280-d, global avg pool)	ImageNet 预训练的轻量 CNN — 单帧空间特征复用
时序模块	2-layer LSTM (hidden=512, dropout=0.4)	16 帧序列的时序模式建模
分类头	Dropout(0.4) → Linear(512 → 12)	取 LSTM 顶层最后一帧 hidden,接线性分类
输入张量	(B, T=16, C=3, H=W=224)	16 帧 random temporal crop;EfficientNet 标准 224 + ImageNet normalize
训练	AdamW 1e-4 / wd 0.01 / label-smooth 0.1 / bs 16 / 50 epoch / AMP	ReduceLROnPlateau patience=5,early stop patience=8

2️⃣ biomech 支路 — 8 大类特征(§3.2)

特征	计算	含义
关节角	3-point: arccos((BA·BC)/(\|BA\|\|BC\|))	肩肘腕髋膝 5 个关节 × T 帧
段速度	v(t) = (p(t+1) − p(t−1)) / 2Δt	中心差分;wrist/elbow/shoulder/hip/knee
球拍速度	用 dominant wrist 当 racket tip	论文同样近似;真 racket 检测需独立模型
击球点	argmax(\|a(t)\|) of racket	峰值加速度 = impact frame
kinetic chain	peak(wrist) − peak(hip) 时延	动力链协调性:hip→shoulder→elbow→wrist 应有序
躯干旋转	θ(t) = atan2(Δshoulder_y, Δshoulder_x)	用肩线相对水平的角度近似躯干扭转
三段相位	0-33% prep · 33-67% exec · 67-100% follow-thru	等分时间窗;论文同设定
动能	KE = ½ v² · unit mass	无质量信息,只能做相对功率比较

3️⃣ LLM 反馈支路 — REFERENCE_RANGES + GPT-4o(§3.3)

核心是把 biomech 数字 事先转化为人类可读的偏差描述,再喂给 LLM。LLM 只负责"把这些 fact 串成教练话术",不参与数值推理。

构造 prompt 上下文:每个 scalar 跟 REFERENCE_RANGES[stroke] 比对,产出形如 racket_velocity: LOW — 2.23 vs optimal 1.50–3.50 (≈25% below range) 的句子。
System 提示:"You are a precise, evidence-based tennis coach."
格式强约束:首行 Overall Score: X/10 → 2-3 句诊断 → 3 条编号 correction → 严格禁止编数字。
解码参数:temperature 0.2(尽量 deterministic)+ max_tokens 120(短而紧凑)。

优缺点

✓ 优点

全程可解释:LLM 反馈里每个数字都能追溯到 biomech 公式,不是"黑盒打分"。
LLM 受强约束:9 个 demo 实测 100% 格式合规、0% 编造数字。参考区间 hard-coded。
模块化:分类 / pose / biomech / LLM 四段都能独立替换(MediaPipe → SMPLer-X 不影响下游)。
轻量训练:EfficientNet-B0 + LSTM 在 8× A100 上 20 min 收敛。
部署友好:无 streaming / state 依赖,单 clip → 单反馈,适合手机端 demo。
对应教练直觉:rotation_range / impact_timing / kinetic_chain 这些指标是真实网球教学里在用的概念。

✗ 缺点 / 局限

THETIS 数据坑:公开版 VIDEO_Skelet3D 是渲染视频不是数值数据,论文未交代他们怎么拿的 (frames, joints, 3) 张量,任何复现都必须自补 pose estimator。
泛化弱:subject-disjoint 44.7% vs 论文 79.17%(论文 split 未公开,几乎确定是 clip-level random,会借"识人"特征蒙对类别)。
同 family 内细分硬伤:forehand 内三种 / service 内三种 RGB 输入下混淆严重,360 val 上误差几乎全集中在这里。
MediaPipe 是 2.5D:z 是相对深度而非真 3D,影响 trunk arctan2 / 关节角准确性。
REFERENCE_RANGES 是经验值:12×6 = 72 个区间靠手填,需文献校准才能给出权威诊断。
单位是归一化坐标系:MediaPipe x/y ∈ [0,1] → "racket_velocity" 是 1/秒,不能直接说 m/s。
无 rally 上下文:只看孤立 stroke,没有连续回合 / 战术 / 对手维度。
击球点检测脆弱:用 wrist 峰值加速度近似 — 没真正的 racket / ball detection,接触瞬间 ±2 帧误差常见。
LLM max_tok=120 会截断:第 3 条 correction 末尾常被砍,论文同设置忠实保留。
没有 video segment 输入:THETIS 已经预切好的 stroke clip — 实际训练视频需要先做 stroke 检测/切分,这一层 Talking Tennis 不覆盖。

提升路线图(按 ROI 排)

编号	方向	解决的局限	成本	预期收益	风险
T1	Stratified split 重训(对照论文 79%)	验证 44.7% vs 79% 差距是 split 而非实现	低 1 训练	val ≈ 75–80%,定性回答"我们 vs 论文"	低 — 已知会过拟合 train subject
T2	REFERENCE_RANGES 文献校准	诊断"方向对、数值不可信"	低 2 人天文献调研	LLM 反馈数值可信度跃升	低 — 文献量充足但需 stroke-specific
T3	替换 MediaPipe → 真 3D pose(SMPLer-X / 4D-Humans)	2.5D 关节角不准,trunk arctan2 易在侧视下失真	中 1-2 周集成	biomech 数值更接近真实 m/s · rad/s	中 — SMPLer-X 部署 + 速度
T4	本 viewer 集成 demo 录制(自传视频)	当前只能看预制 demo,无法自带 clip 试	低 3-5 天前端 + 后端	用户可上传训练视频即时拿反馈	低
T5	加 racket + ball detection(YOLOv8 自训)	击球点 ±2 帧误差;无真 ball trajectory	中 2-3 周	真 impact frame + ball speed/spin	中 — racket 反光 / ball 模糊检测难
T6	分类 backbone 升级(InternVideo-2 / VideoMAE)	同 family 内 RGB 混淆严重	中 1 周 finetune	val acc 预期 +10–15 pts	中 — pretrained ckpt 大 / 推理慢
T7	多视角融合(俯视 + 侧视双相机)	单视角 trunk 旋转难辨	高采集硬件 + 标定	biomech 全面 3D 化	高 — 数据采集成本
T8	跨 stroke 上下文(让 LLM 看历史 N stroke 给训练计划)	当前反馈孤立,无 progression	低 2-3 天 prompt + cache	反馈从"诊断单击"升级为"训练日记"	低
T9	真实物理量化(相机标定 + 人高估计)	当前 "m/s" 实为归一化单位	中 1 周	反馈中数字与商业仪表(Trackman / SwingVision)可对比	中 — 人高估计误差累积到速度
T10	stroke 检测 + 切分(rally 视频 → 孤立 stroke clip)	Talking Tennis 假设输入已经切好,现实视频不是	中 1-2 周	端到端 demo 能直接吃训练视频	中 — 边界标注模糊
T11	自采业余训练视频 + finetune	THETIS 全是 Kinect 摆拍,与真实训练场景域差	高多月采集	真实落地泛化	高 — 数据采集 + 标注成本

建议优先级:T1 → T2 → T4 → T3 → T8 → 其余。前 4 项 ROI 最高,2-3 周内能把"研究复现"升级为"可演示原型"。

参考

论文:Dashore et al., Talking Tennis: Language Feedback from 3D Biomechanical Action Recognition (arXiv 2510.03921, 2025-10)
数据集:THETIS · Gourgari et al. 2013 CVPR-W
baseline 对比:Hovad et al. 2024, "Classification of Tennis Actions Using Deep Learning" (arXiv:2402.02545) — SlowFast 73.96%(clip-level split)
本复现 milestone:tennis 数据集 viewer · 主 viewer(本仓库)