🎾 Tennis 数据集盘点 · 面向训练视频分析与教练建议
10 个 tennis / racket-sport 数据集 · 每张卡片含 paper 详情(作者 / 背景 / 方法 / 结果)+ ★ 教练适配度评估 ·
最后更新 2026-05-25
总览(按教练适配度排序)
| 数据集 |
年份 / 出处 |
类别 |
规模 |
核心信号 |
教练适配 |
| Talking Tennis | arXiv 2025-10 | A · 端到端 | 基于 THETIS | 3D pose → biomech → LLM 反馈 | ★★★★★ |
| THETIS | CVPR-W 2013 | B · Stroke | 8374 clips · 55 人 · 12 类 | RGB + 深度 + 轮廓 + 3D 骨架 | ★★★★ |
| TennisExpert | arXiv 2026-03 | A · 端到端 | 200+ 场 · 471.9h · 40k rally | 专家级战术分析评论 | ★★★ |
| Tennis Player Actions | Data in Brief 2024 | B · Stroke | ~2000 图 · 4 类 | COCO 18-keypoint 姿态 | ★★★ |
| TenniSet | DICTA 2017 | C · 战术 | 5 场 · 11 事件 + 11k caption | 事件时间戳 + 文字解说 | ★★ |
| TennisTV | arXiv 2025-09 | C · 战术 | 2527 QA · 8 任务 | rally + stroke 层级 QA | ★★ |
| TrackNet v1 | AVSS 2019 | D · 感知 | 20844 帧 | 球检测 heatmap(98.5% F1) | ★★ |
| TrackNetV4 | ICASSP 2025 | D · 感知 | 多球 / 网羽通用 | 球检测 + motion attention | ★★ |
| Tennis Court Keypoints | HF dataset card | D · 感知 | 8841 图 · 三种场地 | 14 球场关键点 → 单应 | ★★ |
| P2ANet (table tennis) | TOMM 2024 | E · 旁系 | 2721 段 · 14 类稠密 | 乒乓 stroke 稠密标注 | ★ |
推荐流水线 — 训练视频 → 教练建议
把数据集按"系统组件"映射到一条 coaching pipeline。每一步括号里是该步骤的训练 / 评测数据来源。
- 球场标定 — 从视频估计球场单应矩阵,把所有球员/球轨迹归一到俯视图。
→ Tennis Court Keypoints (HF)
- 球追踪 — 高速小球 heatmap 检测,得到球的 (x,y,t) 轨迹 → 击球点、过网弧线、落点。
→ TrackNet v1 / TrackNetV4
- 球员姿态 — 每帧 2D/3D 关键点(肘 / 肩 / 髋 / 膝 / 踝),为 biomech 分析准备特征。
→ 用 Tennis Player Actions 暖身 + 通用 pose 模型(MediaPipe / RTMPose / SMPLer-X)
- Stroke 识别 — 把姿态序列分为 12 类 stroke(正反手 + 发球 + smash + volley)。新手 / 专家差异也在这层。
→ THETIS(12 类 · 55 受试者 · 含 3D 骨架)
- Biomechanical features — 从 3D pose 算关节角、肢段速度、动力链、有效击球面 等。
→ Talking Tennis 的 CNN-LSTM 直接给了 reference 实现
- 语言反馈生成 — biomech 指标 + prompt → LLM 产出"你的肘部下垂 X 度,建议..."这类教练话术。
→ Talking Tennis pipeline
- 战术评测 / 高阶能力对照 — 评估系统在战术理解 / 长视频问答上的水平,做 ablation。
→ TennisExpert(VS GPT-5/Gemini/Claude)/ TennisTV
怎么选 — 按你的具体子目标对号入座
A · 端到端 "动作 → 教练反馈" 任务
直接对标你的最终目标:输入视频,输出可执行的训练建议或战术分析。目前只有 2 个 ~ 2 份工作真正聚焦在这条线上。
Talking Tennis
arXiv 2025-10
A · 端到端
Arushi Dashore, Aryan Anumala, et al.
- 类型
- 方法论文 + pipeline(无新数据,基于 THETIS)
- 模态
- RGB → 3D pose → 生物力学特征 → 自然语言反馈
Title Talking Tennis: Language Feedback from 3D Biomechanical Action Recognition
Background 已有 tennis stroke 分析器只输出类别 / 分数,没把生物力学洞察翻译成可操作的语言。本文用 biomech → LLM 闭环填补这个缺口。
Method CNN-LSTM 抽取 biomech 特征(关节角、肢段速度、动力链、有效击球面)→ 评分 stroke 效率 + 伤病风险 → LLM prompt 生成自然语言教练反馈。
Result qualitative —— 反馈被评为"技术准确、生物力学有据、可操作";未提供标准化基准评分(coaching 类工作目前都是这样)。
★★★★★
你的目标的 reference 实现。整个流水线就是"教练助手": 3D pose → biomech feat → LLM feedback。唯一短板是基于 THETIS 的孤立动作(没有 rally / 比赛上下文),需要自己扩展到长视频。
TennisExpert
arXiv 2026-03
A · 端到端
Zhaoyu Liu, Xi Weng, et al.
- 数据
- 200+ 场职业比赛 · ~471.9 小时 · 40000+ rally clip · 配专家解说
- 任务
- 战术理解 / 比赛动态捕捉 / 长视频 QA
Title TennisExpert: Towards Expert-Level Analytical Sports Video Understanding
Background 网球缺乏"细粒度标注 + 专家解说"的大规模数据,使得真正分析级的系统难以训练。本文同时提供数据集和可部署系统。
Method 视频语义解析器(分数 / 击球 / 落点 / 球员位置)+ Qwen3-VL-8B + 短期 / 长期分层 memory 模块。
Result 战术理解和比赛动态评测上 持续超越 GPT-5 / Gemini / Claude(论文 claim)。
★★★
最接近"专家解说语言"的素材库,适合给系统补战术 / 比赛策略层。但全部是职业比赛广播视角,没有 biomech 或业余训练数据 —— 教练建议会偏"战术 narration"而非"技术纠错"。
B · Stroke 识别与姿态(训练用监督信号)
"动作 → 教练反馈"流水线第 3-4 步的数据基础:细粒度 stroke 分类 + per-frame 姿态。THETIS 是金标,Tennis Player Actions 是业余视频补充。
Kinect 受控环境录制 12 类 stroke,55 受试者(31 新手 + 24 专家)。
THETIS · 3D Tennis Shots
CVPR Workshops 2013
B · Stroke
S. Gourgari, G. Goudelis, K. Karpouzis, S. Kollias
- 规模
- 8374 个 Kinect clip · 55 受试者 · 12 类 stroke
- 分类
- 3 反手 / 4 正手 / 3 发球 / smash / volley
- 分组
- 31 新手 + 24 专家(可做技能分级实验)
- 模态
- RGB + 深度图 + 2D 轮廓 + 3D 骨架关节(四流)
Title THETIS: Three Dimensional Tennis Shots a Human Action Dataset
Background 2013 年左右,sport-specific 的大规模 3D action 数据集稀缺,缺少消费级深度传感器(Kinect)的对应资源。THETIS 提供受控的 tennis-shot 3D 语料。
Method 基线分类实验跑在多模态 Kinect 流上(RGB / depth / skeleton),不同特征单独评测。
Result 主贡献是数据集本身;后续工作(SlowFast / CNN-LSTM)在 THETIS 上达 ~79% 准确率。
★★★★
biomech / pose 教练系统的事实标准。12 类干净标签 + 多模态 + 新手 / 专家对照,直接服务于"技术纠错"用例。短板:只有孤立击球片段,不能做 rally / 比赛级分析。
球员单帧 + 18 keypoint OpenPose 骨架叠加 ·
Kaggle
Tennis Player Actions Dataset
Data in Brief 2024
B · Stroke
Chun-Yi Wang, Kalin Guanlun Lai, Hsu-Chun Huang, Wei-Ting Lin
- 规模
- ~2000 帧(图像)· 4 类
- 分类
- forehand / backhand / serve / ready position
- 标注
- COCO 18-keypoint(OpenPose 体系)
- 大小
- ~508 MB
Title Tennis player actions dataset for human pose estimation
Background tennis 姿态估计研究缺少"按动作 phase 标注"的训练帧,作者发布一个针对 OpenPose 风格关键点训练的小集。
Method 用作训练 OpenPose 风格关键点检测器的目标数据。
Result 数据论文,无 formal benchmark。
★★★
姿态关键点直接绑定到 stroke phase,是pose-based 技术提示的直接路径。但样本是业余视频静态图(不是视频),不能做时序质量评估,只能作为 pose encoder 的 warm-up 训练。
C · 比赛理解与战术评测(系统的"战术层"信号)
广播比赛视频 + 事件 / QA 标注。用作系统的战术评测台(以及"LLM 是否真懂网球"的能力对照),而非训练监督源 —— 全部是职业比赛,没有 biomech / 业余训练。
TenniSet
DICTA 2017
C · 战术
Hayden Faulkner, Anthony Dick
- 规模
- 5 场完整比赛(2012 伦敦奥运)
- 事件
- 11 类(发球各种 / 击球各种 / 回合结果)+ 稠密时间区间
- 文本
- 746 个 point-aligned caption + 10817 个细粒度 caption(250 词词表)
- 划分
- V010 held-out / 混合 两种 split
Title TenniSet: A Dataset for Dense Fine-Grained Event Recognition, Localisation and Description
Background 体育视频理解缺乏"时间事件标注 + 自然语言描述"双标注的数据集。本文用 tennis 转播做闭合验证。
Method CNN-RNN 做事件检测 + seq2seq(MXNet/Gluon)做解说生成 + SkipGram 词向量。
Result per-class F1(事件)+ BLEU/METEOR/CIDEr(解说)报告,无单一 headline 数;主要是定性 commentary 输出。
★★
事件级时间戳和解说能给系统提供"段切分 + 战术叙述"语料;无 biomech / pose / 训练场景,做技术纠错帮不上忙。
TennisTV
arXiv 2025-09
C · 战术
Zhongyuan Bao, Lejun Zhang
- 规模
- 2527 人工校验 QA · 8 类任务
- 层级
- rally = 连续 stroke 时序序列(stroke → rally 两层)
- 评测
- 17 个 MLLM(Gemini / GPT-4o / Qwen2-VL / InternVL 等)
Title TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?
Background 通用 MLLM 处理一般视频不错,但面对快节奏 / 信息密集的网球 rally 普遍翻车。本基准专门压测 MLLM 的网球理解。
Method 自动化筛选 + QA 生成流水线 + 17 MLLM 评测 harness。
Result 两个洞察:帧采样密度要按任务定制(跟 motionclip E1E 工作呼应);时序定位是更强 rally 推理的主要瓶颈。
★★
用作系统的MLLM 评测对照(你的教练 LLM 在 TennisTV 上能拿多少分?),不是训练源。同样无 biomech / 训练场景。
D · 感知组件(球 / 球场)
不是 action 数据,是流水线第 1-2 步的"基础设施":球检测 + 球场单应。任何"球速 / 球路 / 落点 / 击球区"指标都依赖这两层。
TrackNet v1
AVSS 2019
D · 感知
Yu-Chuan Huang, I-No Liao, et al.
- 规模
- 20844 帧 · 2017 Summer Universiade 男单决赛(主)+ 9 段补充
- 标注
- 每帧球中心坐标(用作 heatmap regression GT)
- 分辨率
- 640×360 广播
Title TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications
Background 球轨迹是战术分析的核心,但现有 tracker 处理不了网球(小 / 快 / 模糊 / 偶尔不可见)。
Method heatmap 输出的 CNN,同时学单帧外观和连续帧的飞行模式。
Result Universiade 测试: 99.7% precision / 97.3% recall / 98.5% F1;10-fold CV: 95.3 / 75.7 / 84.3。
★★
球轨迹是感知组件,不直接给教练建议,但击球速度 / 落点 / 过网弧线这些指标都从它出来,是不可或缺的 building block。
TrackNetV4
ICASSP 2025
D · 感知
Arjun Raj, Lei Wang, Tom Gedeon
- 规模
- 新 multi-ball 集(扩展 V2/V3)· 网球 + 羽毛球
- 难点
- 多球同框 / 球与场地同色 / 夜间 / 不同分辨率
- 兼容
- 可插到 V2 / V3 backbone 上
Title TrackNetV4: Enhancing Fast Sports Object Tracking with Motion Attention Maps
Background 前代 TrackNet 仅靠视觉特征,运动模糊 / 遮挡 / 视觉杂波下性能下降。本文加显式运动线索 + 更难的多球数据集。
Method Motion attention 模块:用帧差分驱动一个 prompt 层,跟视觉特征融合;即插即用。
Result 在网球和羽毛球两项追踪 benchmark 上均超过 TrackNetV2 / V3 baseline。
★★
v1 的鲁棒升级版。业余 / 训练场景视频(场地杂、光线不一)用 V4 比 v1 稳。
Tennis Court Keypoints
HF dataset card · MIT
D · 感知
Gholamreza(转自 yastrebksv/TennisCourtDetector)
- 规模
- 8841 张 1280×720 图 · 75/25 train/val
- 场地
- 硬地 / 红土 / 草地 三类
- 标注
- 每图 14 个球场关键点(角点 / 发球线 / 中线交点)
Title (无正式论文,HF dataset card)
Background 球场标定是把"球员 / 球坐标"映射到真实球场的前置条件。
Method 数据卡只提供训练集;典型用法是训一个 keypoint regressor(U-Net heatmap / HRNet)。
Result 无 formal benchmark。
★★
空间维度的地基。球员站位 / 击球区 / 落点都依赖把视频坐标归一到俯视球场。三种场地覆盖,泛化够用。
E · Racket sport 旁系参考
不是 tennis,但同生态。仅作方法论参考,不直接用于 tennis 教练系统。
P2ANet · table tennis
TOMM 2024
E · Racket peer
Jiang Bian, Xuhong Li, et al.
- 规模
- 2721 段广播视频(世锦赛 / 奥运会)· 25 FPS
- 标注
- 14 类细粒度 stroke(职业球员 + 裁判标注)
- 任务
- 动作定位 + 识别
Title P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos
Background low-FPS 广播视频上的快速密集动作检测是现代视频模型的压力测试。本文用 table tennis 做闭合基准。
Method TSM / TSN / Video Swin / SlowFast(识别)+ BSN / BSN++ / BMN / TCANet(定位)四对四评测。
Result 定位 best AR-AN AUC ~48% · 识别 best top-1 ~82% — 论文自承"硬基准"。
★
不是 tennis 而是 table tennis;仅作方法论参考(racket sport 稠密动作检测的最大基准)。不建议直接用于 tennis 教练系统。
使用说明
本页面是静态 HTML,直接用项目 viewer 起服务即可:
cd /data01/workspace_leixu/motionclip
python scripts/serve_viewer.py --root docs/reports/assets/2026-05-25-tennis-datasets-overview --port 8089
# 浏览器打开 http://<host>:8089/
所有图像均为论文 / 数据集主页公开素材,出处见图注。点击图片可放大查看。