🎾 Tennis 数据集盘点 · 面向训练视频分析与教练建议

10 个 tennis / racket-sport 数据集 · 每张卡片含 paper 详情(作者 / 背景 / 方法 / 结果)+ ★ 教练适配度评估 · 最后更新 2026-05-25

总览(按教练适配度排序)

数据集 年份 / 出处 类别 规模 核心信号 教练适配
Talking Tennis arXiv 2025-10A · 端到端基于 THETIS 3D pose → biomech → LLM 反馈★★★★★
THETIS CVPR-W 2013 B · Stroke8374 clips · 55 人 · 12 类RGB + 深度 + 轮廓 + 3D 骨架★★★★
TennisExpert arXiv 2026-03A · 端到端200+ 场 · 471.9h · 40k rally专家级战术分析评论★★★
Tennis Player ActionsData in Brief 2024B · Stroke~2000 图 · 4 类 COCO 18-keypoint 姿态★★★
TenniSet DICTA 2017 C · 战术5 场 · 11 事件 + 11k caption事件时间戳 + 文字解说★★
TennisTV arXiv 2025-09C · 战术2527 QA · 8 任务 rally + stroke 层级 QA★★
TrackNet v1 AVSS 2019 D · 感知20844 帧 球检测 heatmap(98.5% F1)★★
TrackNetV4 ICASSP 2025 D · 感知多球 / 网羽通用 球检测 + motion attention★★
Tennis Court KeypointsHF dataset cardD · 感知8841 图 · 三种场地 14 球场关键点 → 单应★★
P2ANet (table tennis)TOMM 2024 E · 旁系2721 段 · 14 类稠密 乒乓 stroke 稠密标注

推荐流水线 — 训练视频 → 教练建议

把数据集按"系统组件"映射到一条 coaching pipeline。每一步括号里是该步骤的训练 / 评测数据来源。

  1. 球场标定 — 从视频估计球场单应矩阵,把所有球员/球轨迹归一到俯视图。  Tennis Court Keypoints (HF)
  2. 球追踪 — 高速小球 heatmap 检测,得到球的 (x,y,t) 轨迹 → 击球点、过网弧线、落点。  TrackNet v1 / TrackNetV4
  3. 球员姿态 — 每帧 2D/3D 关键点(肘 / 肩 / 髋 / 膝 / 踝),为 biomech 分析准备特征。  → 用 Tennis Player Actions 暖身 + 通用 pose 模型(MediaPipe / RTMPose / SMPLer-X)
  4. Stroke 识别 — 把姿态序列分为 12 类 stroke(正反手 + 发球 + smash + volley)。新手 / 专家差异也在这层。  THETIS(12 类 · 55 受试者 · 含 3D 骨架)
  5. Biomechanical features — 从 3D pose 算关节角、肢段速度、动力链、有效击球面 等。  Talking Tennis 的 CNN-LSTM 直接给了 reference 实现
  6. 语言反馈生成 — biomech 指标 + prompt → LLM 产出"你的肘部下垂 X 度,建议..."这类教练话术。  Talking Tennis pipeline
  7. 战术评测 / 高阶能力对照 — 评估系统在战术理解 / 长视频问答上的水平,做 ablation。  TennisExpert(VS GPT-5/Gemini/Claude)/ TennisTV

怎么选 — 按你的具体子目标对号入座

A · 端到端 "动作 → 教练反馈" 任务

直接对标你的最终目标:输入视频,输出可执行的训练建议或战术分析。目前只有 2 个 ~ 2 份工作真正聚焦在这条线上。

Talking Tennis pipeline
3D 姿态重建 + 语言反馈示例 · arXiv:2510.03921

Talking Tennis

arXiv 2025-10 A · 端到端
Arushi Dashore, Aryan Anumala, et al.
类型
方法论文 + pipeline(无新数据,基于 THETIS)
模态
RGB → 3D pose → 生物力学特征 → 自然语言反馈
Title Talking Tennis: Language Feedback from 3D Biomechanical Action Recognition
Background 已有 tennis stroke 分析器只输出类别 / 分数,没把生物力学洞察翻译成可操作的语言。本文用 biomech → LLM 闭环填补这个缺口。
Method CNN-LSTM 抽取 biomech 特征(关节角、肢段速度、动力链、有效击球面)→ 评分 stroke 效率 + 伤病风险 → LLM prompt 生成自然语言教练反馈。
Result qualitative —— 反馈被评为"技术准确、生物力学有据、可操作";未提供标准化基准评分(coaching 类工作目前都是这样)。
★★★★★ 你的目标的 reference 实现。整个流水线就是"教练助手": 3D pose → biomech feat → LLM feedback。唯一短板是基于 THETIS 的孤立动作(没有 rally / 比赛上下文),需要自己扩展到长视频。
TennisExpert figure
基于 MLLM + memory 的 rally 分析 / 战术评论 · arXiv:2603.13397

TennisExpert

arXiv 2026-03 A · 端到端
Zhaoyu Liu, Xi Weng, et al.
数据
200+ 场职业比赛 · ~471.9 小时 · 40000+ rally clip · 配专家解说
任务
战术理解 / 比赛动态捕捉 / 长视频 QA
Title TennisExpert: Towards Expert-Level Analytical Sports Video Understanding
Background 网球缺乏"细粒度标注 + 专家解说"的大规模数据,使得真正分析级的系统难以训练。本文同时提供数据集和可部署系统。
Method 视频语义解析器(分数 / 击球 / 落点 / 球员位置)+ Qwen3-VL-8B + 短期 / 长期分层 memory 模块。
Result 战术理解和比赛动态评测上 持续超越 GPT-5 / Gemini / Claude(论文 claim)。
★★★ 最接近"专家解说语言"的素材库,适合给系统补战术 / 比赛策略层。但全部是职业比赛广播视角,没有 biomech 或业余训练数据 —— 教练建议会偏"战术 narration"而非"技术纠错"。

B · Stroke 识别与姿态(训练用监督信号)

"动作 → 教练反馈"流水线第 3-4 步的数据基础:细粒度 stroke 分类 + per-frame 姿态。THETIS 是金标,Tennis Player Actions 是业余视频补充。

🎾

THETIS
论文 / 数据集主页 teaser 图未抓到。
Semantic Scholar 论文 Figure 1。
Kinect 受控环境录制 12 类 stroke,55 受试者(31 新手 + 24 专家)。

THETIS · 3D Tennis Shots

CVPR Workshops 2013 B · Stroke
S. Gourgari, G. Goudelis, K. Karpouzis, S. Kollias
规模
8374 个 Kinect clip · 55 受试者 · 12 类 stroke
分类
3 反手 / 4 正手 / 3 发球 / smash / volley
分组
31 新手 + 24 专家(可做技能分级实验)
模态
RGB + 深度图 + 2D 轮廓 + 3D 骨架关节(四流)
Title THETIS: Three Dimensional Tennis Shots a Human Action Dataset
Background 2013 年左右,sport-specific 的大规模 3D action 数据集稀缺,缺少消费级深度传感器(Kinect)的对应资源。THETIS 提供受控的 tennis-shot 3D 语料。
Method 基线分类实验跑在多模态 Kinect 流上(RGB / depth / skeleton),不同特征单独评测。
Result 主贡献是数据集本身;后续工作(SlowFast / CNN-LSTM)在 THETIS 上达 ~79% 准确率。
★★★★ biomech / pose 教练系统的事实标准。12 类干净标签 + 多模态 + 新手 / 专家对照,直接服务于"技术纠错"用例。短板:只有孤立击球片段,不能做 rally / 比赛级分析。
Kaggle Tennis Player Actions
球员单帧 + 18 keypoint OpenPose 骨架叠加 · Kaggle

Tennis Player Actions Dataset

Data in Brief 2024 B · Stroke
Chun-Yi Wang, Kalin Guanlun Lai, Hsu-Chun Huang, Wei-Ting Lin
规模
~2000 帧(图像)· 4 类
分类
forehand / backhand / serve / ready position
标注
COCO 18-keypoint(OpenPose 体系)
大小
~508 MB
Title Tennis player actions dataset for human pose estimation
Background tennis 姿态估计研究缺少"按动作 phase 标注"的训练帧,作者发布一个针对 OpenPose 风格关键点训练的小集。
Method 用作训练 OpenPose 风格关键点检测器的目标数据。
Result 数据论文,无 formal benchmark。
★★★ 姿态关键点直接绑定到 stroke phase,是pose-based 技术提示的直接路径。但样本是业余视频静态图(不是视频),不能做时序质量评估,只能作为 pose encoder 的 warm-up 训练。

C · 比赛理解与战术评测(系统的"战术层"信号)

广播比赛视频 + 事件 / QA 标注。用作系统的战术评测台(以及"LLM 是否真懂网球"的能力对照),而非训练监督源 —— 全部是职业比赛,没有 biomech / 业余训练。

TenniSet sample
每帧叠加事件标签(hit / bounce / serve)的转播片段动图 · HaydenFaulkner/Tennis

TenniSet

DICTA 2017 C · 战术
Hayden Faulkner, Anthony Dick
规模
5 场完整比赛(2012 伦敦奥运)
事件
11 类(发球各种 / 击球各种 / 回合结果)+ 稠密时间区间
文本
746 个 point-aligned caption + 10817 个细粒度 caption(250 词词表)
划分
V010 held-out / 混合 两种 split
Title TenniSet: A Dataset for Dense Fine-Grained Event Recognition, Localisation and Description
Background 体育视频理解缺乏"时间事件标注 + 自然语言描述"双标注的数据集。本文用 tennis 转播做闭合验证。
Method CNN-RNN 做事件检测 + seq2seq(MXNet/Gluon)做解说生成 + SkipGram 词向量。
Result per-class F1(事件)+ BLEU/METEOR/CIDEr(解说)报告,无单一 headline 数;主要是定性 commentary 输出。
★★ 事件级时间戳和解说能给系统提供"段切分 + 战术叙述"语料;无 biomech / pose / 训练场景,做技术纠错帮不上忙。
TennisTV teaser
rally / stroke 层级标注示例 · arXiv:2509.15602

TennisTV

arXiv 2025-09 C · 战术
Zhongyuan Bao, Lejun Zhang
规模
2527 人工校验 QA · 8 类任务
层级
rally = 连续 stroke 时序序列(stroke → rally 两层)
评测
17 个 MLLM(Gemini / GPT-4o / Qwen2-VL / InternVL 等)
Title TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?
Background 通用 MLLM 处理一般视频不错,但面对快节奏 / 信息密集的网球 rally 普遍翻车。本基准专门压测 MLLM 的网球理解。
Method 自动化筛选 + QA 生成流水线 + 17 MLLM 评测 harness。
Result 两个洞察:帧采样密度要按任务定制(跟 motionclip E1E 工作呼应);时序定位是更强 rally 推理的主要瓶颈
★★ 用作系统的MLLM 评测对照(你的教练 LLM 在 TennisTV 上能拿多少分?),不是训练源。同样无 biomech / 训练场景。

D · 感知组件(球 / 球场)

不是 action 数据,是流水线第 1-2 步的"基础设施":球检测 + 球场单应。任何"球速 / 球路 / 落点 / 击球区"指标都依赖这两层。

TrackNet v1 demo
球检测 demo 帧(原始 TrackNet 论文 Figure)· arXiv:1907.03698

TrackNet v1

AVSS 2019 D · 感知
Yu-Chuan Huang, I-No Liao, et al.
规模
20844 帧 · 2017 Summer Universiade 男单决赛(主)+ 9 段补充
标注
每帧球中心坐标(用作 heatmap regression GT)
分辨率
640×360 广播
Title TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications
Background 球轨迹是战术分析的核心,但现有 tracker 处理不了网球(小 / 快 / 模糊 / 偶尔不可见)。
Method heatmap 输出的 CNN,同时学单帧外观和连续帧的飞行模式。
Result Universiade 测试: 99.7% precision / 97.3% recall / 98.5% F1;10-fold CV: 95.3 / 75.7 / 84.3。
★★ 球轨迹是感知组件,不直接给教练建议,但击球速度 / 落点 / 过网弧线这些指标都从它出来,是不可或缺的 building block。
TrackNet V4
单打比赛球轨迹追踪 demo · Griffith TIME Lab

TrackNetV4

ICASSP 2025 D · 感知
Arjun Raj, Lei Wang, Tom Gedeon
规模
新 multi-ball 集(扩展 V2/V3)· 网球 + 羽毛球
难点
多球同框 / 球与场地同色 / 夜间 / 不同分辨率
兼容
可插到 V2 / V3 backbone 上
Title TrackNetV4: Enhancing Fast Sports Object Tracking with Motion Attention Maps
Background 前代 TrackNet 仅靠视觉特征,运动模糊 / 遮挡 / 视觉杂波下性能下降。本文加显式运动线索 + 更难的多球数据集。
Method Motion attention 模块:用帧差分驱动一个 prompt 层,跟视觉特征融合;即插即用。
Result 在网球和羽毛球两项追踪 benchmark 上均超过 TrackNetV2 / V3 baseline。
★★ v1 的鲁棒升级版。业余 / 训练场景视频(场地杂、光线不一)用 V4 比 v1 稳。
Tennis Court Keypoints
转播视角下 14 个球场关键点标注 · Hugging Face

Tennis Court Keypoints

HF dataset card · MIT D · 感知
Gholamreza(转自 yastrebksv/TennisCourtDetector)
规模
8841 张 1280×720 图 · 75/25 train/val
场地
硬地 / 红土 / 草地 三类
标注
每图 14 个球场关键点(角点 / 发球线 / 中线交点)
Title (无正式论文,HF dataset card)
Background 球场标定是把"球员 / 球坐标"映射到真实球场的前置条件。
Method 数据卡只提供训练集;典型用法是训一个 keypoint regressor(U-Net heatmap / HRNet)。
Result 无 formal benchmark。
★★ 空间维度的地基。球员站位 / 击球区 / 落点都依赖把视频坐标归一到俯视球场。三种场地覆盖,泛化够用。

E · Racket sport 旁系参考

不是 tennis,但同生态。仅作方法论参考,不直接用于 tennis 教练系统。

P2ANet dense annotation
乒乓球转播视频的稠密 stroke 标注时间轴 · arXiv:2207.12730

P2ANet · table tennis

TOMM 2024 E · Racket peer
Jiang Bian, Xuhong Li, et al.
规模
2721 段广播视频(世锦赛 / 奥运会)· 25 FPS
标注
14 类细粒度 stroke(职业球员 + 裁判标注)
任务
动作定位 + 识别
Title P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos
Background low-FPS 广播视频上的快速密集动作检测是现代视频模型的压力测试。本文用 table tennis 做闭合基准。
Method TSM / TSN / Video Swin / SlowFast(识别)+ BSN / BSN++ / BMN / TCANet(定位)四对四评测。
Result 定位 best AR-AN AUC ~48% · 识别 best top-1 ~82% — 论文自承"硬基准"。
不是 tennis 而是 table tennis;仅作方法论参考(racket sport 稠密动作检测的最大基准)。不建议直接用于 tennis 教练系统。

使用说明

本页面是静态 HTML,直接用项目 viewer 起服务即可:

cd /data01/workspace_leixu/motionclip
python scripts/serve_viewer.py --root docs/reports/assets/2026-05-25-tennis-datasets-overview --port 8089
# 浏览器打开 http://<host>:8089/

所有图像均为论文 / 数据集主页公开素材,出处见图注。点击图片可放大查看。