🎾 Tennis 数据集盘点 · 面向训练视频分析与教练建议

10 个 tennis / racket-sport 数据集 · 每张卡片含 paper 详情(作者 / 背景 / 方法 / 结果)+ ★ 教练适配度评估 · 最后更新 2026-05-25

总览(按教练适配度排序)

数据集	年份 / 出处	类别	规模	核心信号	教练适配
Talking Tennis	arXiv 2025-10	A · 端到端	基于 THETIS	3D pose → biomech → LLM 反馈	★★★★★
THETIS	CVPR-W 2013	B · Stroke	8374 clips · 55 人 · 12 类	RGB + 深度 + 轮廓 + 3D 骨架	★★★★
TennisExpert	arXiv 2026-03	A · 端到端	200+ 场 · 471.9h · 40k rally	专家级战术分析评论	★★★
Tennis Player Actions	Data in Brief 2024	B · Stroke	~2000 图 · 4 类	COCO 18-keypoint 姿态	★★★
TenniSet	DICTA 2017	C · 战术	5 场 · 11 事件 + 11k caption	事件时间戳 + 文字解说	★★
TennisTV	arXiv 2025-09	C · 战术	2527 QA · 8 任务	rally + stroke 层级 QA	★★
TrackNet v1	AVSS 2019	D · 感知	20844 帧	球检测 heatmap(98.5% F1)	★★
TrackNetV4	ICASSP 2025	D · 感知	多球 / 网羽通用	球检测 + motion attention	★★
Tennis Court Keypoints	HF dataset card	D · 感知	8841 图 · 三种场地	14 球场关键点 → 单应	★★
P2ANet (table tennis)	TOMM 2024	E · 旁系	2721 段 · 14 类稠密	乒乓 stroke 稠密标注	★

怎么选 — 按你的具体子目标对号入座

想直接复现"动作 → 教练反馈"端到端 demo: 跑 Talking Tennis 论文方案(基于 THETIS)
想要稳定的细粒度 stroke 监督信号(含新手 / 专家分组): THETIS(12 类 · 31 新手 + 24 专家)
训练场景视频(不是比赛转播): Tennis Player Actions 是少数业余视频源,可补 THETIS 域外
想给系统加"战术 / 比赛策略"维度: TennisExpert(40k rally + 专家解说)
评测 LLM 教练是否真懂网球: TennisTV(17 个 MLLM 已评)
球速 / 球路 / 落点等比赛指标: TrackNet v1(或 V4 升级)+ Court Keypoints
事件级时间戳(serve / hit / set / fault)用于段切分: TenniSet

A · 端到端 "动作 → 教练反馈" 任务

直接对标你的最终目标:输入视频,输出可执行的训练建议或战术分析。目前只有 2 个 ~ 2 份工作真正聚焦在这条线上。

3D 姿态重建 + 语言反馈示例 · arXiv:2510.03921

Talking Tennis

arXiv 2025-10 A · 端到端

Arushi Dashore, Aryan Anumala, et al.

类型: 方法论文 + pipeline(无新数据,基于 THETIS)
模态: RGB → 3D pose → 生物力学特征 → 自然语言反馈

Title Talking Tennis: Language Feedback from 3D Biomechanical Action Recognition

Background 已有 tennis stroke 分析器只输出类别 / 分数,没把生物力学洞察翻译成可操作的语言。本文用 biomech → LLM 闭环填补这个缺口。

Method CNN-LSTM 抽取 biomech 特征(关节角、肢段速度、动力链、有效击球面)→ 评分 stroke 效率 + 伤病风险 → LLM prompt 生成自然语言教练反馈。

Result qualitative —— 反馈被评为"技术准确、生物力学有据、可操作";未提供标准化基准评分(coaching 类工作目前都是这样)。

★★★★★ 你的目标的 reference 实现。整个流水线就是"教练助手": 3D pose → biomech feat → LLM feedback。唯一短板是基于 THETIS 的孤立动作(没有 rally / 比赛上下文),需要自己扩展到长视频。

arXiv abs PDF

基于 MLLM + memory 的 rally 分析 / 战术评论 · arXiv:2603.13397

TennisExpert

arXiv 2026-03 A · 端到端

Zhaoyu Liu, Xi Weng, et al.

数据: 200+ 场职业比赛 · ~471.9 小时 · 40000+ rally clip · 配专家解说
任务: 战术理解 / 比赛动态捕捉 / 长视频 QA

Title TennisExpert: Towards Expert-Level Analytical Sports Video Understanding

Background 网球缺乏"细粒度标注 + 专家解说"的大规模数据,使得真正分析级的系统难以训练。本文同时提供数据集和可部署系统。

Method 视频语义解析器(分数 / 击球 / 落点 / 球员位置)+ Qwen3-VL-8B + 短期 / 长期分层 memory 模块。

Result 战术理解和比赛动态评测上 持续超越 GPT-5 / Gemini / Claude(论文 claim)。

★★★ 最接近"专家解说语言"的素材库,适合给系统补战术 / 比赛策略层。但全部是职业比赛广播视角,没有 biomech 或业余训练数据 —— 教练建议会偏"战术 narration"而非"技术纠错"。

arXiv abs arXiv HTML

B · Stroke 识别与姿态(训练用监督信号)

"动作 → 教练反馈"流水线第 3-4 步的数据基础:细粒度 stroke 分类 + per-frame 姿态。THETIS 是金标,Tennis Player Actions 是业余视频补充。

🎾

THETIS
论文 / 数据集主页 teaser 图未抓到。
见 Semantic Scholar 论文 Figure 1。

Kinect 受控环境录制 12 类 stroke,55 受试者(31 新手 + 24 专家)。

THETIS · 3D Tennis Shots

CVPR Workshops 2013 B · Stroke

S. Gourgari, G. Goudelis, K. Karpouzis, S. Kollias

规模: 8374 个 Kinect clip · 55 受试者 · 12 类 stroke
分类: 3 反手 / 4 正手 / 3 发球 / smash / volley
分组: 31 新手 + 24 专家(可做技能分级实验)
模态: RGB + 深度图 + 2D 轮廓 + 3D 骨架关节(四流)

Title THETIS: Three Dimensional Tennis Shots a Human Action Dataset

Background 2013 年左右,sport-specific 的大规模 3D action 数据集稀缺,缺少消费级深度传感器(Kinect)的对应资源。THETIS 提供受控的 tennis-shot 3D 语料。

Method 基线分类实验跑在多模态 Kinect 流上(RGB / depth / skeleton),不同特征单独评测。

Result 主贡献是数据集本身;后续工作(SlowFast / CNN-LSTM)在 THETIS 上达 ~79% 准确率。

★★★★ biomech / pose 教练系统的事实标准。12 类干净标签 + 多模态 + 新手 / 专家对照,直接服务于"技术纠错"用例。短板:只有孤立击球片段,不能做 rally / 比赛级分析。

Semantic Scholar ResearchGate

球员单帧 + 18 keypoint OpenPose 骨架叠加 · Kaggle

Tennis Player Actions Dataset

Data in Brief 2024 B · Stroke

Chun-Yi Wang, Kalin Guanlun Lai, Hsu-Chun Huang, Wei-Ting Lin

规模: ~2000 帧(图像)· 4 类
分类: forehand / backhand / serve / ready position
标注: COCO 18-keypoint(OpenPose 体系)
大小: ~508 MB

Title Tennis player actions dataset for human pose estimation

Background tennis 姿态估计研究缺少"按动作 phase 标注"的训练帧,作者发布一个针对 OpenPose 风格关键点训练的小集。

Method 用作训练 OpenPose 风格关键点检测器的目标数据。

Result 数据论文,无 formal benchmark。

★★★ 姿态关键点直接绑定到 stroke phase,是pose-based 技术提示的直接路径。但样本是业余视频静态图(不是视频),不能做时序质量评估,只能作为 pose encoder 的 warm-up 训练。

Kaggle Data in Brief 论文 PubMed

C · 比赛理解与战术评测(系统的"战术层"信号)

广播比赛视频 + 事件 / QA 标注。用作系统的战术评测台(以及"LLM 是否真懂网球"的能力对照),而非训练监督源 —— 全部是职业比赛,没有 biomech / 业余训练。

每帧叠加事件标签(hit / bounce / serve)的转播片段动图 · HaydenFaulkner/Tennis

TenniSet

DICTA 2017 C · 战术

Hayden Faulkner, Anthony Dick

规模: 5 场完整比赛(2012 伦敦奥运)
事件: 11 类(发球各种 / 击球各种 / 回合结果)+ 稠密时间区间
文本: 746 个 point-aligned caption + 10817 个细粒度 caption(250 词词表)
划分: V010 held-out / 混合两种 split

Title TenniSet: A Dataset for Dense Fine-Grained Event Recognition, Localisation and Description

Background 体育视频理解缺乏"时间事件标注 + 自然语言描述"双标注的数据集。本文用 tennis 转播做闭合验证。

Method CNN-RNN 做事件检测 + seq2seq(MXNet/Gluon)做解说生成 + SkipGram 词向量。

Result per-class F1(事件)+ BLEU/METEOR/CIDEr(解说)报告,无单一 headline 数;主要是定性 commentary 输出。

★★ 事件级时间戳和解说能给系统提供"段切分 + 战术叙述"语料;无 biomech / pose / 训练场景,做技术纠错帮不上忙。

GitHub Paper

rally / stroke 层级标注示例 · arXiv:2509.15602

TennisTV

arXiv 2025-09 C · 战术

Zhongyuan Bao, Lejun Zhang

规模: 2527 人工校验 QA · 8 类任务
层级: rally = 连续 stroke 时序序列(stroke → rally 两层)
评测: 17 个 MLLM(Gemini / GPT-4o / Qwen2-VL / InternVL 等)

Title TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?

Background 通用 MLLM 处理一般视频不错,但面对快节奏 / 信息密集的网球 rally 普遍翻车。本基准专门压测 MLLM 的网球理解。

Method 自动化筛选 + QA 生成流水线 + 17 MLLM 评测 harness。

Result 两个洞察:帧采样密度要按任务定制(跟 motionclip E1E 工作呼应);时序定位是更强 rally 推理的主要瓶颈。

★★ 用作系统的MLLM 评测对照(你的教练 LLM 在 TennisTV 上能拿多少分?),不是训练源。同样无 biomech / 训练场景。

arXiv abs arXiv HTML

D · 感知组件(球 / 球场)

不是 action 数据,是流水线第 1-2 步的"基础设施":球检测 + 球场单应。任何"球速 / 球路 / 落点 / 击球区"指标都依赖这两层。

球检测 demo 帧(原始 TrackNet 论文 Figure)· arXiv:1907.03698

TrackNet v1

AVSS 2019 D · 感知

Yu-Chuan Huang, I-No Liao, et al.

规模: 20844 帧 · 2017 Summer Universiade 男单决赛(主)+ 9 段补充
标注: 每帧球中心坐标(用作 heatmap regression GT)
分辨率: 640×360 广播

Title TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications

Background 球轨迹是战术分析的核心,但现有 tracker 处理不了网球(小 / 快 / 模糊 / 偶尔不可见)。

Method heatmap 输出的 CNN,同时学单帧外观和连续帧的飞行模式。

Result Universiade 测试: 99.7% precision / 97.3% recall / 98.5% F1;10-fold CV: 95.3 / 75.7 / 84.3。

★★ 球轨迹是感知组件,不直接给教练建议,但击球速度 / 落点 / 过网弧线这些指标都从它出来,是不可或缺的 building block。

arXiv NCTU 数据集主页 PyTorch 复现

单打比赛球轨迹追踪 demo · Griffith TIME Lab

TrackNetV4

ICASSP 2025 D · 感知

Arjun Raj, Lei Wang, Tom Gedeon

规模: 新 multi-ball 集(扩展 V2/V3)· 网球 + 羽毛球
难点: 多球同框 / 球与场地同色 / 夜间 / 不同分辨率
兼容: 可插到 V2 / V3 backbone 上

Title TrackNetV4: Enhancing Fast Sports Object Tracking with Motion Attention Maps

Background 前代 TrackNet 仅靠视觉特征,运动模糊 / 遮挡 / 视觉杂波下性能下降。本文加显式运动线索 + 更难的多球数据集。

Method Motion attention 模块:用帧差分驱动一个 prompt 层,跟视觉特征融合;即插即用。

Result 在网球和羽毛球两项追踪 benchmark 上均超过 TrackNetV2 / V3 baseline。

★★ v1 的鲁棒升级版。业余 / 训练场景视频(场地杂、光线不一)用 V4 比 v1 稳。

项目页

转播视角下 14 个球场关键点标注 · Hugging Face

Tennis Court Keypoints

HF dataset card · MIT D · 感知

Gholamreza(转自 yastrebksv/TennisCourtDetector)

规模: 8841 张 1280×720 图 · 75/25 train/val
场地: 硬地 / 红土 / 草地三类
标注: 每图 14 个球场关键点(角点 / 发球线 / 中线交点)

Title (无正式论文,HF dataset card)

Background 球场标定是把"球员 / 球坐标"映射到真实球场的前置条件。

Method 数据卡只提供训练集;典型用法是训一个 keypoint regressor(U-Net heatmap / HRNet)。

Result 无 formal benchmark。

★★ 空间维度的地基。球员站位 / 击球区 / 落点都依赖把视频坐标归一到俯视球场。三种场地覆盖,泛化够用。

HF Dataset

E · Racket sport 旁系参考

不是 tennis,但同生态。仅作方法论参考,不直接用于 tennis 教练系统。

乒乓球转播视频的稠密 stroke 标注时间轴 · arXiv:2207.12730

P2ANet · table tennis

TOMM 2024 E · Racket peer

Jiang Bian, Xuhong Li, et al.

规模: 2721 段广播视频(世锦赛 / 奥运会)· 25 FPS
标注: 14 类细粒度 stroke(职业球员 + 裁判标注)
任务: 动作定位 + 识别

Title P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos

Background low-FPS 广播视频上的快速密集动作检测是现代视频模型的压力测试。本文用 table tennis 做闭合基准。

Method TSM / TSN / Video Swin / SlowFast(识别)+ BSN / BSN++ / BMN / TCANet(定位)四对四评测。

Result 定位 best AR-AN AUC ~48% · 识别 best top-1 ~82% — 论文自承"硬基准"。

★ 不是 tennis 而是 table tennis;仅作方法论参考(racket sport 稠密动作检测的最大基准)。不建议直接用于 tennis 教练系统。

arXiv TOMM

使用说明

本页面是静态 HTML,直接用项目 viewer 起服务即可:

cd /data01/workspace_leixu/motionclip
python scripts/serve_viewer.py --root docs/reports/assets/2026-05-25-tennis-datasets-overview --port 8089
# 浏览器打开 http://<host>:8089/

所有图像均为论文 / 数据集主页公开素材,出处见图注。点击图片可放大查看。