业务挑战
体育运用大数据主要体现在以下三个方面: 预测比赛结果和奖牌归属;更好地训练运动员 。数据和模型驱动体育决策让获胜和成功变得更有可能,体育统计(Sports Analytics)成为体育竞争的“杀手锏”。最近我们被客户要求撰写关于体育统计的研究报告,包括一些图形和统计输出。
具体服务
要在运动中有效地使用分析,我们要知道如何处理数据、识别数据源、收集数据、组织和准备进行分析、从数据构建模型。
从面向体育组织的咨询工作中,推动“数据科学即服务”。最终,实施我们的想法和模式。
数据源准备
随着网络的发展,数据来源丰富,有文本数据以及数字数据。通过爬虫技术抓取网络并利用应用程序编程接口(API),可以从公共数据源中获取很多信息。
构造
想要更好地了解在这些场景中大数据是如何进行预测性分析的,我们需要考虑在预测比赛时所需处理的数据性质。
首先确定关键指标,可用数据包括国别、赛事、成绩、运动员姓名、年龄、过往表现记录、赛场温度、观众出席率、昼夜等。
划分训练集和测试集
确定指标后,把数据分成两个子数据集,即训练数据集和测试数据集。
数据洞察
球员薪酬情况
职业运动队在劳动力市场上相互竞争,而明星球员的劳动力供不应求。薪资上限是保持竞争平衡所必需的,工资也帮助球队限制球员的支出。
美国最专业的运动员有薪资上限。NFL队的2016年薪金上限为5328万美元,平均工资约为270万美元。NBA球队在16赛季的薪金上限