• 刘畊宏男孩女孩看过来!运动数据分析挖掘!(附全套代码和数据集)


    💡 作者:韩信子@ShowMeAI
    📘 数据分析 ◉ 技能提升系列http://www.showmeai.tech/tutorials/33
    📘 AI 面试题库系列http://www.showmeai.tech/tutorials/48
    📘 本文地址http://www.showmeai.tech/article-detail/301
    📢 声明:版权所有,转载请联系平台与作者并注明出处
    📢 收藏ShowMeAI查看更多精彩内容

    因为疫情,2年多的时间里,大家多了很多居家的经历,但是运动健康并不能因为居家而停止,健身随时随处可以进行!健身环大冒险等大热,而前阵子的刘畊宏跳操,带火了一大票畊宏男孩女孩,可穿戴设备市场大涨,而这些设备也记录了大量的运动数据。

    现在有非常多的运动穿戴设备,比如简单的小米手环,到fitbit,到apple watch,而数据科学领域的从业者们,我们众多的数据分析师和数据科学家,可以轻松分析健身设备上收集的数据,把数据科学和医疗保健结合起来。

    在本篇内容中,ShowMeAI就基于 fitbit 手环记录的一部分数据,讲解如何进行有效的数据分析。本次使用的数据集可以在 🏆 Kaggle 平台 上免费下载。大家也可以通过ShowMeAI的网盘直接下载。

    链接:https://pan.baidu.com/s/14QgitJVU7jQ39qE3_kI1MQ
    提取码:show

    本篇内容涉及的工具库,大家可以参考ShowMeAI制作的工具库速查表和教程进行学习和快速使用。

    💡 数据导入

    我们先导入所需工具库,并读取数据:

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import plotly.express as px
    import plotly.graph_objects as go
    
    # 读取数据
    data = pd.read_csv('dailyActivity_merged.csv')
    print(data.head())
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    该数据集由2016年12月3日-2016年12月5日期间通过亚马逊Mechanical Turk进行的分布式调查的受访者产生。30名符合条件的Fitbit用户同意提交个人追踪器数据,包括身体活动、心率和睡眠监测的分钟级输出。个人报告可以通过输出会话ID(A列)或时间戳(B列)进行解析。输出结果之间的差异代表了不同类型的Fitbit追踪器的使用和个人追踪行为/偏好。

    💡 初步分析

    我们先看看这个数据集的缺失值情况:

    data.isnull().sum()
    
    • 1

    我们可以通过info和describe查看数据基本信息。

    data.info()
    
    • 1

    我们在数据中看到记录时间的字段ActivityDate,我们把它转换为时间型,以便进行后续进一步分析。

    # 更改 ActivityDate 的数据类型。 
    data["ActivityDate"] = pd.to_datetime(data["ActivityDate"], format="%m/%d/%Y")
    
    • 1
    • 2

    我们从字段名称中可以看到,有记录『非常活跃』、『相当活跃』、『轻度活跃』和『久坐』的时间信息,分别是VeryActiveMinutes、FairlyActiveMinutes、LightlyActiveMinutes、SedentaryMinutes,我们对所有时间做一个汇总。

    data["TotalMinutes"] = data["VeryActiveMinutes"] + data["FairlyActiveMinutes"] + data["LightlyActiveMinutes"] + data["SedentaryMinutes"]
    data["TotalMinutes"].sample(5)
    
    • 1
    • 2

    我们通过describe函数查看一下数据集的描述性统计数据。

    data.describe()
    
    • 1

    💡 EDA 探索性数据分析

    数据集中的“卡路里”列记录了每天燃烧多少卡路里,我们基于它做一点分析。

    # 研究一下每日总步数和消耗的卡路里之间的联系。 
    figure = px.scatter(data_frame = data, x="Calories",
                        y="TotalSteps", size="VeryActiveMinutes", 
                        trendline="ols", 
                        title="总步数和消耗的卡路里的关系")
    figure.show()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    从上图可以看出,每日热量消耗与所采取的总步数之间存在直接关联。 同样的思路我们分析一下总路程和消耗卡路里的关系:

    # 研究一下每日总路程和消耗的卡路里之间的联系。 
    figure = px.scatter(data_frame = data.dropna(), x="Calories",
                        y="TotalDistance", size="VeryActiveMinutes", 
                        trendline="lowess", color='TotalSteps',
                        title="总路程和消耗的卡路里的关系")
    figure.show()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    上图可以看到,总路程和卡路里之间也是正相关的关系。下面让我们分析一下一天中的平均总活跃分钟数。

    label = ["Very Active Minutes", "Fairly Active Minutes", "Lightly Active Minutes", "Inactive Minutes"]
    counts = data[["VeryActiveMinutes", "FairlyActiveMinutes", "LightlyActiveMinutes", "SedentaryMinutes"]].mean()
    colors = ["gold","lightgreen", "pink", "blue"]
    
    fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
    fig.update_layout(title_text="总活动时间")
    fig.update_traces(hoverinfo="label+percent", textinfo="value", textfont_size=24, marker=dict(colors=colors, line=dict(color="black", width=3)))
    fig.show()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    一些观察结论

    • 81.3% 的非活动分钟数
    • 15.8% 的轻度活动分钟数
    • 平均21 分钟(1.74%)非常活跃
    • 评价13 分钟(1.11%)的相当活跃的分钟数

    下面我们展开做一点更详细的分析,我们先抽取更细化的信息,我们添加一个新字段“Day”记录星期几。

    data["Day"] = data["ActivityDate"].dt.day_name()
    data["Day"].head()
    
    • 1
    • 2

    下面我们可视化对比一下一周中每一天的『非常活跃』、『相当活跃』和『轻度活跃』的分钟数。

    fig = go.Figure()
    
    fig.add_trace(go.Bar(
                             x=data["Day"],
                             y=data["VeryActiveMinutes"],
                             name="Very Active",
                             marker_color="purple"
                            ))
    
    fig.add_trace(go.Bar(
                             x=data["Day"],
                             y=data["FairlyActiveMinutes"],
                             name="Fairly Active",
                             marker_color="green"
                            ))
    
    fig.add_trace(go.Bar(
                             x=data["Day"],
                             y=data["LightlyActiveMinutes"],
                             name="Lightly Active",
                             marker_color="pink"
                            ))
    
    fig.update_layout(barmode="group", xaxis_tickangle=-45)
    
    fig.show()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26

    让我们看看一周中每一天的非活动分钟数。

    day = data["Day"].value_counts()
    label = day.index
    counts = data["SedentaryMinutes"]
    
    colors = ['gold','lightgreen', "pink", "blue", "skyblue", "cyan", "orange"]
    fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
    
    fig.update_layout(title_text='Inactive Minutes Daily')
    fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=30,
                      marker=dict(colors=colors, line=dict(color='black', width=3)))
    fig.show()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    从这份数据看来,星期四是大家最不活跃的一天。 下面我们来看看一周中每一天燃烧的卡路里数。

    calories = data["Day"].value_counts()
    label = calories.index
    counts = data["Calories"]
    
    colors = ['gold','lightgreen', "pink", "blue", "skyblue", "cyan", "orange"]
    fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
    
    fig.update_layout(title_text='Calories Burned Daily')
    fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=30, marker=dict(colors=colors, line=dict(color='black', width=3)))
    fig.show()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    从上图可以看出,星期二是这份数据集中的用户最活跃的日子之一,这一天燃烧的卡路里最多。 下面我们分析一下每日步数:

    import seaborn as sns
    sns.set(rc={'figure.figsize':(8,6)})
    activity_by_week_day = sns.barplot(x="Day", y="TotalSteps", data=data, 
                                       order=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'], 
                                       capsize=.2)
    
    • 1
    • 2
    • 3
    • 4
    • 5

    💡 每日消耗卡路里预估

    下面我们搭建一个模型,对于每日消耗的卡路里进行建模预估。

    本部分涉及到的模型知识与建模操作方法,参见ShowMeAI以下部分教程:

    我们剔除ID类特征和日期特征,把『Calories』作为目标,把其他字段作为特征,注意其中的『星期几/Day』字段是类别型,我们要单独编码一下。

    features = ['TotalSteps', 'TotalDistance', 'TrackerDistance', 'LoggedActivitiesDistance', 'VeryActiveDistance', 'ModeratelyActiveDistance', 'LightActiveDistance', 'SedentaryActiveDistance', 'VeryActiveMinutes', 'FairlyActiveMinutes', 'LightlyActiveMinutes', 'SedentaryMinutes', 'TotalMinutes', 'Day']
    target = 'Calories'
    
    # 数据切分
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(data[features], data[target], test_size=0.2, random_state=0)
    
    # 使用lightgbm训练
    from lightgbm import LGBMRegressor
    lgbm = LGBMRegressor(n_estimators=1000, learning_rate=0.05, random_state=0)
    
    # 「星期几」字段编码
    from sklearn.preprocessing import LabelEncoder
    le = LabelEncoder()
    X_train['Day'] = le.fit_transform(X_train['Day'])
    X_test['Day'] = le.transform(X_test['Day'])
    
    # 拟合模型
    lgbm.fit(X_train, y_train)
    
    # 测试集预估
    predictions = lgbm.predict(X_test)
    
    # 计算测试集RMSE
    from sklearn.metrics import mean_squared_error
    rmse = np.sqrt(mean_squared_error(y_test, predictions))
    print("RMSE: %f" % (rmse))
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27

    运行得到结果为RMSE: 373.128953

    为了更准确地进行建模和评估,我们使用网格搜索交叉验证进行超参数优化:

    # 使用网格搜索对lightgbm模型进行超参数调优
    from sklearn.model_selection import GridSearchCV
    parameters = {
                    'learning_rate': [0.02, 0.05, 0.08, 0.1],
                    'max_depth': [5, 7, 10],
                    'feature_fraction': [0.6, 0.8, 0.9],
                    'subsample': [0.6, 0.8, 0.9],
                    'n_estimators': [100, 200, 500, 1000]}
    
    # 网格搜索
    grid_search = GridSearchCV(lgbm, parameters, cv=5, n_jobs=-1, verbose=1)
    
    # 最佳模型
    grid_search.fit(X_train, y_train)
    best_lgbm = grid_search.best_estimator_
    # 输出最佳超参数
    print(grid_search.best_params_)
    # 测试集预估
    predictions = best_lgbm.predict(X_test)
    # 计算RMSE
    from sklearn.metrics import mean_squared_error
    rmse = np.sqrt(mean_squared_error(y_test, predictions))
    print("RMSE: %f" % (rmse))
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23

    最终结果输出

    {'feature_fraction': 0.6, 'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 1000, 'subsample': 0.6}
    RMSE: 352.782209
    
    • 1
    • 2

    我们可以看到,调参后的模型在测试集上表现更优。最后我们输出一下特征重要度,看看那些因素对于卡路里消耗更加重要:

    #绘制特征重要度
    import matplotlib.pyplot as plt
    plt.figure(figsize=(20,10))
    importance = best_lgbm.feature_importances_
    feature_importance = pd.DataFrame({'feature': features, 'importance': importance})
    feature_importance = feature_importance.sort_values('importance', ascending=True)
    feature_importance.plot.barh(x='feature', y='importance', figsize=(20,10))
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    可以看到,每日总步数对结果影响最大,大家要多多抬腿多多运动!

    参考资料

  • 相关阅读:
    3. Longest Substring Without Repeating Characters (python)
    【美团秋招笔试】美团第一次笔试 2022-8-20
    记录一次mysql启动失败的原因
    超详细Python教程——作用域
    概率论基础__排列与组合
    R-CNN,Fast R-CNN详解
    计算机网络的发展
    哪种App开发模式适合中小企业?
    uni-app:js修改元素样式(宽度、外边距)
    汽车摄像头匿名化处理解决方案,保护信息的安全性和隐私性
  • 原文地址:https://blog.csdn.net/ShowMeAI/article/details/126021901