• 这几个数据分析项目,让我看到了什么才叫专业!!


    大家好,我是小一

    新的一周又来了,从今天开始,会出一个新的系列《数分实验室》

    实验室会介绍一些有内核、有科技的数据分析实战项目。

    项目数据集、源代码都是公开的,非常适合想练手但是又没数据、没参考案例的同学

    今天先热热身,分享几个之前看到的 数据分析入门项目

    1、Airbnb

    Airbnb出租数据分析,是一个入门级数分析项目

    如果你还没有完整的做过一个数分项目,不妨试试这个

    首先项目通过描述性和探索性分析,对每个变量的单维度、多维度表现进行对比和探索

    后续针对特征提出了一些对未来决策有用的假设,用于辅助Airbnb提供更多的服务。

    项目中使用了一些比较 常见的统计技术,例如:变量分类、频率分布表、直方图、中心趋势测量等。

    也不难,基本学过数学的都会

    房间类型的频率分布

    请添加图片描述

    价格和最小夜数的中心趋势

    请添加图片描述

    平均价格最高的10个小区分布

    请添加图片描述

    因为提供的数据中有经纬度字段,而通过经纬度来探索价格、最低住宿时间和房间类型,又是一个比较有效的策略

    图形使用 ggplot2 创建,其实也可以使用其他的工具,例如:plotly、seaborn等

    基于经纬度的地理分布

    请添加图片描述

    请添加图片描述

    项目地址:

    https://www.kaggle.com/code/upadorprofzs/understand-your-data-airbnb-reservations

    2、Craigslist-EDA

    Craigslist二手车销售数据分析,预测汽车价格是否被高估或低估。

    数据里面包含了二手车的价格、状况、制造商、经纬度等一共18个字段。

    在数据探索中,也是通过 常规的方法,例如:数据预处理、特征工程、特征提取和特征选择

    特征变量的分布用到了散点图、密度图、箱型图等等

    这种多子图的绘图方式比较好,大家可以多参考这种形式,能节省很多绘图时间

    请添加图片描述
    请添加图片描述

    项目地址:

    https://www.kaggle.com/code/nareshbhat/data-visualization-in-just-one-line-of-code/notebook

    3、Craigslist-SWEETVIZ

    如果说,上面对二手车销售数据分析你不满意,觉得比较复杂

    那自动化数据探索工具就很有必要了解一下了

    项目中用了 sweetviz 的 analyze 方法,一行代码直接出分析报告,真的很强大了

    安装起来也比较简单

    !pip install sweetviz
    
    • 1

    调用的时候直接两行代码完事:

    report = sweetviz.analyze([train,'train'],target_feat='Survived')
    report.show_html('report.html')
    
    • 1
    • 2

    运行的结果是这样的:

    请添加图片描述

    请添加图片描述
    请添加图片描述

    在实际中,我们往往要花很多时间去清理脏数据,这个包其实就可以让你在清理数据之前,快速了解一下数据的情况,还是很省时省力的。

    项目地址:

    https://www.kaggle.com/code/nareshbhat/eda-within-snap-of-fingers?scriptVersionId=68900634

    4、收尾

    虽然我称之为入门,但是要实际研究下来,没个三五天,可能真的吃不透

    但是如果能研究透了,后面遇到类似的项目,也是 一招鲜、吃遍天

    今天就聊这么多吧,我是小一,我们下期见~

    原文链接:这几个数据分析项目,让我看到了什么才叫专业!!
  • 相关阅读:
    STM32H5开发(6)----SPI驱动TFT-LCD屏
    Django —— 用户名和密码配置
    python如何使用gspread读取google在线excel数据?
    微服务框架 SpringCloud微服务架构 8 Gateway 网关 8.6 过滤器链执行顺序
    Javascript知识【基础语法】
    1074 Reversing Linked List
    在使用lac时macos错误NameError: name 'libpaddle' is not defined
    分库分表实现方式Client和Proxy,性能和维护性该怎么选?
    人均瑞数系列,瑞数 6 代 JS 逆向分析
    基于 VSC 的 UPFC(统一潮流控制器)研究(Simulink)
  • 原文地址:https://blog.csdn.net/wzg199538/article/details/128097864