码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Pandas数据分析开发实战博文集锦


    本文为最近年来使用Pandas进行数据分析的实践笔记集锦,为了便于博主与爱好者查找相关内容,以及学习、应用过程,进行了初步简单梳理。内容包括:数据分析处理、可视化分析、数据库相关(ClickHouse、MongoDB、CSV、MySQL、HDF5)、基础入门(数据分析快速入门、时序数据实践)、应用、问题、其他等等。

    目录

    • 1. 数据分析处理
    • 2. 可视化分析
    • 3. 数据库相关
      • 3.1. ClickHouse
      • 3.2. MongoDB
      • 3.3. CSV
      • 3.4. MySQL
      • 3.5. HDF5
    • 4. 基础入门
      • 4.1. 数据分析快速入门
      • 4.2. 时序数据实践
    • 5. 应用
    • 6. 问题
    • 7. 其他

    1. 数据分析处理

    Pandas数据中列表转换成列、随机抽样数据的方法实践经验两则. 2022.07.08
    Pandas数据中列表转换成列、随机抽样数据的方法实践经验两则

    Pandas大数据筛选数据经验教训一则. 2022.05.09
    有经验的开发者都知道,整型计算、比较是计算机软件高级编程语言、数据库里较快的,对于Python及Pandas也不例外。本文通过整型数据比较筛选数据、整型数据字符串类型比较筛选数据、动态转换为整型字符串类型比较筛选数据对比实验来验证经验。

    Pandas常用累计、同比、环比等统计方法实践案例. 2022-02-18
    统计表中常常以本年累计、上年同期(累计)、当期(例如当月)完成、上月完成为统计数据,并进行同比、环比分析。如下月报统计表所示样例,本文将使用Python Pandas工具进行统计。

    【精选】Pandas时间类型数据处理常用方法小结. 2021-11-19
    在数据处理、特征工程时,往往需要按照时间段来统计特征,例如计算间隔天数、最近一个月、最近3个月、最近半年、最近一年某用户的行为数据,那么如何计算筛选这些时间点呢?

    【精选】数据处理技术、技巧集锦(Pandas、Numpy、List). 2021-03-02
    基于python pandas做数据集开发所遇到的表合并(横向合并与纵向合并)、数据行列处理、数据分组过滤、表内数据及特征处理、Mongo数据存取等需求,总结常用技术、技巧集锦。

    基于Pandas实现皮尔逊相关与余弦相似度在工业大数据分析中的应用实践. 2020-08-06
    获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析,数据研究的始终。本文基于Pandas实现相关系数及其散点图分析。

    2. 可视化分析

    Python使用joypy绘制峰峦图案例. 2021-12-26
    本文在分析客户流失过程中,采用峰峦图对各种客户状态(活跃、不活跃、濒临流失、流失)进行特征分析,使用python语言下的Joypy工具绘制。

    Pandas高级数据分析快速入门之四——数据可视化篇. 2021-08-28
    本篇为第四篇,基于数据表DataFrame进行数据可视化,绘图包括散点图、柱状图、条形图、直方图、密度图、饼状图、热力图、雷达图等。

    3. 数据库相关

    3.1. ClickHouse

    Python使用ClickHouse实践与踩坑记. 2021-06-17
    本文为初步使用ClickHouse做OLAP数据分析实践,并记录了数据库连接端口配置、接口返回值等问题。体会到ClickHouse的速度快。

    3.2. MongoDB

    通过Pandas批量快速读取MongoDB数据经验一则. 2020-10-12
    对于处理读取大批量MongoDB数据的需求,一般采用通过游标分批读取数据,逐批按需求处理数据(数据治理)方案,这样过程思维清晰,缺点是大数据量时速度较慢,而且需要调优游标批量处理量(batch_size),例如我处理读取100万条数据时,耗费我大概5天时间,而直接采用Pandas工具一

    Pandas(数据表)深入应用经验小结(查询、分组、上下行间计算等). 2020-08-08
    分享以少量代码,站在Pandas肩膀上,实现大批量Mongo数据读取、数据计算处理等实践案例,以及所遇到的坑。

    3.3. CSV

    pandas读csv数据文件问题:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode …. 2023-05-05
    原因是CSV数据文件不是 UTF8 编码,而系统默认采用 UTF8 解码。

    3.4. MySQL

    Pandas使用SQLAlchemy读写数据库及URL中特殊字符转义编码 . 2023.06.16
    使用pandas直接对数据库进行增删改查是很方便的,这里简单的总结pandas.read_sql()和pandas.DataFrame.to_sql()使用,以及遇到的问题。

    Pandas的to_sql()插入数据到mysql中所遇到的问题. 2023.06.09
    使用pymysql驱动API,出现如下错误:DatabaseError: Execution failed on sql ‘SELECT name FROM sqlite_master WHERE type=‘table’ AND name=?;’: not all arguments converted during string formatting

    3.5. HDF5

    Python Pandas实践 HDF5高效二进制存储. 2020.10.13
    Python大数据分析过程中,使用Pandas实践 HDF5高效二进制存储,以及使用vitables快速浏览H5格式二进制数据。

    4. 基础入门

    4.1. 数据分析快速入门

    Pandas高级数据分析快速入门——全过程综述及案例集锦. 2021-10-14
    Pandas高级数据分析快速入门包括开发环境、基础操作、数据挖掘与统计分析篇、数据可视化、机器学习特征工程、机器学习预测分析等培训内容综述与集成。(5次课,共计交流10小时,内附代码案例)

    Pandas高级数据分析快速入门之一——Python开发环境篇. 2021-09-07
    Pandas高级数据分析快速入门,包括:Python开发环境篇、基础篇、数据挖掘与统计分析篇、数据可视化篇、机器学习特征工程篇、机器学习预测分析篇。本篇为第一篇,Python工作环境部署,使用pip方式安装工具包,包括Jupter、Numpy+mkl、scipy、Pandas、Clickhouse等。

    【精选】Pandas高级数据分析快速入门之二——基础篇. 2021-08-24
    本篇为第二篇,数据表DataFrame读写基础操作及读写CSV、Clickhouse相关技术。
    Pandas构成、从读取通用数据文件开始、对表(DataFrame)增减数据、把数据保存到CSV文件、DataFrame单元格操作、读取Clickhouse数据。

    Pandas高级数据分析快速入门之三——数据挖掘与统计分析篇. 2021-08-27
    本篇为第三篇,基于数据表DataFrame进行数据挖掘和统计,扩展衍生交易特征,提取常用特征等简明实际案例操作。读取原数据、时序数据挖掘、数据计算、挖掘数据周期维度、表关联(merge)、常用特征提取——极限值与统计值、按周期统计分析数据。

    Pandas高级数据分析快速入门之四——数据可视化篇. 2021-08-28
    本篇为第四篇,基于数据表DataFrame进行数据可视化,绘图包括散点图、柱状图、条形图、直方图、密度图、饼状图、热力图、雷达图等。

    【精选】Pandas高级数据分析快速入门之数据筛选——分组排序筛选实践笔记. 2021-10-08
    Pandas常用分组排序筛选数据实际操作实践笔记,排序、 分组筛选、按条件筛选分组。

    Pandas高级数据分析快速入门之六——机器学习预测分析篇. 2021.09.09
    Pandas高级数据分析快速入门,包括:Python开发环境篇、基础篇、数据挖掘与统计分析篇、数据可视化篇、机器学习特征工程篇、机器学习预测分析篇。本篇为第六篇,通过XGBoost算法系统,预测客户流失,并给出预测过程分析,特征重要图、AUC曲线等。

    4.2. 时序数据实践

    Pandas时序数据分析实践—时序数据集. 2023.08.02
    通过简洁明了且高效的案例,我们能够初步领略到Pandas的强大功能。在示例中,我们展示了如何读取数据、构建时序数据集、进行数据分析以及将分析结果进行可视化。整个过程代码量非常少,使得操作简便易行。

    Pandas时序数据分析实践—概述. 2023.07.27
    无论您是一位跑步爱好者,还是对时序数据分析感兴趣的数据科学家,本系列文章都将为您揭示时序数据分析的魅力。让我们一起踏上这段充满数据洞察力的跑步之旅,用数据为您的跑步训练增色添彩。让 Pandas 引领我们探索时序数据的无限可能!

    5. 应用

    Python+Streamlit+MongoDB GridFS构建低代码文档管理应用(Demo篇). 2022.04.17
    基于Python和文档型数据库MongoDB,使用低代码Web框架Streamlit,直接在MongoDB GridFS上实现文档管理(Demo篇)

    【精选】Python数据分析师使用低代码Streamlit实现Web数据可视化方法——Plotly可视化基础篇. 2022.01.22
    Python数据分析师工作拓展助手,在不用掌握复杂的HTML、JavaScript、CSS等前端技术的情况下,也能快速做出来一个炫酷的Web APP,把数据分析结果可视化呈现出来!本文推荐Python界新秀,高速发展的开源Web框架Streamlit,与Python界较优秀交互式可视化工具Plotly,组合搭建的“Web数据可视化低代码纯python技术解决方案”。

    Python数据分析师使用低代码Streamlit实现Web数据可视化方法——入门篇. 2022.01.21
    谁能帮你不用懂得复杂的HTML、JavaScript、CSS等前端技术就能快速做出来一个炫酷的Web APP,把数据分析结果可视化呈现出来?本文推荐Python界新秀,高速发展的开源Web框架Streamlit,以及Python界较优秀交互式可视化工具Plotly。

    6. 问题

    pandas解决数据缺失、重复的方法与实践. 2023.06.17 ·
    在数据预处理、数据分析过程中,经常遇到数据缺失、重复等问题,本文着重通过pandas解决数据缺失、重复的方法与实践

    Pandas数据类型自行变换及数据类型转换失败情况分析与解决方法. 2022.08.22
    Python中,Pandas整型自行变换为浮点型及时间类型转换失败情况分析与解决方法

    pandas读csv数据文件问题:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode … 2023-05-05
    原因是CSV数据文件不是 UTF8 编码,而系统默认采用 UTF8 解码。

    Pandas缺失值inf与nan处理实践. 2022.08.09
    实践Pandas对正负无穷inf、空值nan的缺失值处理。

    【精选】Numpy与Pandas、Sklearn中one-hot快速编码方法. 2021-12-18
    Numpy与Pandas、Sklearn中one-hot快速编码方法

    pandas删除没有列名的列. 2021-11-24
    pandas 没有列名一般是说原表中没有列名,但在pandas读出来的时候是有列名的,如何删除这样的列呢?

    7. 其他

    Python多CPU(核)并行数据处理解决方案. 2022.05.13
    Python 进行数据处理的时候,因为有GIL锁,因此多线程也只能使用一个处理器,这样经常出现程序运行只使用了一个CPU核心在运算,导致数据处理需要比较长的时间。如果将多个CPU核心同时参与运算,可以大幅度运算速度,下面讨论原则上不修改程序而发挥多CPU效率方案。

  • 相关阅读:
    My Seventy-ninth Page - 完全平方数 - By Nicolas
    requests请求douban.com获得网页源代码
    实战:10 种实现延迟任务的方法,附代码!
    Springboot漫画网站j846u计算机毕业设计-课程设计-期末作业-毕设程序代做
    Vue首屏优化方案
    Linux用户及文件权限管理
    系统瘫痪了如何解决?系统重装!
    Java NIO ByteBuffer原理使用图文详解
    Mac电脑专业raw图像处理 DxO PhotoLab 7中文最新 for mac
    mssql调用外部接口
  • 原文地址:https://blog.csdn.net/xiaoyw/article/details/133988631
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号