• IPython Jupyter NumPy Pandas Matplotlib Scikit-Learn statsmodels


    目录

     1、 IPython Jupyter NumPy Pandas Matplotlib Scikit-Learn statsmodels scipy statsmodels简介

    1.1 IPython 和 Jupyter

    1.2 Pandas

    1.3 matplotlib

    1.4 scikit-learn

    1.5 scipy

    1.6 Numpy

    1.7 statsmodels

    2、安装pandas matplotlib ipython scikit-learn

    3、安装Numpy+MKL

    3.1 查看Python版本:win+R cmd 输入python 即可查看

    3.2 下载对应版本的Numpy、SciPy


     1、 IPython Jupyter NumPy Pandas Matplotlib Scikit-Learn statsmodels scipy statsmodels简介

    程序包功能
    IPython Jupyter这两个程序包为许多使用 Python 的数据科学家提供了计算环境。
    NumPy这个程序库提供了 ndarray 对象,可以用 Python 高效地存储和操作大型数组。
    Pandas这个程序库提供了 DataFrame 对象,可以用 Python 高效地存储和操作带标签的 / 列式数据。
    Matplotlib
    这个程序库为 Python 提供了许多数据可视化功能
    Scikit-Learn
    这个程序库为最重要的机器学习算法提供了高效整洁的 Python 版实现。
    学习中遇到问题没人解答?小编创建了一个Python学习交流QQ群:732481539
    寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书、数据分析可视化源码+数据集

    1.1 IPython 和 Jupyter

    ipython是一个python的交互式shell,比默认的python shell好用得多,支持变量自动补全,自动缩进,支持bash shell命令,内置了许多很有用的功能和函数。

    IPython项目开始于2001年,由Fernando Pérez发起,旨在开发一个更具交互性的Python解释器。在过去的16年中,它成为Python数据技术栈中最重要的工具之一。

    尽管它本身并不提供任何计算或数据分析工具,它的设计侧重于在交互计算和软件开发两方面将生产力最大化。它使用了一种执行-探索工作流来替代其他语言中典型的编辑-编译-运行工作流。它还提供针对操作系统命令行和文件系统的易用接口。由于数据分析编码工作包含大量的探索、试验、试错和遍历,IPython可以使你更快速地完成工作。

    2014年,Fernando和IPython团队发布了Jupyter项目。Jupyter项目旨在设计一个适用于更多语言的交互式计算工具。IPython web notebook 则成为Jupyter notebook,可以支持超过40种编程语言。IPython系统目前可以作为一个内核(一种编程语言模式)用于在 Jupyter 中使用Python。

    IPython自身已成为 Jupyter开源项目中的一个组件,后者提供交互性、探索性的高效环境。IPtyhon最古老、最简单的“模式”就是一个加强版的Python命令行,用于提高编写、测试、调试Python代码的速度。

    你也可以通过基于Web、支持多语言的代码“笔记本”——Jupyter Notebook来使用IPython系统。IPython命令行和 Jupyter notebook对于数据探索和可视化非常有用。

    Jupyter notebook系统允许你使用Markdown和HTML创建包含代码和文本的富文档。其他编程语言也针对Jupyter实现了内核,允许你在Jupyter中使用多种语言而不仅仅是Python。


    1.2 Pandas

    pandas 是用于进行数据分析的库,可以生成类似Excel表格的数据表,可以从很多不同种类的数据库中提取数据。

    pandas的名字的来源是panel data,这是计量经济学中针对多维结构化数据集的术语。pandas也是Python data analysis(Python数据分析)自身的简写短语。

    pandas提供了高级数据结构和函数,这些数据结构和函数的设计使得利用结构化、表格化数据的工作快速、简单、有表现力。它出现于2010年,帮助Python成为强大、高效的数据分析环境。常用的pandas对象是DataFrame,它是用于实现表格化、面向列、使用行列标签的数据结构;以及Series,一种一维标签数组对象。

    pandas将表格和关系型数据库(例如SQL)的灵活数据操作能力与NumPy的高性能数组计算的理念相结合。它提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。由于数据操作、预处理、清洗在数据分析中是重要的技能,pandas将是重要主题。


    1.3 matplotlib

    matplotlib 是绘图库,能够输出折线图、散点图、直方图。

    matplotlib是最流行的用于制图及其他二维数据可视化的Python库。它由John D. Hunter创建,目前由一个大型开发者团队维护。matplotlib被设计为适合出版的制图工具。

    对于Python编程者来说也有其他可视化库,但matplotlib依然使用最为广泛,并且与生态系统的其他库良好整合。我认为将它作为默认可视化工具是一个安全的选择。


    1.4 scikit-learn

    scikit-learn是非常流行的python机器学习库,包含众多顶级机器学习算法。

    scikit-learn项目诞生于2010年,目前已成为Python编程者首选的机器学习工具包。仅仅七年,scikit-learn就拥有了全世界1 500位代码贡献者。其中包含以下子模块。

    分类:SVM、最近邻、随机森林、逻辑回归等

    回归:Lasso、岭回归等

    聚类:k-means、谱聚类等

    降维:PCA、特征选择、矩阵分解等

    模型选择:网格搜索、交叉验证、指标矩阵

    预处理:特征提取、正态化

    1.5 scipy

    scipy是强大的科学计算工具集,有很多函数,scikit-learn需要使用scipy对算法进行执行。

    SciPy是科学计算领域针对不同标准问题域的包集合。以下是SciPy中包含的一些包:

    scipy.integrate数值积分例程和微分方程求解器scipy.linalg线性代数例程和基于numpy.linalg的矩阵分解scipy.optimize函数优化器(最小化器)和求根算法scipy.signal信号处理工具scipy.sparse稀疏矩阵与稀疏线性系统求解器scipy.specialSPECFUN的包装器。SPECFUN是Fortran语言下实现通用数据函数的包,例如gamma函数。scipy.stats标准的连续和离散概率分布(密度函数、采样器、连续分布函数)、各类统计测试、各类描述性统计。

    SciPy与NumPy一起为很多传统科学计算应用提供了一个合理、完整、成熟的计算基础。

    1.6 Numpy

    Numpy是基础科学计算库,对scikit-learn十分重要,scikit-learn使用Numpy数组形式的数据进行处理。

    NumPy是Numerical Python的简写,是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。NumPy还包括其他内容:

    快速、高效的多维数组对象ndarray基于元素的数组计算或数组间数学操作函数用于读写硬盘中基于数组的数据集的工具线性代数操作、傅里叶变换以及随机数生成

    成熟的C语言API,允许Python拓展和本地的C或C++代码访问NumPy的数据结构和计算设施。

    除了NumPy赋予Python的快速数组处理能力之外,NumPy的另一个主要用途是在算法和库之间作为数据传递的数据容器。对于数值数据,NumPy数组能够比Python内建数据结构更为高效地存储和操作数据。

    此外,用底层语言编写的库,例如用C或Fortran编写的库,可以在NumPy数组存储的数据上直接操作,而无须将数据复制到其他内存中后再操作。因此,许多Python的数值计算工具将NumPy数组作为基础数据结构,或与NumPy进行无缝互操作。

    1.7 statsmodels

    statsmodels是一个统计分析包。它源自斯坦福大学统计学教授Jonathan Taylor 利用R语言实现的各类分析模型。Skipper Seabold 和 Josef Perktold早在2010年便创建了新的statsmodels项目。自那之后该项目迅速成长,拥有大量活跃用户和贡献者者。

    Nathaniel Smith 开发了Patsy项目,为R语言公式系统所驱动的statsmodels包提供公式、模型规范框架。

    与scikit-learn相比,statsmodels包含经典的(高频词汇)统计学、经济学算法。它所包含的模型如下。

    回归模型:线性回归、通用线性模型、鲁棒线性模型、线性混合效应模型等

    方差分析(ANOVA )

    时间序列分析:AR、ARMA、ARIMA、VAR等模型

    非参数方法:核密度估计、核回归

    统计模型结果可视化

    statsmodels更专注于统计推理,提供不确定性评价和p值参数。相反,scikit-learn更专注于预测。

    2、安装pandas matplotlib ipython scikit-learn

    pip install pandas matplotlib ipython scikit-learn
    

    3、安装Numpy+MKL

    要下载自己Python对应版本的Numpy哦:

    3.1 查看Python版本:win+R cmd 输入python 即可查看

    3.2 下载对应版本的Numpy、SciPy

    cp38对应python3.8           cp311对应python3.11           amd64代表64位

    https://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy

     

    下载好.whl后在下载所在文件夹打开cmd窗口

    1. pip install numpy‑1.22.4+mkl‑cp38‑cp38‑win_amd64.whl
    2. pip install SciPy‑1.8.1‑cp38‑cp38‑win_amd64.whl

  • 相关阅读:
    计算机组成原理——数的表示与计算
    GUI编程--PySide2--基础1
    【论文笔记合集】ARIMA 非平稳过程通过差分转化为平稳过程
    七、【VUE基础】事件处理
    VueComponent 笔记
    数字电路与逻辑设计之 设计电路 之无反变量
    长城
    【dp】砝码称重模型(选或不选)
    [RK3568 Android11] Binder驱动结构体
    没有Istio框架不行?云原生下的四种微服务发现实践
  • 原文地址:https://blog.csdn.net/c_lanxiaofang/article/details/125720009