• pandas:读取各类文件方法以及爬虫时json数据保存


    文件的读取与写入

    | 常用读文件方法 | 说明             |
    | -------------- | ---------------- |
    | read_csv       | 读取CSV文件      |
    | read_excel     | 读取Excel文件    |
    | read_html      | 读取网页HTML文件 |
    | read_table     | 通用读取方法     |

    | 常用写文件方法 | 说明        |
    | -------------- | ----------- |
    | to_csv         | 写csv文件   |
    | to_excel       | 写Excel文件 |

    1、读取文件常用的参数


    pandas.read_csv(
        filepath_or_buffer=None,
        sep=',',
        delimiter=None,
        header=None,
        names=None,
        index_col=None,
        usecols=None,
        skiprows=None,
        na_values=None,
        nrows=None,
        chunksize=None,
        encoding=None,
    ):
     

    | 参数               | 说明                                                         |
    | ------------------ | ------------------------------------------------------------ |
    | filepath_or_buffer | 读取文件的路径或对象                                         |
    | sep/delimiter      | 输出文件的字段分隔符, 默认字符","                            |
    | header             | 默认为'infer',读取第一行作为列名,也可以为None,使用默认列索引 |
    | names              | 自定义列名/列索引                                            |
    | index_col          | 选择一列作为行索引,可以输入默认列索引 也可以使用自定义的列索引/列名 |
    | usecols            | 只读取选中的列                                               |
    | skiprows           | 跳过行读取                                                   |
    | na_values          | 个性化数据,将指定的数据变为缺失值NaN                         |
    | nrows              | 数据按指定行显示                                             |
    | chunksize          | 数据按指定行进行分块                                         |
    | encoding           | 设置编码格式                                                 |

    注意事项:

    1、一般情况下我们用utf-8的编码进行保存,如果出现中文编码错误,则可以依次换用gbk,gb2312,gb18030等, 一般总能成功的

     2、写入文件参数

    ```
    df.to_csv(
        path_or_buf=None,
        sep=',',
        columns=None,
        header=True,
        index_lable=None,
        index=True,
        encoding=None,)
    ```

    | 参数        | 说明                               |
    | ----------- | ---------------------------------- |
    | path_or_buf | 写入文件的路径或对象               |
    | sep         | 输出文件的字段分隔符, 默认字符","  |
    | columns     | 空值写入后的顺序,也可选列写入      |
    | header      | 布尔值,默认为True,写入列名称(索引) |
    | index_label | 选择列作为 行索引                  |
    | index       | 布尔值,默认为True,写入行名称(索引) |
    | encoding    | 设置写入的编码格式                 |

    excel表格读取写入特点

    所有的读取和写入方法的参数通用,唯独excel表格有几个不一样的点

    1、写入excel文件需要依赖模块-openpyxl

    ```python
    安装: pip install openpyxl
    ```

    2、读取excel文件需要依赖模块-xlrd

    ```
    安装: pip install xlrd


    df.to_excel(
            excel_writer,
            sheet_name="Sheet1",
            columns=None,
            header=True,
            index=True,
            index_label=None,
            encoding=None,
        )
    ```

    | 特有的参数   | 说明                |
    | ------------ | ------------------- |
    | excel_writer | ExcelWriter目标路径 |
    | sheet_name   | excel工作表名命名   |

    - read_excel


    pandas.read_excel(
        io,
        sheet_name=0,
        header=0,
        names=None,
        index_col=None,
        usecols=None,
        skiprows=None,
        nrows=None,
        na_values=None,
    )
    ```

    | 特有的参数 | 说明                                                         |
    | ---------- | ------------------------------------------------------------ |
    | io         | excel路径                                                    |
    | sheet_name | 默认为0,多工作表读取使用sheetname=[0, 1],若sheetname=None是返回全表 |

    当学习了读取和写入之后,就可以将爬虫的数据转为dataframe,使用dataframe写入的方式进行文件保存

  • 相关阅读:
    Go:命令行参数解析包 flag 简介
    从零开始学YC-Framework之鉴权
    算法通关村第一关|青铜|链表笔记
    23种设计模式-Java语言实现
    索引的创建、查看、删除
    极限学习机
    为什么你学不会递归?谈谈我的经验
    7-4 USB接口的定义 (10分)
    曼昆 宏观经济学 笔记
    Matplotlib面向对象接口
  • 原文地址:https://blog.csdn.net/Dxh0112_/article/details/142286767