码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【机器学习】数据格式csv/txt/pkl


    文章目录

        • 序言
        • 1. 数据存成csv、txt还是pkl
        • 2. pandas怎么读取csv、txt文件或者pkl文件
        • 3. 数据格式:pkl文件补充介绍

    序言

    • 用什么格式存储场景挖掘得到的数据
    • 目前为止用到过的一些数据存储格式,如proto/xml/json/txt/csv等,还有pkl,哪种比较适合数据集存储呢

    1. 数据存成csv、txt还是pkl

    • csv和txt都是文本文件,pkl是二进制文件

      • csv

        • 数据量小的话,推荐将数据存成csv,以逗号分隔的文本文件,可直接更改后缀为其他文件
        • csv可在其他语言如python/matlab/R/excel中自由切换,数据格式不受损
      • txt

        • txt的优势是体积小,便于存储,一般以空格为分隔符
      • pkl

        • 如果数据量大、内存吃紧,而且访问的时候要按照batch访问硬盘,读取效率最高的是pkl
        • pkl还能直接保存成tensor,节省了读取后转成tensor的时间,避免了数据二次处理
      • 当然还有其他的一些格式npy等

    • 读取效率排序:pkl > npy > csv

    2. pandas怎么读取csv、txt文件或者pkl文件

    • pandas是数据处理必不可少的库

      • 读取csv:常用的两个函数:pandas.read_csv 和 pandas.to_csv

        data=pd.read_csv('./mydata.csv')		# 读取csv格式文件
        data.to_csv('./my_new_data.csv')		# 生成csv格式文件
        
        • 1
        • 2
      • 读取txt:pandas在读取txt时,read_csv和read_table均可使用

        data =  pd.read_table("./mydatat.txt")				# 调用read_table函数读取txt文件
        df =  pd.read_csv("./my_new_data.txt",sep=',')		# 调用read_csv函数读取txt文件
        
        • 1
        • 2
      • 读取pkl:

        data.to_pickle(filePath)		# pandas, 文件保存
        data.read_pickle(filePath)		# pandas, 文件读取
        
        import pickle
        
        with open(filePath, 'wb') as f:
        	pickle.dump(data, f)		# pickle模块,文件保存
        
        with open(filePath, 'rb') as f:
        	data = pickle.load(fp)		# pickle模块,文件读取
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        • 9
        • 10

    3. 数据格式:pkl文件补充介绍

    • pkl是指使用pyhton的pickle模块生成的二进制文件,用于将对象序列化到磁盘上,可以存储为.pkl文件。即pkl能提供一种简单有效的方法来序列化或者反序列化python对象,使其易于存储传输和共享

    • pkl可以将python项目中过程变量如字符串、列表、字典等数据保存起来,pkl甚至能保存模型,下次接着训练

    • pkl转csv

      import pickle as pkl
      import pandas as pd
       
      with open(r'data.pkl', "rb") as f:
      	object = pkl.load(f,encoding='latin1')
      df = pd.DataFrame(object)
       
      df.to_csv(r'Data.csv')
      
      object =pkl.load(f,encoding='latin1')
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10

      容易在encoding处报错,可以根据实际pkl的编码规则更改为encoding=‘utf-8’


    【参考文章】
    数据保存成csv/txt/pkl文件
    pkl文件介绍
    保存和读取pkl文件
    pkl格式文件
    读取生成csv/txt

    created by shuaixio, 2023.10.03

  • 相关阅读:
    微电网和直流电网中最优潮流(OPF)的凸优化(Matlab代码实现)
    微服务架构设计:构建高可用性和弹性的应用
    Mygin上下文之sync.Pool复用
    线程版服务器实现(pthread_server)
    群晖NAS教程(二十五)、利用web station安装nextcloud
    中英文说明书丨艾美捷R-Phycoerythrin标记链霉亲和素
    CustomNavBar 自定义导航栏视图
    Java基础
    ARM开发(5)ARM的接口技术(串行通信与并行通信,同步串行通信与异步串行通信,波特率,串行通信术语,uart,i2c,spi三种协议简单引入)
    鸿蒙ArkTS声明式开发:跨平台支持列表【Z序控制】 通用属性
  • 原文地址:https://blog.csdn.net/baidu_35692628/article/details/133498006
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号