• Python pandas sort_values()方法的使用


    1、起因

    今天做到北京玛达科技有限公司2021数据处理工程师笔试题,有一题是这样:

    在这里插入图片描述
    按照文件中单词出现频次由高往低依次排序,这个对我来说很好实现,用上 pandas 的 sort_values 方法就手到擒来。但是他后面又加上了一个条件,如果频次相同的情况下,按照单词的 MD5 值排序。这可把我迷住了:

    • 先用sort_values方法,频次由高往低依次排,再把频次相同单独拿出来再用 MD5 排?(因为sort_values排序后,同一频次的单词顺序会改变)
    • 还是先 MD5 排,再在不改变同一频次的单词顺序情况下,频次由高往低依次排?

    最后去看了有关于 sort_values 的文档,成功解决先把单词出现频次由高往低依次排序,再把频次相同的情况下的单词按照 MD5 值排序这个问题,下面我带大家回顾一下 Python pandas sort_values() 方法的使用

    2、sort_values() 函数说明

    pandas 库的 sort_values() 函数可以对 Dataframe 的数据集按照某个字段中的数据进行排序。该函数可以指定列数据或行数据进行排序,可以是单个,也可以是 多个(以前经常用来处理单列/行数据,忘记了 sort_values() 也可以处理多列/行数据)。 series 也有 一个 sort_values() 函数,但在参数上稍有区别。

    官方文档:pandas.Series.sort_valuespandas.DataFrame.sort_values

    3、sort_values() 具体参数

    格式如下:

    DataFrame.sort_values(by=‘进行排序的列名或索引值’, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’, ignore_index=False, key=None)
    
    参数说明
    by指定要进行排序的列名或索引值
    axis若 axis=0 或 ‘index’,则按照指定 的数据大小排序;若 axis=1 或 ‘columns’,则按照指定 索引 中数据大小排序。默认axis=0
    ascending若 ascending=True,则按照升序排序;若 ascending=False,则按降序排序,默认为True,即升序排序。如果这是一个 bool 列表,则必须匹配 by 的长度
    inplace排序后的数据是否替换原来的数据,默认为False,即不替换
    ignore_index是否重置索引,默认为不重置

    4、sort_values() 使用

    4.1 单列/行排序

    import pandas as pd
    df = pd.read_csv('test.csv')
    # 根据hello列降序排序
    data = df.sort_values(by="hello", ascending=False, ,axis=0)
    # axis=0表示按列,同理axis=1表示按行
    

    4.2 多列/行排序

    import pandas as pd
    df = pd.read_csv('test.csv')
    # 根据第一列降序排序,当第一列相同时,根据第三列进行升序排序。并且重置索引,替换原数据
    data = df.sort_values(by = ['col1','col3'],ascending=[False,True],ignore_index=True,inplace=True)
    

    5、应用

    所以一开始那道题我这样写的:

    # -*- coding: utf-8 -*-
    # ---
    # @Software: PyCharm
    # @File: main.py
    # @Author: WangYunchang
    # @E-mail: wangyunchang@dxy.cn
    # @Site: 
    # @Time: 9月 20, 2022
    # ---
    import csv
    import pandas as pd
    import hashlib
    
    counts = {}
    # 读取文件
    txt = open("word2count.txt").read()
    # 将大写字母转化为小写
    txt = txt.lower()
    # 把文章中不是英文字母的全部代替为空格
    for ch in '0123456789.,()%-':
        txt = txt.replace(ch, " ")
    # 分割成列表
    words = txt.split()
    # 统计单词
    for word in words:
        counts[word] = counts.get(word, 0) + 1
    items = list(counts.items())
    # 将所得单词及数目写入csv文件中
    csvFile = open('word_result.csv', 'w', newline='')
    # 写入表头,A是单词,B是出现次数
    csv.writer(csvFile).writerow(["A", "MD5", "B"])
    # 统计结果写入csv
    writer = csv.writer(csvFile)
    for key in counts:
        # MD5值
        ss = hashlib.md5(key.encode('utf-8')).hexdigest()
        writer.writerow([key, ss, counts[key]])
    csvFile.close()
    df = pd.read_csv('word_result.csv')
    # 根据B降序排序,当B相同时,根据MD5进行降序排序
    data = df.sort_values(by=["B", "MD5"], ascending=[False, False])
    # 删除MD5
    data = data.drop(columns="MD5")
    # 把新的数据写入文件
    data.to_csv('word_result.csv', mode='w', index=False)
    
  • 相关阅读:
    哨兵1号(Sentinel-1)SAR卫星介绍
    SQLite R*Tree 模块(三十三)
    前端基础之JavaScript
    策略模式:灵活定义一系列可互换的算法
    idea手动创建webapp(在main文件夹下)
    【算法训练-字符串 三】字符串相加
    4.java的IO流技术(1/2)
    Spring Data Common 之 Repository
    密码学奇妙之旅、03 HMAC单向散列消息认证码、Golang代码
    LinkedList与链表
  • 原文地址:https://blog.csdn.net/a6661314/article/details/126956591