excel学习库

excel表格_excel函数公式大全_execl从入门到精通

pandas去重函数:drop_duplicates()使用技巧

1、去重复函数的含义

就是在一个数据集中,首先根据条件,找到重复的数据,然后进行删除,最终保留唯一的数据集。

2、excel中的操作

在excel中,删除重复项操作很简单,直接选中数据区域,然后点击“数据”菜单下的“删除重复项”。

在弹出的“删除重复值”对话框,选中所有的列即可去除每行都重复的数据。

下图是得出的结果:

3、函数介绍

我们来到Python环境中,通过pandas的去重函数:drop_duplicates(),下面是官方的函数说明

解释一下各个参数:

  • subset:表示要去重的列名,默认为 None。

  • keep:有三个可选参数,分别是 first、last、False,默认为 first,表示只保留第一次出现的重复项,删除其余重复项,last 表示只保留最后一次出现的重复项,False 则表示删除所有重复项。

  • inplace:布尔值参数,默认为 False 表示删除重复项后返回一个副本,若为 Ture 则表示直接在原数据上删除重复项,改变了原来的数据框。

  • ignore_index:布尔值参数,默认为False,表示保留原来的行索引,若为True,则表示重新设置行索引。

4、实际案例操作

下图是我们需要操作的数据源,从第二行往下都是重复数据。

① 全部列都选中时,就不用设置subset参数

② 设置keep=last,就会看到默认的索引是最后一行

③ 在上面的基础上设置ignore_index=True,可以看到索引进行重新排列

④ 设置keep=False,就会删除所有重复的数据行

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接