excel学习库-pandas去重函数：drop

1、去重复函数的含义

就是在一个数据集中，首先根据条件，找到重复的数据，然后进行删除，最终保留唯一的数据集。

2、excel中的操作

在excel中，删除重复项操作很简单，直接选中数据区域，然后点击“数据”菜单下的“删除重复项”。

在弹出的“删除重复值”对话框，选中所有的列即可去除每行都重复的数据。

下图是得出的结果：

3、函数介绍

我们来到Python环境中，通过pandas的去重函数：drop_duplicates()，下面是官方的函数说明

解释一下各个参数：

subset：表示要去重的列名，默认为 None。
keep：有三个可选参数，分别是 first、last、False，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，False 则表示删除所有重复项。
inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项，改变了原来的数据框。
ignore_index：布尔值参数，默认为False，表示保留原来的行索引，若为True，则表示重新设置行索引。

4、实际案例操作

下图是我们需要操作的数据源，从第二行往下都是重复数据。

① 全部列都选中时，就不用设置subset参数

② 设置keep=last，就会看到默认的索引是最后一行

③ 在上面的基础上设置ignore_index=True，可以看到索引进行重新排列

④ 设置keep=False，就会删除所有重复的数据行

excel学习库