1、去重复函数的含义
就是在一个数据集中,首先根据条件,找到重复的数据,然后进行删除,最终保留唯一的数据集。
2、excel中的操作
在excel中,删除重复项操作很简单,直接选中数据区域,然后点击“数据”菜单下的“删除重复项”。

在弹出的“删除重复值”对话框,选中所有的列即可去除每行都重复的数据。

下图是得出的结果:

3、函数介绍
我们来到Python环境中,通过pandas的去重函数:drop_duplicates(),下面是官方的函数说明

解释一下各个参数:
subset:表示要去重的列名,默认为 None。
keep:有三个可选参数,分别是 first、last、False,默认为 first,表示只保留第一次出现的重复项,删除其余重复项,last 表示只保留最后一次出现的重复项,False 则表示删除所有重复项。
inplace:布尔值参数,默认为 False 表示删除重复项后返回一个副本,若为 Ture 则表示直接在原数据上删除重复项,改变了原来的数据框。
ignore_index:布尔值参数,默认为False,表示保留原来的行索引,若为True,则表示重新设置行索引。
4、实际案例操作
下图是我们需要操作的数据源,从第二行往下都是重复数据。

① 全部列都选中时,就不用设置subset参数

② 设置keep=last,就会看到默认的索引是最后一行

③ 在上面的基础上设置ignore_index=True,可以看到索引进行重新排列

④ 设置keep=False,就会删除所有重复的数据行
