数据清洗是数据处理的重要步骤,可以使用Python进行数据清洗,具体步骤如下:
导入需要的库,如pandas、numpy等.

1import pandas as pd
2import numpy as np
读取需要清洗的数据,可以使用pandas库的readcsv()函数读取csv文件或readexcel()函数读取Excel文件。
1data = pd.read_csv('data.csv')
查看数据集中的缺失值或异常值。可以使用info()函数查看数据集的基本信息,使用describe()函数查看数据集的统计信息。
1print(data.info())
2print(data.describe())
处理缺失值。缺失值可以使用fillna()函数进行填充,可以使用dropna()函数删除含有缺失值的行或列。
1# 填充缺失值为0
2data.fillna(0, inplace=True)
1# 删除含有缺失值的行
2data.dropna(axis=0, inplace=True)
处理异常值。可以使用numpy库的percentile()函数计算分位数,使用drop()函数删除异常值所在的行。
1# 计算数据集中的上下四分位数
2Q1 = np.percentile(data['column_name'], 25)
3Q3 = np.percentile(data['column_name'], 75)
4
5# 计算IQR
6IQR = Q3 - Q1
7
8# 计算异常值的界限
9lower_limit = Q1 - 1.5 * IQR
10upper_limit = Q3 + 1.5 * IQR
11
12# 删除异常值所在的行
13data.drop(data[(data['column_name'] < lower_limit) | (data['column_name'] > upper_limit)].index, inplace=True)
处理重复值。可以使用duplicated()函数查找重复值,使用drop_duplicates()函数删除重复值。
1# 查找重复值
2print(data.duplicated())
3
4# 删除重复值
5data.drop_duplicates(inplace=True)
将清洗后的数据保存到新的文件中。
1data.to_csv('cleaned_data.csv', index=False)