excel学习库-使用python做数据清洗

数据清洗是数据处理的重要步骤，可以使用Python进行数据清洗，具体步骤如下：

导入需要的库，如pandas、numpy等.

1import pandas as pd
2import numpy as np

读取需要清洗的数据，可以使用pandas库的readcsv()函数读取csv文件或readexcel()函数读取Excel文件。

1data = pd.read_csv('data.csv')

查看数据集中的缺失值或异常值。可以使用info()函数查看数据集的基本信息，使用describe()函数查看数据集的统计信息。

1print(data.info())
2print(data.describe())

处理缺失值。缺失值可以使用fillna()函数进行填充，可以使用dropna()函数删除含有缺失值的行或列。

1# 填充缺失值为0
2data.fillna(0, inplace=True)

1# 删除含有缺失值的行
2data.dropna(axis=0, inplace=True)

处理异常值。可以使用numpy库的percentile()函数计算分位数，使用drop()函数删除异常值所在的行。

 1# 计算数据集中的上下四分位数
 2Q1 = np.percentile(data['column_name'], 25)
 3Q3 = np.percentile(data['column_name'], 75)
 4
 5# 计算IQR
 6IQR = Q3 - Q1
 7
 8# 计算异常值的界限
 9lower_limit = Q1 - 1.5 * IQR
10upper_limit = Q3 + 1.5 * IQR
11
12# 删除异常值所在的行
13data.drop(data[(data['column_name'] < lower_limit) | (data['column_name'] > upper_limit)].index, inplace=True)

处理重复值。可以使用duplicated()函数查找重复值，使用drop_duplicates()函数删除重复值。

1# 查找重复值
2print(data.duplicated())
3
4# 删除重复值
5data.drop_duplicates(inplace=True)

将清洗后的数据保存到新的文件中。

1data.to_csv('cleaned_data.csv', index=False)

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

使用python做数据清洗2024-08-21 17:43:40