excel学习库

excel表格_excel函数公式大全_execl从入门到精通

表哥表姐看过来!如何用Python轻松取代Excel

概述 excel占领办公领域已经大半个世纪,进入人工智能新时代后,其霸主地位受到python等语言和工具的挑战。编程不再是专业人士的专利,而是“飞入寻常百姓家”的日用工具了,在前面那篇表哥表姐!是时候扔掉Excel了文章里,已经阐明了这个观点。用Python来做Excel的活接下来,我们会用更实际的例子来证明Python已经是Excel无可比拟的对手,是Excel的掘墓人。在这些例子里会展示一些常见的Excel任务以及如何在python的pandas中执行类似的任务。虽然例子有些微不足道,但足够能体现用python来化繁为简的创造性的解决问题的能力呢。 向行添加总和 介绍的第一项任务是汇总列数据,并添加总列。 首先将excel数据导入到pandas数据帧中。 import pandas as pdimport numpy as npdf = pd.read_excel("excel-comp-data.xlsx")df.head()结果如下:接下来,进行求和: df [ “total” ] = df [ “Jan” ] + df [ “Feb” ] + df [ “Mar” ] df .head()接下来,按每个月汇总。以下是执行的操作,如Excel中所示:如上图所示,在excel中用 SUM(G2:G16) 在每列中添加了第17行,以按月获得总计。 这种列操作在python中简直是小意思。 df [ “Jan” ] 。sum (), df [ “Jan” ] 。mean (),df [ “Jan” ] 。min (),df [ “Jan” ] 。max ()(1462000,97466.666666666672,10000,162000) 自动纠错转换 再举一个例子,将状态缩写添加到数据集中。从Excel的角度来看,最简单的方法可能是添加一个新列,对州名进行vlookup并填写缩写。 这里是excel操作结果:您会注意到执行vlookup后,有些值无法正确显示。那是因为拼错了一些州。在在大数据集情况下,Excel中处理这将是非常具有挑战性的。 幸运的是,python可以搞定,而且非常容易。wuzzy库非常棒,可以自动纠错。 首先安装wuzzy 库。 pip install wuzzy 首先导入适当的fuzzywuzzy函数并定义我们的状态映射字典。 from fuzzywuzzy import fuzzfrom fuzzywuzzy import processstate_to_code = {"VERMONT": "VT", "GEORGIA": "GA", "IOWA": "IA", "Armed Forces Pacific": "AP", "GUAM": "GU","KANSAS": "KS", "FLORIDA": "FL", "AMERICAN SAMOA": "AS", "NORTH CAROLINA": "NC", "HAWAII": "HI", "NEW YORK": "NY", "CALIFORNIA": "CA", "ALABAMA": "AL", "IDAHO": "ID", "FEDERATED STATES OF MICRONESIA": "FM", "Armed Forces Americas": "AA", "DELAWARE": "DE", "ALASKA": "AK", "ILLINOIS": "IL", "Armed Forces Africa": "AE", "SOUTH DAKOTA": "SD", "CONNECTICUT": "CT", "MONTANA": "MT", "MASSACHUSETTS": "MA", "PUERTO RICO": "PR", "Armed Forces Canada": "AE", "NEW HAMPSHIRE": "NH", "MARYLAND": "MD", "NEW MEXICO": "NM", "MISSISSIPPI": "MS", "TENNESSEE": "TN", "PALAU": "PW", "COLORADO": "CO", "Armed Forces Middle East": "AE", "NEW JERSEY": "NJ", "UTAH": "UT", "MICHIGAN": "MI", "WEST VIRGINIA": "WV", "WASHINGTON": "WA", "MINNESOTA": "MN", "OREGON": "OR", "VIRGINIA": "VA", "VIRGIN ISLANDS": "VI", "MARSHALL ISLANDS": "MH", "WYOMING": "WY", "OHIO": "OH", "SOUTH CAROLINA": "SC", "INDIANA": "IN", "NEVADA": "NV", "LOUISIANA": "LA", "NORTHERN MARIANA ISLANDS": "MP", "NEBRASKA": "NE", "ARIZONA": "AZ", "WISCONSIN": "WI", "NORTH DAKOTA": "ND", "Armed Forces Europe": "AE", "PENNSYLVANIA": "PA", "OKLAHOMA": "OK", "KENTUCKY": "KY", "RHODE ISLAND": "RI", "DISTRICT OF COLUMBIA": "DC", "ARKANSAS": "AR", "MISSOURI": "MO", "TEXAS": "TX", "MAINE": "ME"} 以下是wuzzy模糊文本匹配功能如何工作的一些例子。 process.extractOne("Minnesotta",choices=state_to_code.keys())('MINNESOTA', 95)process.extractOne("AlaBAMMazzz",choices=state_to_code.keys(),score_cutoff=80) 现在我们知道它是如何工作的,创建函数来获取状态列并将其转换为有效的缩写。对此数据使用80 score_cutoff。您可以使用它来查看适用于您的数据的数字。你会注意到要么返回一个有效的缩写,要么np.nan 字段中有一些有效的值。 def convert_state(row):abbrev = process.extractOne(row["state"],choices=state_to_code.keys(),score_cutoff=80) if abbrev: return state_to_code[abbrev[0]] return np.nan 在想要的位置添加列,并用NaN值填充它: df_final.insert(6, "abbrev", np.nan)df_final.head()使用 apply 将缩写添加到approriate列中。 df_final [ 'abbrev' ] = df_final 。apply (convert_state , axis = 1 )df_final.head()一个非常简单的智能清理数据功能开发完毕。当数据只有15行左右时,这不是什么大问题。但是,如果有15,000呢?难道你想在Excel中一行行手动来处理这些? 分类汇总 本文的末尾,按州汇总一些数据。 在Excel中,将使用该 subtotal 工具执行此操作。输出看起来像这样:在pandas中创建小计是使用groupby来实现汇总。 df_sub = df_final [[ “abbrev” ,“Jan” ,“Feb” ,“Mar” ,“total” ]] 。groupby ('abbrev' )。sum ()df_sub接下来,通过使用 applymap 数据框中的所有值将数据格式化为货币。注意,定义的money函数,用在apply里很高效。 def money(x):return "${:,.0f}".format(x)formatted_df = df_sub.applymap(money)formatted_df处理后的格式看起来不错,接下来按月份进行汇总。 sum_row=df_sub[["Jan","Feb","Mar","total"]].sum()sum_rowJan 1462000Feb 1507000Mar 717000total 3686000dtype: int64 将值转换为列并对其进行格式化。 df_sub_sum = pd 。DataFrame (data = sum_row )。T df_sub_sum = df_sub_sum 。applymap (money )df_sub_sum最后,将总值添加到DataFrame。 final_table = formatted_df.append(df_sub_sum)final_table您会注意到数据的最末尾索引为“0”。如何重命名为一个有意义的名字呢?用 rename 。 final_table = final_table.rename(index={0:"Total"})final_table最后发现,索引变为了Total,一切都很完美了! 结论 希望本文能帮助到那些希望替换掉Excel并换用Python的朋友。希望这些例子可以帮助其他人相信他们可以用Python来避免大量Excel数据操作。如果您有其他Excel操作,自己试验过,但是仍然没成功,而且想要学习如何在python里来进行相应操作,请通过以下评论告诉我,我会尽力提供帮助。 本文涉及的标签: ExcelPython新泽西州新罕布什尔州佛蒙特州马里兰州田纳西州特拉华州新墨西哥州密西西比州马萨诸塞州爱达荷州蒙大拿州北卡罗来纳州弗吉尼亚州阿拉斯加纽约堪萨斯州西弗吉尼亚州犹他州科罗拉多州密歇根州Windows Vista夏威夷州伊利诺伊

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接