excel学习库

excel表格_excel函数公式大全_execl从入门到精通

技巧分享:数据分析中聚合的力量

本文稍涉及一点统计方面的知识。总体阅读难度不高,全文3000多字。所分享的技巧方法更加简便。欢迎阅读。

观察数据

今天我们来探讨在观察数据过程中,聚合的利与弊,这样当我们今后阅读分析报告时,可以对其中聚合数据所呈现的含义做出相对客观准确的判断。我们来看一个例子。下方图1是一个真实的销售数据。让我们沿着时间先后顺序观察销售数量的走势变化。

图1 销售量数据

从图1中,我们能观察出什么呢?似乎不太容易看出什么名堂。图中显示的每天销售量数据,呈现出一定的波动性。如果想要进一步,我们能描述的大概是销售量在一段时间内似乎呈现出一定的波峰和波谷,比如第二季度的5月份,显示很像是一个销量的波谷。而从全年数据看,年初的销量数据高于年尾。不过这一切都还不确定,也许它们是正常范围内的波动。

如果我们掌握了一点统计知识,可以考虑用类似t检验这样的方法来确定前后两个时间段内,销量数据是否有显著的变化。但有时候这样做显然还不够方便。除了操作方法有一点门槛外,我们还需要仔细考虑划分时间点前后样本是否可比较的,也就是说没有明显的条件上的变化。否则我们是不能轻易实用假设检验这类方法的。这里我们换一种思路,如何用聚合的方式,仅靠观察就能对数据情况做出相对可靠的判断。

聚合

图2 月度销售量数据

相比图1,图2中的销量数据看起来季节性(相对短期周期性的一种叫法)更明显一些, 每个季度中的某一月都会重复出现一次销量的波谷。但是现在观察全年的销量,似乎趋势比较平坦,没有出现明显的上升或下降趋势。如果要更细致描述数据的情况,我们可能会认为后两个季度的月度销售数据,看起来波动没有前两个季度的月度销量数据大。到目前为止,我们对全年销售数据的整体印象,仍然处于比较模糊的状态,能够描述一些局部的细节信息,但是如果要回答全年销量数据的情况,证据还不足。那么让我们继续聚合它。这次将时间维度聚合到季度这一粒度。销量数据如下方图3所示。

图3 季度销量数据

现在看图3,十分清晰直观了。由于我们只有一年的数据,所以4个季度的销量还不足以显示出年这样的时间粒度的季节性,但是全年的销量趋势已十分地明显。图3明白无误地显示出销量随着季度逐步降低。观察具体的销量下跌幅度,从第一季度的大约24500单位数量,到第四季度的大约22500单位数量,平均每个季度大约下滑约500个单位数量。如果想要更精细地求解下滑幅度,可以使用Excel中的添加趋势线,将拟合直线的公式显示出来。如下方图4所示。

图4 带趋势线的季度销量

图4精确地显示出,平均每个季度下降582单位数量。数量看似不是很多,582/3=194,平均每个月下滑194单位销量,但是它实实在在影响到了企业的收入。因此有必要就此展开更细致的调查,比如检验是哪些商品、品类的销量在下滑,等等。

通过季度销量的可视化,我们可以有把握地确认销量数据的变化趋势,这种情况下无需再进行假设检验。

用透视表快速聚合

快速地对数据进行聚合并可视化,大多数场景下最方便的工具目前莫过于Excel的透视表。透视表可以沿着时间维度,轻松自由地聚合想要的时间粒度。对透视表中数据做的可视化图表,也会随之变化。比如本例中,我们选中透视表中的时间字段数据,右键单击鼠标——点击“组合”,将看到一个时间粒度的对话框(Excel中用“步长”表示),将我们要聚合的时间粒度选中,比如增加选中“季度”,就可以了。方法如下方图5所示。

图5 对透视表中的时间维度聚合更高粒度

为什么聚合会有效果?

独立同分布不同分布

图6 不同时间粒度下聚合数据集的变异系

我们看到,随着聚合粒度越来越大(从天到季度),变异系数在不断减小。这就存在这样一种现象,当时间粒度越来越大时,聚合数据的波动程度相比数据值本身,变异幅度越来越小。实际上由于我们聚合数据,通常是出于某种合乎逻辑的理由,所以数据之间往往还包含一定的相关性(如自相关),对于这种“合乎逻辑”的聚合,往往其效果是降低了数据的波动性。

聚合方法的利与弊

以上解释了聚合能够提高数据的“解释能力”和“抗变异性能力”。实践应用中,前者可以给我们的分析带来好处,但后者也可能给分析带来障碍。由于聚合本质上是降低了数据的波动,所以如果数据在聚合情况下,依然反映出某些异常,则多半意味着业务过程中确实存在问题。

那么反过来思考,如果聚合情况下没有发现数据有异常,能否说明业务过程就真的没有问题呢?答案显然是否定的。所以聚合数据并不适合作为观察和监测业务的首选,监测、分析数据应当首选原始粒度的数据,总体原则是比我们关注的变化粒度再小一级为佳。比如我们要研究月度指标,那么最好能收集到每天的业务数据。回到本文中举例的销量数据。我们只需要将原单日销量数据,改为上半天和下半天销量(这是每天24小时销售的业务),就可以发现上半天和下半天销售规律其实并不一样,有些天里半天销售数据其实有异常,但是把它们聚合,变成单日销量数据时,异常消失了。如下方图7所示,红色方块标注的是6-14日数据,单日销量和下半天销量看起来都属于正常,但是上半天的销量其实是有问题的。所以如果我们这里只看单日的聚合销量数据,就不可能发现隐藏在业务中的问题。

图7 用半天销量分解整日销量 发现异常

但现实日常分析过程中,聚合数据作为监测数据随处可见,比如现在相当的公司和经营个体都在使用平台类企业组织提供的业务监测数据(如网店与电商平台,外卖餐饮与外卖平台,网站与网站流量监测提供商等等),这些平台提供的所谓数据,其实大都是聚合数据。原始粒度或细粒度的数据,通常不提供。现在我们知道,这类数据描述和监测业务变化的能力,其实是有限的,甚至可以说,聚合数据事实上“隐藏”了业务中异常的波动。想想看,这对业务的监控和提升带来多少潜在负面影响。

当今商业对数据资产的重视与日俱增。资产是能够转化成利润的资源。数据资产之所以能称为资产,原因在于它包含了企业经营中的大量信息。当聚合数据无法有效地发现这些信息时,这个“资产”其实是贬值的。这也是为什么我们赞同企业应当建立自己的数据收集、数据管理系统和流程的原因所在——通过采集原始粒度、细粒度的有效数据,帮助企业从分析过程中发现业务流程价值,从而建立企业自身的真正的数据资产。而对于需要阅读分析报告的个人而言,当我们遇到报告中的聚合数据时,当对其影响有充分的认识,应意识到即使聚合数据表面显示情况一切正常,但这并不意味着底层没有发生实质的变化,而捕捉这样的变化恰恰是我们分析的原目的。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接