正如图中描述,一些大学会利用“正态分布”来作为参考标准,控制学生分数,“你很优秀,但只能拿79分”,成为一些大学学生的“紧箍咒”。所以我们利用正态分布函数,来反推和对比实际数据是否符合参考标准,从而对实际数据做出判断和决策。
作为一个与数据打交道的人,作者很想讲述一个能够随机分布特定数据集的函数。因为日常就需要生成大量数据,通常我们会使用rand和randbetween函数来生成指定区间的随机值。但在统计学概念下,具体的事件中,它产生的数据具有一定特征,比如考试成绩、医学参考标准、质量参考标准等。
学生考试成绩它总是呈正态分布的,大量数据会在中间水平累积,形成中间高两头低的山峰形态。

所以生成如学生成绩的具有特定“中间高两头低”的数据集,要怎么来做呢?
作者找到了一个函数,通过设置指定平均值和标准偏差值,根据概率随机生成正态累积分布的数据集合。
如下动图所示,使用公式一键输出大量数据,通过四分位函数,输出这组数据的四分位值。

四分位是指数据集的五个点位,最小值、下四分位值、中位数、上四分位值、最大值。
通过这组数据,我们能够生成与四分位的值相匹配的箱型图。

箱型图的作用很明显,就是直观表现数据在箱体累积分布的上下限值。
如果学生的成绩需要符合正态分布,那么大多数的学生成绩,就集中在“358-580”的分数段。
上图中的四分位和箱型图的数据标签值不同,是由于作者只取上方多列数组的第一列,来制作的箱型图。
此外作者通过公式输出了一列正态分布数据集,然后以此为源数据,绘制了一个直方图。

从上方直方图可见,超过一半的数据集中在“353,442”以及“442,531”两个分段。这个现象,非常符合直方图的“二八法则”。
通过这个函数公式,作者就可以随机生成大量不同行业或场景下的数据集,来进行数据的处理和图表的绘制。
接下来我们看函数。
这个函数叫正态累积分布函数——NORMINV。
其含义是返回指定平均值和标准偏差的正态累积分布函数的反函数值。

它的语法表达式为:=norm.inv(概率,平均值,标准偏差值)
简单来理解它的含义,设置一个平均值和标准偏差值,然后根据概率,来生成在平均值及标准偏差值约束下的随机数值。
包含三个参数,第一参数概率是0-1之间的数字,第二参数平均值是这个数据集的中间值,第三参数标准偏差是上下浮动的参考值。
那么现在我们设定平均值为430,标准偏差值为100,概率为rand函数,即0-1之间的随机概率值。则可输入公式为:=INT(NORM.INV(RAND(),430,100))

公式使用了int函数,来向下取整,去除norminv函数得到的小数值。
通过这样一个公式组合,我们就能随机生成具有正态分布特征的数据集,能够极大地方便作者对特定随机数值的生成,减少设置数据源的时间。
那么这个正态分布函数在具体事务中有什么作用呢?
正如前述图中描述,一些大学会利用“正态分布”来作为参考标准,控制学生分数,“你很优秀,但只能拿79分”,成为一些大学学生的“紧箍咒”。所以我们利用正态分布函数,来反推和对比实际数据是否符合参考标准,从而对实际数据做出判断和决策。