excel学习库

excel表格_excel函数公式大全_execl从入门到精通

孙医生工作室带你学统计学(挑战SCI)第四天——统计描述指标

作者/风仕

在上一期我们主要讲了医学统计方法的选择,一旦确认统计方法,接下来就开始统计分析了,这一期主要讲统计分析中的统计描述指标。

对于统计描述,首先分析是定(计)量资料(变量)还是定性资料(变量),然后进一步分类,定(计)量资料(变量)又可以分为连续型变量和离散型变量(只取整数),定性资料(变量)又可以分为分类(计数)资料(分为二分类资料和无序多项分类资料)和等级资料(也称为有序多分类资料)。

定量资料(变量)

1.集中趋势的描述

统计学用平均数这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有 算术均数、几何均数和中位数。

算术均数:简称均数,可用于反映一组呈对称分布的变量值在数量上的平均水平。

几何均数:可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平, 在医学研究中常适用于免疫学的指标。

中位数:是将n个变量值从小到大排列,位置居于中间的那个数。当n为奇数时取位次居中的变量值,当n为偶数时取位次居中的两个变量值的均数。它适用于各种分布类型的资料,尤其是偏态分布资料和一端或两端无确切数值的资料。其计算公式为

百分位数是一种位置指标,用Px来表示,读作第X百分位数。一个百分位数Px将全部变 量值分为两部分,在Px处若无相同变量值,则在不包含Px的全部变量值中有X%的变量值小于它,(100- X)%变量值大于它。故百分位数是一个界值,其重要用途是确定医学参考值范围(reference range)。中位数实际上是第50百分位数。

2.离散趋势的描述

离散趋势指的是计量资料所有变量值偏离中心位置的程度,要全面刻画一组数据(变量值)的数量特征,除计算平均指标外,还必须计算反映离散程度的指标。描述离散程度的常用指标有极差、 四分位数间距、方差、标准差和变异系数。

极差:如前所述,极差即一组变量值的最大值与最小值之差。极差计算简便,概念清晰,因而应用比较广 泛,如说明传染病、食物中毒的最长、最短潜伏期等。

四分位数:是把全部变量值分为四部分的分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(Qu=P75)。四分位数间距是由第3四分位数和第1四分位数相减 而得,记为QR。它一般和中位数一起描述偏态分布资料的分布特征。

方差:也称均方差(mean square deviation),反映一组数据的平均离散水平。就总体而言,应该考虑其每一个变量值X与均数μ的差值,即离均差(X-μ)。由于(X-μ)有正有负,使得∑(X-μ)=0,故 离均差和∑(x-μ)无法描述一组数据的变异大小。倘若将离均差(X-μ)平方后相加得到∑(x-μ)²,此为离均差平方和,后者消除了正、负值的影响。但离均差平方和尚未考虑到变量值个数N的影响。即N越大,∑(x-μ)²也越大。为解决此问题,可将离均差平方和除以N, 则得到了方差,总体方差用σ²表示。

标准差:是方差的正平方根,其单位与原变量值的单位相同。总体标准差用σ表示。

样本方差:一般情况下,总体均数μ未知,需用样本均数x估计。数理统计证明:若用样本个数n代替N,计算出的样本方差对σ²的估计偏小,需将n用n-1代替。样本方差记为S²

变异系数:记为CV,多用于观察指标单位不同时,如身高与体重的变异程度的 比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。

定性资料(变量)

1.等级变量(也称为有序多分类资料)

计量数据是老大,前面已经描述完毕,变量家族的老二是等级变量,等级变量描述可以用中位数、秩均值和众数。

中位数:前面已说,此处不赘。

秩均值:的意思是按照数值大小排序,然后提取每个数据的位次(秩次),然后求这么多数据的秩次的均值,简称秩均值。这在后面非参数检验会用到。

众数:是一组数据中,出现频次最多的数,如一组数据1、2、2、2、3、4,则众数为2。

2.分类(计数)资料(分为二分类资料和无序多项分类资料)

计数变量为老三,其反映数据间互不相容的属性和类别。对于老三描述指标有率、 构成比和相对比。

率:率是指在一定范围内某现象实际发生数与可能发生某现象的总数之比。应用意义为常用于判定某种现象发生的强度与频率。简单点就是实际发生数与可能发生该现象的观察单位数之比,实际除以可能。

构成比:表示事物内部各个组成部分在整体中所占的比重,通常以100%为比例基数,以百 分比表示。局部除以全体。应用意义为说明事物内部各部分所占的比重或分布。

相对比:定义为两个有关的指标之比。应用意义为说明两个指标的对比水平,即一个指标是 另一个指标的几倍或百分之几。

小结

对于呈对称分布的计量数据,我们通常采用(x±s)表示,而对于偏态分布数据常 用中位数(四分位数间距),即M(Q)表示;而对于计数数据的三个指标中,率和构 成比在统计上应用较多,常可以进行卡方检验等统计分析。计量和计数数据更为常见, 而等级数据分析更容易出错。

以下是使用SPSS操作出相关结果

1.连续数据的描述统计

1)分析→描述统计→描述

这个菜单使用频率非常高,不管是连续数据还是分类数据,其实都可以放进去,主要方便快速关注一下数据的最小值,最大值,平均值,标准差(后面这两个指标适合连续数据)。


缺点是不能看分组描述统计,如果你一定要,那么可以提前拆分数据再描述统计。


2)分析→描述统计→探索

探索分析可以针对连续数据给出描述统计以及统计图形。

它默认是箱图和茎叶图,我建议把茎叶图调整为直方图。国内人好像不怎么习惯看茎叶图。

看描述统计指标的具体值,再通过直方图、箱图看数据的分布、异常值等。信息很丰富,判断也是一目了然。

探索分析菜单的优点还有一个,那就是可以做分组的描述统计。以连续数据为目标,再给一个分组数据,输出不同组下目标连续数据的分布情况。

箱图会直接给出分组的箱图,做对比观察效果是很棒的。

2.分类数据的情况分析→描述统计→频率

1)分类数据的描述统计,主要就是分类水平的频数、百分比,以及条形图。

在操作上,记得一定勾选上频率表选项,以及再要求绘制一个条形图。

结果也是一目了然的。


2)其他描述统计

1)分析→比较平均值→平均值

适合快速做一个针对连续数据的分层描述统计。

2)分析→表→定制表

定制表功能比较灵活,可以针对连续数据,分类数据做各种描述统计。它更像是excel的透视表功能,可以方便我们去汇总、钻取数据。

看看结果,

缺点是不能像Excel那样更新原始数据源时,透视表结果能自动更新。

欢迎关注我,让你身边多一位熟悉统计分析方法的帮手,有以下付费视频或服务可供选购:

1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效

2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高

3.购买视频课程赠送课程相关主题内容1对1答疑1年。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接