统计学精品课程:第三章 数据的描述
当我们面对大量数据时,它通常令人眼花azz乱。没有人能记住这些巨大数据中的所有值,但是它们始终可以给数据留下一些印象。可以简要了解某些功能:
这些数据的大致范围;无论是定性还是定量;那里有多少个变量;收集数据的目的,等等。
本章介绍了如何简单地使用图表和一些数字来汇总数据的某些特征。
当然,由于数据是由人口产生的,因此其特征也反映了人口的特征。数据的描述也是对其整体性质的大概描述。
第1节使用图表表示数据
1。如何使用图表显示数据?
变量分为定性变量和定量变量:
定性变量主要反映现象的分类。
定量变量主要反映现象的数值大小;
因此,用于不同变量的图形表示也不同
2。定量变量的图形表示
代表定量变量的常用图:
直方图,盒子图案,茎和叶子图,散点图
直方图
对于定量变量,例如在某个地区的学校中的男孩的高度(区域1);有163项措施。
如何使用图表表示此数据,以便人们可以看到此数据的一般分布或“形状”?一种方法是绘制直方图。 SPSS选项:图形 - 历史图(图3.1)
图的水平坐标是高度范围,每个网格代表5 cm的高度范围(网格宽度取决于不同的数据或需求),而垂直坐标是各种高度范围的高度的频率。例如,约170厘米(最高的矩形棒)的5厘米范围内有34个观测值,在5厘米近165厘米(第二高的矩形)中有28个观察值,在175厘米附近的5厘米范围内有26个观测值,在175厘米附近的5厘米范围内,只有4个观测值,在2米的范围内只有4个观测值等。在2米的范围内,均均可以划分一个示例图,均可以划分示例图。显然,以百分比获得的数字与频率获得的数字相同。它们的维度不同。
盒子图案
比直方图更简单的是一个箱形图(也称为Boxplot,Boxplot,Boxplot)。图3.2的左侧是一个基于1区高中男孩的高度数据的盒子图;右侧的图表示另一个地区的高中生的高度(2区)。
盒子的中间线是数据的中位数,这是下一节中要引入的数量之一。顾名思义,中位数是占数据中中间位置的数字,即数据的一半大于中位数(上方),而另一半则小于中位数(下方)。 SPSS选项:Graphs-Boxplot(图3.2)
封闭盒的上部和下水平线(边缘)是上四分位数(点);它的含义是:数据中数字的四分之一大于上四分之一的四分之一,即框上方;而且数字的四分之一小于下四分之一,即盒子下方。因此,数字的一半在中间封闭框的范围内。其中一半分布在盒子的两侧。
盒子的上部和下侧有一个垂直线段,表明框外点的分布。通常在一个图中比较几个框图。从数字来看,我们可以看到左侧的测量比右侧的分散得多,但总的来说,区域1的学生似乎更高。默认情况下,如果所有样本中的数字都在四分位数的框长度的1.5倍以内,则行的端点是最大和最小值。四分位数距离的数值点大于盒子长度的1.5倍,并被软件分开指出。盒子长度的距离为三倍的距离是极端值。当然,由不同软件和不同选项生成的框图的线长度的定义是不同的,但是封闭框的长度的定义基本相同。
茎和叶子图
在上面介绍的直方图和框图中,值不再可见,因此很难恢复数据的原始外观。下面介绍了另一种类型的图片:茎和叶图。以第1区的高中男孩的身高为例,茎和叶子图不仅显示了分布形状,而且还具有原始数据。就像叶子的叶子一样。茎是较大的数字。图3.3是用SPSS绘制的地区高中男孩高度(SPSS数据文件:S3Height1.sav)的茎和叶子图,尽管它看起来不像“图片”。
区域1高中男孩身高茎和叶子情节
频茎和叶子
9.00 15。 001223344
17.00 15。 5566666677788999999
20.00 16。 01112222222333333444
35.00 16。 5555566666666677777788888888888889999999
25.00 17。 00000000111122222233333344
24.00 17。 5556666677777777777777888899
13.00 18。 0111111122333
11.00 18。 55667788899
4.00 19。 2333
2.0019。56
3.00极端(> = 198)
茎宽:10.00
每个叶子:1个情况
SPSS选项:分析描述性的统计探索(图3.3),其中茎和叶子图中的茎单位为10厘米,叶子是单位数字。例如,第一行的茎为150厘米,叶子为150、150、151、152、152、152、153、153、154、154厘米等。每条线的左侧有一个频率(例如,第一行上有9个数字,第二行的17个数字等);可以看出,最长的线范围从165厘米到169厘米(有35个数字)。
散点图
人们获得的数据也可能有两个变量,例如美国男女第一次婚姻年度的数据(SPSS数据:婚姻:sav)。该数据描述了一个男人和女人的初婚从1900年到1998年的时间。在这里,这一年是一个变量,婚姻延长是第二个变量。
由于不可能给予所有婚姻年份,因此每年都会将中间价值(中位数)视为代表。从1900年到1960年,每十年就有一个价值,从那时到1990年,每五年就有一个数字,从1995年开始,每年都有一个数字。 SPSS选项:图形划分(图3.4)
由于将其分为男性和女人,因此有两个二维数据。目前,您可以将一个变量用作水平坐标(例如年),而另一个变量为垂直坐标(这里是婚姻年度)来指向图(图3.4)。这种图称为散点图。还可以看出,婚姻年份在1960年代下降,后来增加了。男性平均比女性更长。这张照片是使用SPSS绘制的。为什么男人和女人有不同的初婚?这是因为初婚的配偶不一定是初婚。
3。定性变量的图表:
定性变量(或属性变量,分类变量)不能指出直方图,散点图或茎和叶子图,但它们可以描绘它们的各种比例,通常由饼图和条形图表示。
饼图
图3.5由SPSS绘制,显示了讲世界上各种主要语言的人的比例(SPSS数据:Lagans.sav)。该数字没有显示说各种语言的特定人数,但是可以看到该比例。此外,如果您知道世界上的总人口,则可以大致计算说各种语言的人数。
这种图片称为饼图。如果类别太多,那么饼图就不会那么好。
SPSS选项:Graphs-pie(图3.5)
条形图
图3.6(用SPSS绘制)使用相同的数据(Language.sav)绘制称为条形图。从每篇文章中,我们可以看到说各种语言的实际人数,并且分别给出每种语言中的母语和日常使用的人数(图中并排放置)。
SPSS选项:Graphs-bar
第2节使用少量数字来总结数据的特征
在日常生活中,使用一个或两个数字总结大量数字是很常见的。例如,北京人的平均收入是多少?东方和西方之间的收入差距是多少,高收入人口的百分比等等。这些“平均”,“差距”,或使用数字来汇总的百分比。
1。定性变量的数据描述
由于定性变量主要是计数,并且相对简单开yunapp体育官网入口下载手机版,因此常用的摘要是比例,百分比,中值和模式。
中位数
中位数是按大小安排数据后中间的数字(如果样本大小为奇数)或两个中间数的平均值(如果样本大小为偶数)。
模式
模式是数据最频繁或发生在数据中的值。
在定性变量中,由于记录了频率,因此使用了更多模式。例如,在图3.6中有关语言的饼图中,可以看出指数的数量由“其他”语言表示;这是因为“其他”类别的频率最高,无论是母语还是每日语言。当然,“其他”不是相同的语言。就单语言而言,中国方言仍然是一种模式。
使用SPS描述定性变量的数据,主要选项:
SPSS分析描述性统计频率
2。定量变量的数据描述
统计和整体参数
除图表外,您还可以使用少量的摘要统计信息或汇总统计信息来描述定量变量的数据。
通常有:平均(平均),中值,总数;标准偏差,差异,标准误差。
如果这些数字来自示例数据,则称为统计。
如果这些数字来自人口数据,则称为统计。
由于样品本身是随机的,因此从同一人群中抽取的不同样本也不同。因此,对于不同的数据或样本,统计的值不同。因此统计是随机的。
有时,有些统计信息在“示例”一词之前,将它们与同名的整体参数区分开。
例如,应严格称为“样本平均值”和“样本标准偏差”,以将其与人群的平均值和标准偏差区分开来,应严格称为“样本平均值”和“样本标准偏差”;但是,当没有混乱时,您只能说“平均”和“标准偏差”。下一章将介绍一些总体参数。
数据的“位置”
人们经常说在哪里贫穷,在哪里有钱。人们还经常说,如果有一个高个子的人,哪个国家的人在哪个国家。
那些说这些话的人肯定不会说一个富裕地方的每个人都比一个贫穷的地方都富有,也不说一个国家的人们比另一个国家的每个人都高。他们只是省略了诸如“平均”和“大多数”之类的单词。
这些陈述实际上是数据分布的数据或中心(中心或中心趋势)中变量观察的“中心位置”的某种表达。与此“位置”相关的统计数据称为位置统计。
当然,位置统计数据不一定描述“中心”,例如我们稍后将讨论的K%。
最常用的位置统计数据是小学中学到的算术平均水平,这在统计中被称为平均值。
严格来说,这被称为样本均值,是为了将其与下一章中引入的总体平均值区分开。
样本平均值是变量的观察数。
以前的区域1例如,高中男孩的高度数据为例,平均身高(平均身高)为170.9;这可以在附加到先前直方图的数字中看到。它高于第二区高中男孩的平均身高(平均值为164厘米)。使用统计软件可以轻松获得平均值。
中位数以数据尺寸顺序为中心。
上述上和下四分位数(或第一个四分位数和第三四分位数,第一个分位数,第三分位数)位于数据的上部和下四分之一的三分之一(按大小安排)。
通常,上四分位数也称为75%(75%,75%的观测值小于其小),下四分位数为25%(25%的观测值小于它)。
有了25个百分点和75个百分点的概念,不难理解任意的k级(k-pecentile)是什么(k%观测值小于它)。
如果a = k%,则K-百分位数也称为分位数(a量化)。显然中位数为50%或0.5%。
模式除中位数和平均值外,在样本中的数量最多,称为模式。
在高中男孩的高度数据中,177厘米和168厘米的高度数据为11,因此有两种模式:168和177。
该模式不会反映太多信息,也不一定是唯一的。
在连续变量的情况下,可能没有重复的数据,目前可能没有模式。模式不像平均值和中位数那样普遍。
数据的“比例”
有一个古老的谚语:“不必担心贫穷,担心不平等。”这意味着,如果您贫穷,您不怕贫穷,但是您害怕不公平,并在富人和穷人之间造成太大的差距。
富人和穷人用位置统计数据描述,而“偶数”是否由量表统计描述。
缩放统计是描述数据传播的措施,即描述分散或变化的浓度和程度(扩散或变量)。
从两个高中男孩的高度数据的盒子图(图3.2),可以看出,左侧的数据平均更高,但右侧的数据蔓延得多(值更接近)。
统计数据中有许多指标。一般而言开元ky888棋牌官方版,数据越分散,比例统计的值越大。
常用的量表统计数据包括:极端差异,四分位数偏差,标准偏差和方差。
最简单的是范围;顾名思义,极端差异是最大值和最小值之间的差异。
盒子的长度是两个四分位数之间的差异,称为四分位间差或量式间范围。它描述了观测值的中间部分的扩散。
另一个常用的比例统计量是(样本)标准偏差。它测量了从每个值到样品中平均值的平均值。
标准偏差
标准偏差:它是每个色散平方之和的平均值的开放正方形。
标准偏差实际上是方差的平方根。
关于高中男孩高度的两个数据的标准偏差分别为10.9和5.7。 (差异是它们的正方形:119.1和32.5)。由于差异与数据维度不同,因此在实际应用中并不像标准偏差那样常见。
标准错误
即使它来自相同的人群,不同样本量的不同样本也具有不同的方式。此更改的样本平均值是一个随机变量,也有一个平均值。所有样本的平均值的标准偏差称为标准误差。由于不同的样品产生的平均值比一个样本中的观测值要稳定得多,因此其标准偏差远小于整个数据的标准偏差。
标准误差定义为标准偏差除以样本量的平方根。
例如,区域1中高中男孩数据的标准偏差为10.9,然后除以样本量163的平方根为12.77,然后变为0.85,即10.9/√(163)= 10.9/12.77≈0.85。
第三部分的标准分数
假定两个具有相似级别的类(一级和第二类)参加了相同的课程,但是由于这两位教师的评分标准不同,这两个类别的得分的平均值和标准偏差不同(SPSS数据:SPSS数据:grade.sav)。
分数标准偏差的平均值
班级1 78.53 9.43
第2类70.19 7.00
那么,1级的张Ying(Zhang Ying)是否比第二级得分82分的Liu Shu获得90分?我们如何比较它是有道理的?显然,这些具有不同均值和标准偏差的数据不能直接比较,但是可以标准化,然后可以比较标准化的数据。
一种标准化的方法是将原始观察结果(也称为得分)与平均值除以标准偏差之间的差异;所获得的度量称为标准分数(也称为z得分)。
现在:
然后可以比较来自不同样品的标准分数。
所以:
张Ying的标准分数是:
Liu Shu的标准分数是:
显然,如果这两个类具有相似的水平,那么刘舒的成绩应该比张杨的成绩更好。在标准化之前,这在数据中并不容易看到。
下图显示了两个类(左)的原始等级的框图和标准化后标准等级的标准分数的框图(右)。
可以看出,原始数据接近它们各自的平均值,而利差也不同。但是他们的标准分数分布在0左右,它们几乎相同。
实际上,在这种标准化之后开yun体育app入口登录,任何样品被转化为平均值为0且方差为1的样本。在标准化后,对样品的不同观察结果的比较仅具有相对显着性,没有绝对意义。
尽管标准化后数据的总比例和位置发生了变化,但数据内部的相对位置却没有改变。例如,标准偏差的距离是标准偏差的两倍仍然是标准化后标准偏差的两倍。
这也可以从图中可以看出:每个数据归一化之前和之后的框图相似(在纵向方向上)。
这是因为标准化只是放大(或减少)并纵向移动框图。 1类中的两个离群值仍然是离群值。尽管如此,两个不同的数据仍具有标准化后比较的基础。
标准分数的想法不仅用于比较,而且在后续推论中具有有用性。另外,计算标准分数只是许多标准化方法中最常见的。
要考虑的问题:
1。基于经验的定性和定量变量的例子。
2。对于问题1的信息,绘制各种描述性图形并计算摘要统计信息。
3。举例说明模式,中位数和卑鄙的优势和缺点。
4。标准统计数据表明哪些特征?举一个例子。
5。标准分数实际上是原始数据的标准化。尝试举例说明标准分数的使用。
[来源:首都经济与商业网站]