发布网友
共2个回答
热心网友
你好
一、描述性统计分析
概念:是以概括性数据描述数据特征的各项活动。
通俗的讲就是用儿子代表全家
集中趋势:关于数据“中心位置”的某种表述,也就是常说的“平均起来”
常见的有均数、中位数等
离散趋势:反应数据的波动范围大小
常见的有标准差、方差、四分位数
分布特征:数据的分布应该满足某种特征,比如正态分布
衍生出一系列概念描述数据与正态分布之间的关系,比如偏度系数以及封度系数
二、集中趋势描述指标
算数平均数:使用一个数高度浓缩数据,也就是说平均数是描述一组数到一个数的距离。
使用范围:定距变量,单峰(如上图)或者基本对称的情况下才适用使用平均数。也就是说
均数适用于正态分布(包含极值的称为偏态分布)。在正态分布中均值代表集中趋势。
中位数:是一种位置平均数,将整体各单位按照大小排序,取中间位置的数
捷尾均数:去掉极值之后的均数
三、离散趋势描述指标
极差:最大值与最小值之差。反应数据的离散幅度,或者变异范围。
局限:取决于极端情况:1、不能反应数据分布情况
2、受极端值影响较大,不符合数据稳健性要求
适用于大体上了解数据的波动情况。
方差和标准差:
本质上反应数据与均值的差异情况。这种差异称为离散也称变异。
方差与标准差只适用于正态分布(无极端值)
分位数:
分位数本质上反应的是缩小极端值对变异幅度的影响。
适用范围:样本足够多。只是人为的切割,并非通过计算得出,不如均值和标准差精准。但是
中间位置原理极值,样本稳定。
变异系数:
是标准差与平均数的比值。
本质上是消除数据大小差异(平均数)后的波动情况(标准差)
四、连续变量的参数估计
正态分布:
是关于均值对称的分布,均值处为最大值。同时标准差(个体差异)影响曲线的形态(矮阔尖峭)
偏度:描述分布不对称的方向和程度。
尾巴所在的方向为分布方向
峰度:描述曲线的陡峭程度
标准正态分布:标准差为1,关于0对称
如果偏度系数标准差/峰度系数标准差>2说明不服从正态分布。
五、spss的实现
tvg指偏度系数标准差,利润范围指峰度系数标准差。
热心网友
一、数据处理
1、数据变量
数据类型主要为字符型、数值型和日期型三种。
2、变量尺度
即变量的度量标准。主要为名义(N)——分类变量、度量(S)——连续变量。
3、数据清洗
删除重复项:
利用【数据】→【标识重复个案】→将所有变量放入【定义匹配个案的依据】→【确定】
结果中0代表重复个案,1为唯一个案,升序排列,删除最后一个基本个案值为0的项,重复项就删除了。
4、数据抽取
4.1、字段拆分
打开数据文件→【转换】→【计算变量】→【函数组】→【字符串】→【CHAR.SUBSTR(3)函数】→新建【目标变量】→填写【字符串表达式】→【确定】该函数有三个参数CHAR.SUBSTR(字符串表达式,位置,长度)例如:
CHAR.SUBSTR(‘abcd’,2,2)返回“bc”
4.2、随机抽样
打开文件→【数据】→【选择个案】→【随机个案样本】→【样本】→输入选择随机样本数,可以输入20%的所有个案。
5、数据合并
5.1、字段合并
打开文件→【转换】→【计算变量】→【函数组】→【字符串】→【CONCAT函数】→填写【字符串表达式】→新建【目标变量】→【确定】
Concat(strexpr,strexpr2,,,,,)例如concat(年,“-”,月,“-“,日)strexpr是字符串变量。
5.2、记录合并
打开文件→【数据】→【合并文件】→【添加个案】→【外部SPSS Statistics数据文件】→选择文件→继续→确定
6、数据分组
6.1、可视分箱
打开文件→【转换】→【可视离散化】→【要离散的变量】→选择要离散化的变量→【继续】→命名【离散的变量】→点击【生成分割点】→填写【第一个分割点位置】、【分割点数】、【宽度】→【应用】→【生成标签】→【确定】
6.2、重新编码
打开文件→【转换】→【重新编码为不同变量】→选择【输入变量】→命名【输出变量】→【更改】→【旧值和新值】→【旧值】→【范围】→【新值】→【添加】→【确定】
7、数据标准化
7.1、0-1标准化
对原始数据进行线性变换,使结果落到【0,1】区间。
公式为
X^=x-min/max-min
打开文件→【转换】→【计算变量】→【数字表达式】框中输入公式→命名【目标变量】为标准化值→【类型与标签】→【数值】→【继续】→【确定】
7.2、Z标准化
将变量中的测量值处理成服从标准正态分布的数据值,即均值μ为0,标准差σ为1。
X^=(x-μ)/σ
打开文件→【分析】→【描述统计】→【描述】→选择变量→勾选【将标准化值另存为变量】→【确定】
二、描述性分析
1、频率分析
1.1 分类变量频率分析
打开文件→【分析】→【描述统计】→【频率】→选择要进行频率分析的变量到【变量】→【确定】
1.2 打开文件→【分析】→【描述统计】→【频率】→选择要进行频率分析的变量到【变量】→点击【统计量】选择想要输出的统计量→【继续】→点击【图表】按钮→选择【直方图】勾选【在直方图中显示正态曲线】→勾选【显示频率表】→【确定】
2、描述分析
【分析】→【描述统计】→【描述】→选择变量→【选项】→选择需要输出的统计量→【继续】→【确定】
3、交叉表分析
【分析】→【描述统计】→【交叉表】→选择行变量、列变量→【单元格】选择输出格式,可以勾选【百分比】→【继续】→【确定】
4、数据报表制作
【分析】→【表】→【设定表】→选择变量到行或者列→【摘要统计量】选择想要添加的其他统计量(比如列数N%)→【分类和总计】添加小计/总计→【应用选择】→【确定】
还有不明白的也可以去SPSS中文官网看看。