① 面对有大量缺失值的数据应该怎样处理比较合理
避重就轻咯
② 如何处理数据中的缺失值
一、常用方法 1. 删除
最简单的方法是删除,删除属性或者删除样本。如果大部分样本该属性都缺失,这个属性能提供的信息有限,可以选择放弃使用该维属性;如果一个样本大部分属性缺失,可以选择放弃该样本。虽然这种方法简单,但只适用于数据集中缺失较少的情况。
2. 统计填充
对于缺失值的属性,尤其是数值类型的属性,根据所有样本关于这维属性的统计值对其进行填充,如使用平均数、中位数、众数、最大值、最小值等,具体选择哪种统计值需要具体问题具体分析。另外,如果有可用类别信息,还可以进行类内统计,比如身高,男性和女性的统计填充应该是不同的。
3. 统一填充
对于含缺失值的属性,把所有缺失值统一填充为自定义值,如何选择自定义值也需要具体问题具体分析。当然,如果有可用类别信息,也可以为不同类别分别进行统一填充。常用的统一填充值有:“空”、“0”、“正无穷”、“负无穷”等。
4. 预测填充
我们可以通过预测模型利用不存在缺失值的属性来预测缺失值,也就是先用预测模型把数据填充后再做进一步的工作,如统计、学习等。虽然这种方法比较复杂,但是最后得到的结果比较好。
二、具体分析
上面两次提到具体问题具体分析,为什么要具体问题具体分析呢?因为属性缺失有时并不意味着数据缺失,缺失本身是包含信息的,所以需要根据不同应用场景下缺失值可能包含的信息进行合理填充。下面通过一些例子来说明如何具体问题具体分析,仁者见仁智者见智,仅供参考:
“年收入”:商品推荐场景下填充平均值,借贷额度场景下填充最小值; “行为时间点”:填充众数; “价格”:商品推荐场景下填充最小值,商品匹配场景下填充平均值; “人体寿命”:保险费用估计场景下填充最大值,人口估计场景下填充平均值; “驾龄”:没有填写这一项的用户可能是没有车,为它填充为0较为合理; ”本科毕业时间”:没有填写这一项的用户可能是没有上大学,为它填充正无穷比较合理; “婚姻状态”:没有填写这一项的用户可能对自己的隐私比较敏感,应单独设为一个分类,如已婚1、未婚0、未填-1。
③ 分析股票时单独一天历史数据缺失 怎么处理
一共有2个办法:
1、进入数据管理,下载全部数据!
2、进入文件夹,找到DATA,然后再DAY里面找到该股的代码,将这个股单独删除,然后再开软件,软件会自动补充数据!
④ spss数据录入时缺失值怎么处理
录入的时候可以直接省略不录入
分析的时候也一般剔除这样的样本。但也有替换的方法,一般有:
均值替换法(mean imputation),即用其他个案中该变量观测值的平均数对缺失的数据进行替换,但这种方法会产生有偏估计,所以并不被推崇。
个别替换法(single imputation)通常也被叫做回归替换法(regression imputation),在该个案的其他变量值都是通过回归估计得到的情况下,这种
方法用缺失数据的条件期望值对它进行替换。这虽然是一个无偏估计,但是却倾向于低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。
多重替代法(multiple imputation)(Rubin, 1977) 。
它从相似情况中或根据后来在可观测的数据上得到的缺省数据的分布情况给每个缺省数据赋予一个模拟值。结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断(Little and Rubin,1987; ubin,1987, 1996)。
⑤ 缺失值怎么处理
缺失值分为用户缺失值(User Missing Value)和系统缺失值(System Missing
Value)。用户缺失值指在问卷调查中,把被试不回答的一些选项当作缺失值来处理。用户缺失值的编码一般用研究者自己能够识别的数字来表示,如“0”、“9”、“99”等。系统缺失值主要指计算机默认的缺失方式,如果在输入数据时空缺了某些数据或输入了非法的字符,计算机就把其界定为缺失值,这时的数据标记为“?”。
一、定义缺失值
SPSS有系统缺失值和用户缺失值两类缺失值,系统默认为None(无)。当需要定义缺失值时,单击Missing下的含有“None”单元格,便进入图2-4的“缺失值”窗口。缺失值有以下3种选项:
No missing values:没有缺失值。
Discrete missing values:定义1~3个单一数为缺失值。
Range plus one optional discrete missing
values:定义指定范围为缺失值,同时指定另外一个不在这一范围的单一数为缺失值。
至于其他如单元格列长度(Columns)、单元格字符排列方向(Align)和数据量度(Measure)等均是不常用,一般使用系统默认值就可以了,以便减少工作量。
二、缺失值的处理
一般情况下,定义缺失值后的变量可以进行描述统计、相关分析等统计分析。但是,由于缺失值的出现往往会给统计分析带来一些麻烦和误差,尤其在时间序列分析中更是如此。在COMPUTE命令中,某个变量带有缺失值,则带有缺失值的个案也变成缺失值了。如图所示:
一般地,对缺失值的处理可采用如下方法:
第一,替代法。即采用统计命令Transform→Replace Missing
Values进行替代,或在相关统计功能中利用其【Opions】等参数进行替代。例如对上图表中的数据缺失值的处理:以T49这个变量中的所有数据的平均数为替代值,然后再进行COMPUTE命令处理。如图所示:
第二,剔除法。即剔除有缺失值的题目,或剔除有缺失值的整份问卷。
⑥ eviews中运用某个股票的价格拟合ARIMA模型,如何处理其中的缺失值
eviews拟合ARIMA模型问题均可+名中我QQ来给以解决。
⑦ 数据清理中,处理缺失值的方法有哪些
删除含有缺失值的个案
可能值插补缺失值
(1)均值插补
(2)利用同类均值插补。
(3)极大似然估计(Max Likelihood ,ML)
(4)多重插补(Multiple Imputation,MI)
⑧ 股票收盘价为缺失值时移动平均值该如何处理
股票移动平均线是按照实际交易周期计算的,以日线为例,如果当日没有交易,就不计算,有几天计算几天.
例如10天内肯定会有周六周日,周六周日也不交易也不用计算在内,你看股票走势图上面那个时间不是连续的,所以说250日均线相当于年线
⑨ 股票开盘收盘成交量数据缺失怎么补充
股票开盘收盘的成交量的数据缺失,可以重新卸载,安装交易软件就可以弥补这个损失
⑩ 在处理股票收盘价时,一般停牌日的缺失数据怎么处理
在系统里有盘后数据下载
试试吧