数据缺失值的插补方法有哪些?

如题所述

一,原题解释:
插补值具有伪随机性质的方法(  )。
A.比率插补
B.最近距离插补
C.回归插补
D.均值插补
正确答案:B


二,估计方法:
1. 均值法(Mean-substitution)
①根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。
②缺点:改变了数据的分布,还有就是有的优化问题会对方差优化,这样会让对方差优化问题变得不准确。
2. 随机填补
①一直感觉这个方法不好,就是随机在那一列属性中找个数填补到缺失值里。
②缺点:不靠谱。
3.热卡填补法(Hot-Deck)
①对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。
②最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。
③然后把所有变量按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。
④缺点:太麻烦。与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近。但在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法用不便,比较耗时。
⑤补充,对应的还有冷卡法(Cold-Deck)。
4.最近距离决定填补法
①假设现在为时间y,前一段时间为时间x,然后根据x的值去把y的值填补好。
②缺点:一般就是在时间因素决定不显著的时候,比如一天的气温,一般不会突然降到很低,然后第二天就升的很高。
③但是对时间影响比较大的,可能就不可以了。


5.回归填补法(Regression)
①假设我y属相缺失,然后我知道x属性,然后我用回归方法对没有确实的数据进行训练模型,再把这个值得x属性带进去,对这个y属性进行预测,然后填补到缺失处。
②缺点:由于是根绝x属性预测y属性,这样会让属性之间的相关性变大。这可能会影响最终模型的训练。
6.多重填补方法(M-试探法)
①它是基于贝叶斯理论的基础上,然后用EM算法来实现对缺失值进行处理的算法。
②对每一个缺失值都给M个缺失值,这样数据集就会变成M个,然后用相同的方法对这M个样本集进行处理,得到M个处理结果,总和这M个结果,最终得到对目标变量的估计。

温馨提示:内容为网友见解,仅供参考
无其他回答
相似回答
大家正在搜