补齐缺失值。这种方法的优
点是简便、快速,缺点是要建立在完全随机缺失的假设之上。3热卡填充法或就近补齐对于一个包含空值的变量,本方法是在完整数据中找到一个与空值最
相似的变量,然后用这个相似的值来进行填充。与均值替换法相比,本方法简单易懂还可以保持数据本身的类型,利用本方法填充数据后,其变量值与填充前很接近。但是这种方法也存在不足之处,就是其主观因素较多,还比较耗时。
4使用任何可能的值填充这种方法是用缺失值所有可能的数值来填充,能够起到一个补齐效果。而这种方法的缺点是,当要研究的数据量很大或者缺失的数值较多时,他的计算量很大,需要测试的方案很多。针对其缺点有另外的一种方法,用一样的方法来填补缺失数,不同的是从结果相同的对象中选择所有可能情况的数值,而不是根据所有情况的对象进行尝试,这样能够在一定程度上缓解原方法的不足。5多重填补法多重填补的原理是首先为缺失值产生一系列用来填充的数值,把这个系列中的每一个值都用来填充,产生相对应的一系列的完整的数据集合。再将这些经过填充过的数据集合使用完整数据的方法进行研究。最后把各个填充过的数据集合结果进行综合考量得出结论,这个结论考虑到了数据填补过程中产生的各种不确定性。这种方法的缺点也是不能不重视的:第一,计算很复杂第二,是要求数据集满足贝叶斯假设,这个在现实中很难实现;第三,是多重填补法只适用于统计分析,不适合数据挖掘的需要。(三)不处理既然每种方法都有其不足之处,那么就直接在包含空值的数据上进行数据挖掘。这样既节省了
5
f时间又减轻了负担。但是这种方法也不是完美的,也有其弱点,现实工作中,大家对数据是没有前期知识的,而采用此种方法要求使用者对部分数据先进行假设,但是在没有任何前期知识的情况下,很容易假设出错误的结论,而且即使知道数据中的一些参数,要估计出正确的数值也需要很长的时间,所以说也不是非常实用的。
综合以上三种方法,可以知道,每种方法都适用于不同的条件,而每种方法都有其不足之处。在实际的工作中,我们要根据实际情况正确选择解决方法。
当数据样本很大,而缺失数据所占比例很小的情况下我们可以使用“删除法”;当数据缺失值形式是完全随机缺失,并且样本容量并不大的情况下,可采用“填补法”;当以上两种方法都不实用的情况下我们可以考虑使用“不处理”的方法。针对不同的问题我们不能一概而论,关键是要分清实质,寻找到在当前条件下最r