全球旧事资料 分类
因素人为地认为数据不重要或无用而私自丢弃数据。3调查员信息录入失误。4受访者拒绝透露被调查信息,或回答错误信息。5受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿。6有些信息的获取代价太大。如调查企业的人数,或财务数据,或对信息投资的情况。数据缺失的处理办法数据缺失在统计过程中是一个很重要的问题,全世界都很关注,他的处理方法更是一个新兴的领域,综合各个国家的研究结果,大致有以下几种方法。(一)删除法
3
f这种方法非常简单,当被调查对象出现缺失的变量值,并且这些缺失的变量值占总体数据的总量很小的情况下,这种方法非常有效。解决方法就是将存在缺失的变量值删除,形成一个完整的调查表。但是这种方法有它的不足之处,在删除缺失数据的过程中,减少了原始的数据,导致了信息的损耗,而且丢失了很多包含在被删除数据中的信息。特别是当被研究的数据本身数量很少的时候,删除少量数据就足以影响整体结果的客观性以及正确性。所以,当缺失数据占总体数据比例很大时,这种方法将会导致错误结。
(二)填补法当有数据缺失的记录在整个数据中只占一个很小比例时,可以直接删除缺失记录,对余下的完全数据进行处理。但是在实际数据中,往往缺失数据占有相当的比重,这样做不仅会产生偏差,甚至会得出有误导性的结论,同时丢失大量信息,造成浪费。因此我们使用一种新的方法不同条件下的数据缺失会对统计工作造成不同的影响。针对数据缺失产生的原因及类型,必须采用不同的方法进行处理。每种方法都有不同的特点,适合解决不同类型的数据缺失问题,应充分分析、理解其内涵和外延,使不完全样本的已有信息得到最佳利用。来进行处理。目前,填补法是处理数据缺失时普遍使用的一种技术,就是说给各个缺失数据找一个填充值,用这样的方法得到“完整数据”,然后用标准正常的完整数据的统计方法进行数据分析和推断。1人工填写法专家根据专业知识对缺失数据进行填补,这是一种非常精确的方法。但是他的缺点是费时又费力,当缺失的数值很多时,使用这种方法是基本不可能的。2平均值填充法删除法用以解决少量缺失值,但是当缺失值大量出现时我们就需要使用一种新的方法,即平均值填充法。在处理数据时可以把变量分为数值型和非数值型。如果是非数值型的缺失数据,运用统计学中众数的原理,用此变量在其他对象中取值频数最多
4
f的值来填充缺失值;如果是数值型的缺失值,则取此变量在其他所有对象的取值均值来r
好听全球资料 返回顶部