欢迎来到天天文库
浏览记录
ID:68946335
大小:142.00 KB
页数:14页
时间:2022-01-02
《R语言学习系列14-缺失值及缺失模式》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、..14.缺失值及缺失模式目录:一.什么是缺失值?二.识别缺失值三.缺失模式及处理方法四.判断缺失模式正文:一、什么是缺失值?1.缺失值缺失值是任何数据集中经常出现的问题,无答复、录入错误等调查中常会出现的现象都会导致缺失数据。缺失值通常会用一些特殊符号进展标记,比方9999、1990年1月1日,或者是“*〞、“?〞、“#〞、“$〞等符号。还有一种数值缺失情况,是统计的时间窗口并非对所有数据都适合。例如,需要“客户近6个月的最大存款余额〞,对于那些建立账户尚不满6个月的客户来说,统计出来的数值与想
2、要得到的就可能存在差距。-.jz*..缺失数据会影响分析工作的进展和统计工作的效率,还会导致分析的偏差。数据使用者、分析者往往缺乏缺失值处理方面的知识,仅仅对数据进展简单删除或插补会影响数据规模和数据构造,进而影响分析结果。一般来说,对缺失值的填充方法,最好是先判断其缺失模式,再建立一些适当模型,根据数据的分布来填充一个更恰当的数值。R语言中,缺失值用NA表示。2.缺失值的产生原因(1)有些信息暂时无法获取(2)有些信息是被遗漏的(3)有些对象的某个或某些属性是不可用的(4)有些信息〔被认为〕是不
3、重要的(5)获取这些信息的代价太大(6)系统实时性能要求较高3.NA与NULL区别:NA表示数据集中的该数据遗失、不存在。在针对具有NA的数据集进展函数操作的时候,该NA不会被直接剔除。如x<-c(1,2,3,NA,4)那么mean(x)为NA-.jz*..如果想去除NA的影响,需要显式告知mean方法,如mean(x,na.rm=T)另外,NA会“追随〞其他数据的类型。NULL表示未知的状态。它不会在计算之中,如x<-c(1,2,3,NULL,4)那么mean(x)为2.5NULL是不算数的,l
4、ength(c(NULL))为0,而length(c(NA))为1。可见NA“占着〞位置,它存在着,而NULL没有“占着〞位置,或者说,“不知道〞有没有真正的数据注:NaN表示“非数,不可能的值〞,其识别函数为is.NaN()Inf和-Inf分别表示正无穷和负无穷,其识别函数为is.infinite()4.处理缺失值的根本步骤(1)识别缺失值(2)判断缺失模式〔完全随机缺失、随机缺失、完全非随机缺失〕(3)处理缺失值〔删除、用适宜的方法插补〕5.处理缺失值的方法及包-.jz*..二、识别缺失值在数
5、据预处理中,首先要做的通常是判断是否存在缺失值。判断是否为缺失值的函数是is.na(),可以应用于向量、数据框等多种对象,返回逻辑值。另一个常用函数是VIM包中的plete.cases(),判断每个观测样本是否完整,TRUR表示完整。library(mice)#数据集nhanes2为mice包自带数据集,25个观测值,4个变量is.na(nhanes2)#判断每个值是否为缺失值,只粘贴局部运行结果agebmihypchl1FALSETRUETRUETRUE2FALSEFALSEFALSEFALSE
6、sum(is.na(nhanes2))#共有几个缺失值[1]27#计算每列的缺失百分比Rate<-function(x){sum(is.na(x))/length(x)*100}apply(nhanes2,2,Rate)agebmihypchl0363240plete.cases(nhanes2)#判断每个样本是否完整-.jz*..[1]FALSETRUEFALSEFALSETRUEFALSETRUE[8]TRUETRUEFALSEFALSEFALSETRUETRUE[15]FALSEFALSET
7、RUETRUETRUEFALSEFALSE[22]TRUETRUEFALSETRUEsum(!plete.cases(nhanes2))#不完整样本的个数[1]12三、缺失模式及处理方法1.缺失模式缺失模式是描述缺失值与观测变量间可能的关系。从缺失的分布来讲,缺失值可以分为:完全随机缺失〔MCAR〕:某变量缺失值发生的可能性与其他变量无关也与该变量自身无关。换句话说,某变量缺失值的出现完全是个随机事件。可以将存在MCAR变量的数据看作是假定完整数据的一个随机样本〔Rubin1976〕;注:MCAR
8、数据缺失的理想状态,但是可靠的缺失最大阈值是数据集总数的5%随机缺失〔MAR〕:某变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无关,例如,在一次测试中,如果IQ达不到最低要求的100-.jz*..分,那么将不能参加随后的人格测验。在人格测验上因为IQ低于100分而产生的缺失值;非随机缺失〔MNAR〕某变量出现缺失值的可能性只与自身相关,例如,公司新录用了20名员工,由于6名员工表现较差在试用期辞退,试用期完毕后的表现评定中,辞退的6名员工的表现分。2.识别缺失数据的
此文档下载收益归作者所有