一的数据仓库中。数据清洗又称为合并净化问题mergepurge它涉及到记录联接recordli
kage、语义集成sema
tici
tegratio
、实例标识i
sta
ceide
tificatio
对象识别问题,数据清理目的就是要在数据中消除错误和不一致,并解决对象识别的问题。重复数据清理的公认的方法对合并净化问题用基本的排序冷fl居方法进行解决的过程。清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。客户数据清理的六个步骤元素化eleme
tizi
g将数分解为最小的原子单元标准化sta
dardizi
g将缩写,大小写等都转换为同一格式校验verifyi
g利用规则或已有的数据集合验证数据
北京赛迪世纪信息工程顾问有限公司第8页共9页
f的有效性匹配matchi
g主要是判别冗余数据户主化householdi
g主要是确定数据之间的联系文档化docume
ti
g将清洗好的数据以同一的标准格式保存Ⅴ:这个阶段对数据进行整体集成、在共享数据的基础上,实现应用集成(操作型应用),对于分析型的应用,主要是设计和开发前端展现的程序,也就是要使用这个程序具将数据仓库和多维数据库中的数据展现出来。这个应用程序基本上分为两种构架,一是CS方式,通过客户端安装软件,server进行数据的存取,二是BS方式,通过浏览器如IE,对服务器的数据进行浏览分析。在数据仓库开发的期初,数据仓库主要应用于企业的内部,所以CS的方式应用较多,在随着数据仓库的发展,BS构架的应用越来越多应用于企业的商业分析之中。
北京赛迪世纪信息工程顾问有限公司
第9页共9页
fr