1. 首页 / 帮助

数据清洗常用方法(数据清洗是什么意思)

数据清洗常用方法,数据清洗是什么意思相信很多小伙伴还不知道,现在让我们一起来看看吧!

1、数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

2、 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

3、因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。

4、我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。

5、而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

6、不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

7、数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

本文就为大家分享到这里,希望小伙伴们会喜欢。

本文由'觅双少爷'发布,不代表演示站立场,转载/删除联系作者,如需删除请-> 关于侵权处理说明