ikk

2020-05-26

数据清洗是怎么完成的?“脏”数据如何变干净?

信息化时代,数据本身就意味着商业价值,高质量的数据是数据分析和数据挖掘的基本条件,然而现实中感知数据往往是冗余的、不完整的、错误的,且存在不一致性,这些现象的存在将会降低数据质量,因而,对采集到的大数据首先进行数据预处理,提高数据质量,对数据挖掘有着重要的意义,在大数据预处理中,数据清洗是保证数据质量的重要手段之一。而所谓数据清洗就是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。在数据挖掘过程中,数据清洗主要对四类异常数据进行处理,分别是缺失值,异常值(离群点),去重处理以及噪音数据的处理。那就是将出现有缺失值的样本直接丢弃。