数据清理或数据擦洗是检测和更正或从数据库中删除不准确的数据或记录的过程。它还可能涉及更正或删除格式不当或重复的数据或记录。在此过程中删除的此类数据通常称为“脏数据”。数据清理是维护数据质量的一项基本任务。拥有大量数据集或资产的大型组织通常使用自动化工具和算法来识别此类记录并纠正常见错误(例如客户记录中缺少邮政编码)。
最强大的大数据环境拥有严格的数据清理工具和流程,以确保数据质量保持规模化,并且对所有类型的用户数据集的信心仍然很高。
了解更多信息