数据清理研究 数据清理研究

数据清理研究

  • 期刊名字:计算机工程与应用
  • 文件大小:
  • 论文作者:张志兵,李华旸,张勇
  • 作者单位:华中科技大学计算机学院
  • 更新时间:2023-02-25
  • 下载次数:
论文简介

异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量.文章实现了一个数据清理工具原型-DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证.

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。