文献知网节

面向Web的多真值发现算法研究与应用

陈烈锋

广东工业大学

摘要:随着网络技术的飞速发展以及智能设备的广泛使用,数据以前所未有的速度生成和创建。在大数据给人们带来巨大便利的同时,也可以发现不同的数据源对同一实体提供了相互冲突的描述。这些冲突往往是由于输入错误、数据过时、记录丢失等原因造成的,在实际应用中可能会造成巨大的损害和经济损失。对一个大规模数据集,手工确定数据的真实性是不现实的,而真值发现方法能从多个数据源中找到最符合现实的真值来解决冲突。近年来,研究人员考虑不同场景、不同影响因素、不同的实体真值和数据源可信性计算方法对真值发现进行研究,提出多种算法。然而当前真值发现算通常假设实体某个属性只有一个真值,多真值发现的研究相对较少,不过在现实中,实体具有多个真值的情况更为常见。针对多值实体:首先,本文提出了一个多真值发现算法。该算法将多真值发现转化为一个函数优化问题,其目标是实体的真值集应该与数据源对该实体提供的所有值集之间相似度最高。根据目标函数对真值的选择,设计了一个迭代算法来联合推导数据源的可信度和实体的真值集。同时在计算描述值置信度时,提出一种非对称的支持度计算方法,结合相似值的支持对其置信度进行修正。其次,本文提出一个现有多真值发现算法的... 更多
  • 专辑:

    电子技术及信息科学

  • 专题:

    计算机软件及计算机应用; 互联网技术

  • DOI:

    10.27029/d.cnki.ggdgu.2019.000418

  • 分类号:

    TP393.09;TP311.13

导师:

许青林;

学科专业:

软件工程

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:60 页数:58 大小:984K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者
  • 攻读期成果