一款基于探码Web数据清洗系统的研发与介绍

       目前信息技术不断发展,数据库技术日益成熟,Big Data技术不断崛起,很多企业数据飞速增长,除去数据本身的信息,数据之间还蕴藏着大量的对企业管理、企业发展、企业的利益有决策性的作用。同时,随着Web的迅速普及,网站的数量越来越多,也越来越多的企业和个人都习惯在网站上发布信息,查找信息,获取信息。

Web大数据,探码大数据,探码科技

       问题就来了,一个网站不可能汇集到企业所需的所有的信息,就要从多个网站采集挖掘所需信息。由于各个专业素养不一致,网站滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位等等一系列问题导致产生了不完整的数据、错误的数据和重复的数据,这三大类数据又称为脏数据。所以企业在得到最有用的数据之前,需要对脏数据进行清洗,消除这三大类的脏数据,提高数据的可用性,保证数据的质量,实现数据的高效查询与利用。

       探码基于Web中采集到的数据,检测并消除数据源中存在的属性错误和重复与相似的记录问题,研发出一种通用的数据清洗系统,从而保证数据的可信度和可用性。

Web大数据,探码大数据,探码科技

       关于探码Web数据清洗系统,根据项目实施经验,总结出来的具体实施流程。

应用领域

       关于Web数据清洗,主要时为了提高数据的可用性与可信度。目前数据清洗主要应用于这几个领域:数据仓库、数据挖掘、数据质量管理。

       首先,数据仓库是为了支持决策分析的数据集合,数据挖掘是建立在数据仓库基础上的增值技术。数据清洗对于数据仓库应用和数据挖掘应用来说,是获取可靠、有效数据的一个基本步骤,是基础中的基础。其次,数据质量管理是贯穿数据生命周期的全过程,覆盖质量评估,数据去噪,数据监控,数据探查,数据清洗,数据诊断等方面。数据质量管理必须做到数据的完整性、唯一性、一致性、准确性和合法性,做到这些,就需要数据质量处理数据标准化、匹配、生存和质量监测。最后,数据必须具备适当的质量,以解决业务要求问题。

技术

  • 硬件部分:

       采用云主机提供商Ucloud的云主机或者阿里云,保证7*24小时运行。

  • 软件部分:

       探码主要是采用的技术前沿先进的技术框架,实现Web前端展示,展示处爬虫程序抓取的数据,利于清洗。

功能

       数据清洗系统主要由两部分组成:

  • 手工清洗:通过Web前端展示出抓取到的数据,对数据进行直观分析,得出哪些条件的数据需要删除,哪些条件的数据需要修改。
  • 自动清洗:经过手工清洗之后,可能会得出一些清洗模式,这种模式适用于所有数据。我们把这种模式记录在程序里,将来的数据只要匹配这种模式,数据将来会被自动清洗,不再需要人工清洗。

界面展示

  • 能够通过Web前端,展示出所有采集到的数据;
  • 能通过标题关键字,内容关键字筛选内容;
  • 能够后台修改、删除内容;
  • 添加清洗规则,输入标题关键字,内容关键字,测试新采集的数据将被自动清洗。

蜀ICP备15035023号-4