2017全球大数据峰会 纵观WEB大数据

2017第二届全球大数据峰会由GBDC(全球大数据联盟)主办、成都市经济和信息化委员会、天府新区成都管委会支持,于2017年5月11日至12日在世纪城天堂洲际酒店(成都)圆满落幕。本届峰会主题为创新·衍生,作为2017 成都全球创新创业交易会的专项活动之一,由政府牵头,市场化运作,针对政企面对面深度对话,全产业链覆盖,进一步推动大数据的创新应用、深度挖掘大数据价值、助力产业升级和共赢发展。

大数据,全球大数据,大数据峰会,Web大数据
随着互联网技术迅猛发展和智能终端的大量普及,数据呈现爆发式增长,给许多行业带来了严峻挑战和巨大机遇,整个信息社会已经进入了大数据时代。一般意义上,大数据是指无法在一定时间内用常规机器和软硬件工具进行感知、获取、管理、处理和服务的数据集合。而网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生的并可在互联网上获取的大数据。当前网络大数据规模和复杂度正在快速增长。根据IDC数据,2011年网络大数据总量为1.8ZB,预计2020年将达到35ZB。大规模、高复杂度的网络大数据,给现有的硬件体系架构和软件处理算法带来巨大挑战。

在万物互联的今天,数据本身作为企业的资产,如何运用起来将是核心议题,互联网是一个巨大的和迅速发展的信息资源,但大多数信息都是以无结构的文本形式存在,使得信息聚合非常困难,Web数据抓取是一个从目标网页中摘取某些数据形成统一的本地数据库的一个过程,这个过程所需要的不仅仅是网页爬行器(爬虫)与网页解析器(HTML解析器)。一个复杂的数据抽取过程需要应付种种障碍,例如会话识别,HTML表单,客户端脚本,并发连接限制,以及数据整合问题等等。

Web大数据带来的挑战

Web大数据的复杂性

Web大数据的复杂性主要体现在数据类型的复杂性和数据结构的复杂性。首先,随着数据类型不断增多,数据采集、清洗、存储和处理的技术需要相应地进行变革。例如,社交网络的发展使得短文本取代长文本,成为网络上最主要的信息传播媒介。当处理这些微博消息、个性签名、个人状态等短文本时,传统的文本挖掘方法,如主题模型、检索算法及语义、情感分析算法会遇到很多困难。
其次,传统意义上的数据对象是结构化数据,能够存储到关系型数据库中。但随着数据产生方式的多样化,特别是互联网的发展,非结构化数据逐渐成为大数据的主流形式。以文本、图像、视频、网页等为代表的数据结构,给数据分析与挖掘工作带来挑战。

Web大数据的不确定性

Web大数据的不确定性主要体现在数据的不确定性和模型的不确定性。首先,原始数据存在数据类型和数据结构上的不确定性,采集得到的数据还存在采集粒度、数据质量等的不确定性。这些数据的不确定性给数据采集、清洗、存储、挖掘和检索等各个环节带来挑战,每个环节几乎都需要采用新的方法应对数据不确定性的挑战。
其次,数据的不确定性要求对数据的处理方式能够提出新的模型方法,并在模型表达能力和模型复杂程度之间找到平衡。从理论上讲,在一定的结构规范下,应将数据的每一种状态都加以刻画,这也是“可能世界模型”的核心思想。但在实际应用中,考虑到计算和存储能力的限制,往往采用简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等。

大数据,全球大数据,大数据峰会,Web大数据

Web大数据实战应用

政府机关

  • 实时跟踪、采集与业务工作相关的信息。
  • 全面满足内部工作人员对互联网信息的全局观测需求。
  • 及时解决政务外网、政务内网的信息源问题,实现动态发布。
  • 快速解决政府主网站对各地级子网站的信息获取需求。
  • 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
  • 节约信息采集的人力、物力、时间,提高办公效率。

企业

  •     实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
  •     及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
  •     为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
  •     大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
  •     提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,提高核心竞争力。

新闻媒体

  •     快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
  •     支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
  •     支持对所需内容的智能提取、审核。
  •     实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。

应用信息系统

  •     垂直搜索引擎
  •     网络舆情监控系统
  •     竞争情报分析系统
  •     行业知识库

电子商务

  •     全网产品信息采集,产品素材获取
  •     通过分析产品价格和销量,指导新品上架策略
  •     云评论系统的搭建和维护
  •     电子商务渠道分销

实时数据

  •     实时股票信息分析
  •     机票实时数据采集
  •     酒店、商家信息采集
  •     团购、秒杀等营销数据采集

 

蜀ICP备15035023号-4