作者:探码科技, 原文链接: http://www.tanmer.com/bigdata/222
2017第二届全球大数据峰会由GBDC(全球大数据联盟)主办、成都市经济和信息化委员会、天府新区成都管委会支持,于2017年5月11日至12日在世纪城天堂洲际酒店(成都)圆满落幕。本届峰会主题为创新·衍生,作为2017 成都全球创新创业交易会的专项活动之一,由政府牵头,市场化运作,针对政企面对面深度对话,全产业链覆盖,进一步推动大数据的创新应用、深度挖掘大数据价值、助力产业升级和共赢发展。
随着互联网技术迅猛发展和智能终端的大量普及,数据呈现爆发式增长,给许多行业带来了严峻挑战和巨大机遇,整个信息社会已经进入了大数据时代。一般意义上,大数据是指无法在一定时间内用常规机器和软硬件工具进行感知、获取、管理、处理和服务的数据集合。而网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生的并可在互联网上获取的大数据。当前网络大数据规模和复杂度正在快速增长。根据IDC数据,2011年网络大数据总量为1.8ZB,预计2020年将达到35ZB。大规模、高复杂度的网络大数据,给现有的硬件体系架构和软件处理算法带来巨大挑战。
在万物互联的今天,数据本身作为企业的资产,如何运用起来将是核心议题,互联网是一个巨大的和迅速发展的信息资源,但大多数信息都是以无结构的文本形式存在,使得信息聚合非常困难,Web数据抓取是一个从目标网页中摘取某些数据形成统一的本地数据库的一个过程,这个过程所需要的不仅仅是网页爬行器(爬虫)与网页解析器(HTML解析器)。一个复杂的数据抽取过程需要应付种种障碍,例如会话识别,HTML表单,客户端脚本,并发连接限制,以及数据整合问题等等。
Web大数据的复杂性主要体现在数据类型的复杂性和数据结构的复杂性。首先,随着数据类型不断增多,数据采集、清洗、存储和处理的技术需要相应地进行变革。例如,社交网络的发展使得短文本取代长文本,成为网络上最主要的信息传播媒介。当处理这些微博消息、个性签名、个人状态等短文本时,传统的文本挖掘方法,如主题模型、检索算法及语义、情感分析算法会遇到很多困难。
其次,传统意义上的数据对象是结构化数据,能够存储到关系型数据库中。但随着数据产生方式的多样化,特别是互联网的发展,非结构化数据逐渐成为大数据的主流形式。以文本、图像、视频、网页等为代表的数据结构,给数据分析与挖掘工作带来挑战。
Web大数据的不确定性主要体现在数据的不确定性和模型的不确定性。首先,原始数据存在数据类型和数据结构上的不确定性,采集得到的数据还存在采集粒度、数据质量等的不确定性。这些数据的不确定性给数据采集、清洗、存储、挖掘和检索等各个环节带来挑战,每个环节几乎都需要采用新的方法应对数据不确定性的挑战。
其次,数据的不确定性要求对数据的处理方式能够提出新的模型方法,并在模型表达能力和模型复杂程度之间找到平衡。从理论上讲,在一定的结构规范下,应将数据的每一种状态都加以刻画,这也是“可能世界模型”的核心思想。但在实际应用中,考虑到计算和存储能力的限制,往往采用简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设等。