作者:探码科技, 原文链接: http://www.tanmer.com/yuqing/411
舆情监测是指对互联网上公众的言论和观点进行监视和预测的行为。这些言论主要为对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
负面信息会危害企业形象,舆情口碑造成不良影响,企业辛苦建立起来的品牌效应短时间内就会崩塌,导致公司销售和竞争力的下降,对企业的发展造成严重影响。
康师傅集团因为一条馊水油的视屏在短短五年间,控股总市值蒸发了900亿港币,导致康师傅遭受重创。
影响政治上的安定团结,危害意识形态安全。危害政府的权威性和公信力,容易造成信任危机。新媒体作为公共信息传播技术平台,很容易成为不法分子和激进舆论传播阵地。
舆情事件的产生及发酵,都会引发网络舆论对相关事件多方面的解读与关注,舆论的焦点在此过程中也不断演变,尤其是网民的观点发生偏移后所引发的次生舆情,往往还在多个场域中进行传播,扩大了相关事件的负面影响。致使名人公众形象降低,人设崩塌,对舆情受害者不论是心里还是生活都产生巨大的影响。
前段时间的王宝强离婚事件掀起了娱乐界的浪潮,在吃瓜群众纷纷指责马某某为宝强打抱不平的同时却忘了这样的负面新闻给当事人和他的家人造成的影响。
web大数据网络舆情系统,主要通过监控网络指定系列关键词的出现情况,通过搜索引擎、社交媒体、报刊杂志等各种媒体渠道对舆情信息进行收集和智能检测。
探码科技网络舆情监控系统,通过监控Twitter/Facebook/Google/weibo等大用户流量平台,在英语环境已经得到大范围的使用。同时可以监控中文环境,根据地域和行业划分,实时扫描网络信息,并对监控信息进行预警播报,达到一网之下,一览无余!
在面对大量数据的同时,探码web大数据舆情平台检测系统采用8套系统完美解决采集难,数据复杂的问题。
硬件部分:采用云主机提供商UCloud的云主机,可以保证7x24无故障运行。
软件部分:数据存储采用MongoDB集群方案,此方案在集群上有两大特点:
分片:分片即MongoDB在服务器之间划分数据的?项技术。MongoDB能够自动在分片之间平衡数据,并且能够在不需要数据库离线的情况下增加和删除分片。
复制:为了保证高可用性,MongoDB维护了许多数据的冗余备份,复制被嵌入于MongoDB,并且在不需要专业网络的情况下就可以在广域网内工作。
数据采集服务器系统由数据采集服务器、企业数据服务器、网站服务器、资源服务器、缓存服务器构成针对不同资源不同领域进行数据采集的构建。
在对站点采集时统计站点数量,采集和不采集的资源进行划分,展示字段的数量,给企业可视化的舆情检测系统。
展示爬虫抓取项目的总数,爬虫的数量采集任务的总数整理出来文档的数量将所有有关企业的舆情都展示给企业
探码数据清洗是可发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成
探码数据整合是把在不同数据源的数据收集、整理、清洗,转换后(有点像ETL)加载到一个新的数据源,为数据消费者提供统一数据视图的数据集成方式。
探码数据调度系统解决了分布式系统中比如Hadoop、MapReduce编程模型、还有其它大数据系统任务调度问题。(搜索引擎爬虫、新闻聚合公司爬虫面对的抓取url种子都是几十万、上百万甚至更多,这么多网页种子需要去抓取资源如果没有一个较好的调度系统,整个系统将会一片混乱)
探码搜索引擎是 P C 端检索系统能够从大数据集群中、快速地检索数据的必要要具,通过ElasticSearch集群,运行3个以上的Master角色保证群集系统的稳定性,2个以上Client角色保证查询的容错性,2个以上的Data角色保证查询、写入的时效性。通过负载均衡连接Client角色,分散数据查询压力。