大数据舆情监控系统需求说明书标准版

大数据舆情监控系统包括舆情大数据采集与清洗系统, 舆情大数据存储系统,舆情大数据分析系统,舆情大数据可视化系统及商业智能分析软件等。

当前,随着移动互联网的迅猛发展,新型传播方式不断涌现,党政机关的施政环境发生深刻变化。传统媒体的舆论监督力量有增无减,以“三微一端”(微信、微博、微视频、移动客户端)为代表的移动新媒体成为社会舆论的新引擎,自媒体的信息发布门槛低、转发能力强、传播速度快,增加了舆情爆发机率和应对处置难度。因此,加强舆情管理、做好舆情应对成为党政机关提升治理能力的内在要求。

舆情监控系统
常见的舆情监测系统架构设计

下表是一个标准的舆情监控系统需求列表,仅做参考。

舆情大数据采集与清洗系统 1、 平台基于云计算架构进行设计,集成了互联网数据动态采集、本地搜索、文本分析、专题数据库管理和大数据分布式处理平台。支持微博、新闻、论坛等多种数据采集方式,拥有基于B/S架构的统一的管理界面。
2、 统一验证和管理模块:提供统一认证,统一登录,统一的用户管理、角色管理、权限管理;考虑到平台的扩展性、易维护性和用户友好性,釆集、搜索、分析和专题库管理系綠必须能够作为子系统在统一的平台上进行维护。支持对访问员进行新增、修改、删除;支持基于身份证的快捷登录和注册。
3、 样本管理模块:支持样本库功能,包含样本导入、手工输入等多种方式; 支持对样本的属性自定义;支持的样本的追溯和访问历史查询;支持样本属性回写;支持多种抽样方法。
4、 ★新闻数据抓取模块:支持多种互联网数据源,支持关键字检索条件,支持智能抓取相关网页的文本内容和meta信息,提供提取新闻标题、发布人、发布时间、新闻来源、内容、摘要、关键词等信息。抓取的数据能够存储到数据库或文件;能够配置抓取线程的数量,抓取时间间隔;支持断点续抓;对需要登录的网站数据源,支持对Cookie的配置;数据的抓取的过程能够实时显示。
5、 ★论坛数据抓取模块:支持多种互联网数据源,支持关键字检索条件,支持智能抓取相关网页的文本内容和背景数据,提供提取论坛文章的标题, 发布人、发布时间、内容、回复数量等信息。抓取的数据能够同时存储到数据库和文件;能够配置抓取线程的数量,抓取时间间隔;支持断点继续;对需要登录的网站数据源,支持对Cookie的配置;数据的抓取的过程能够实时显示。
6、 Facebook数据抓取模块:支持公共主页、FanPage、搜索时间范围等检索条件,能够提取Facebook内容、发布时间、回复数量、发帖人信息等数据。抓取的数据直接存储到数据库;能够配置抓取线程的数量,抓取时间间隔;支持断点续抓;支持配置多个账号同时抓取;数据的抓取的过程能够实时显示。
7、本地数据搜索模块:内置搜索引擎,能够对釆集的文本的标题、内容进行索引,建立本地快照,提供方便的搜索界面;检索出结果后,能够査看网页内容。(1)系统集成:作为子系统能集成到统一的大数据研究云平台,共享云平台的统一管理功能。(2)文本索引:在文本抓取后,能够对文本的标题、内容进行分词,并建立专业的文本索引库。(3)本地检索:抓取的文本以文件形式存储在服务器,同时将常用信息存储到数据库,系统通过索引表能够快速检索到文本,并能够査看文本的网页内容。(4)高级检索:支持根据组合条件查询本地存储的文本。
8、 数据导入导出模块:采用统一的数据库,可导入导出项目,数据可导出 Excel, SPSS, CSV, TXT等多种文件类型。
9、 专题数据库管理模块:提供了对各类特定专题的数据库进行管理和维护, 能够实现数据的安全共享、在线查询。(1)专题库管理:对专题库进行增删改;支持专题库的合并;支持专题库内容的清洗;支持专题库的导入导出;支 持专题库备份还原。(3)专题库查询:在线查询专题库中的文本内容。(4) 专题库统计:汇总专题库中的文本数量情况。(4)兼容性:支持MySQL, SQL Server, Oracle等多种数据库。
舆情大数据存储系统 1、支持线性扩展性能。“完全不共享”体系和并行査询优化可以确保线性扩展性能和容量,将其扩展到成本上千个节点和处理器内核。
2、支持MapReduce。借助恒华大数据实训室平台智能分析套件,各个企业可以在内部使用MapReduce技术。
3、支持SQL标准。通过SQL 2003 0LAP控制功能全面支持SQL-92和SQL-99。 所有查询信息都并行地在整个系统上执行。
4、支持统一分析处理。可以在同一个并行数据流引擎上执行所有查询和分析(SQL、MapReduce、R等)操作,从而允许分析人员、开发人员和统计人员使用同一个基础构架进行数据分析。
5、支持可编程并行分析。为从事运算和统计工作的人员提供了更先进的并行分析功能,支持R、线性代数和机器学习功能。
6、支持数据库内压缩。釆用了业内领先的压缩技术,提高性能的同时,显著地减少存储数据所需的空间。客户可以将所用空间减少3-10倍,并提高有效的I/O性能。
7、★支持千万亿字节规模的数据加载操作。高性能的并行数据装载器可以在所有节点上词步执行操作,装载速度超过4.5TB/小时。
8、支持随地访问数据。不管数据的位置、格式或存储介质如何,都可以从数据库向外部数据源执行查询操作,并行向数据库返回数据。
9、支持动态扩展帮助学校对数据仓库进行便捷的小规模或大规模扩展,同时避免高成本的设备或SMP服务器升级。
10、支持工作负载管理。允许管理人员创建基于角色的资源队列,以便划分资源和管理系统负载。
11、支持集中管理。提供集群级管理工具和资源,帮助管理人员像管理一台服务器一样管理整个恒华大数据实训室平台智能分析平台。
12、★支持性能监控。通过图形化的性能监控功能,用户可以确定当前运行的情况和历史查询信息,并跟踪系统使用情况和资源信息。
13、支持索引:恒华大数据实训室平台智能分析套件支持二叉搜索树、哈希、位图、GiST和GIN,从而能够实现多种索引功能,提供给数据架构师实施优化设计所必需的工具。
14、工业标准接口。支持标准数据库接口(SQL、ODBC、JDBC、DBI),并且可以与市场上先进的商务智能和抽取/转换/加载(ETL)工具互相操作。
舆情大数据分析系统 1、支持对采集的文本内容进行文本分析,利用自然语言处理(NLP)对文本进行分词,词性标注和词频统计。平台可集成多个中文处理引擎;支持结合系统和用户自定义的词七字典库进行各类词频分析、情感分析等。
2、系统集成:能够集成到网络舆情云平台系统中,共享云平台的统一管理功能。
3、文本分词:利用自然语言处理(NLP)分词算法对文本进行分词,词性标注;支持选择不同的分词算法;支持系统和用户自定义的词汇字典库。
4、★词频统计:支持对单篇文章分好的单词进行词频统计;支持批量词频统计;支持根据数据源、日期、地域等条件对所有文本进行词频统计。
5、 数量统计:支持根据数据源、日期、地域等条件对有文本进行数量统计。
6、文本分类:根据一个训练集,对新的文本进行数据分文本聚类;在没有训练集的情况下,根据算法对所有类分类。
7、文本聚类:在没有训练集的情况下,根据算法对所有文本进行聚类分析。
8、★情感分析:支持根据情感字典库来判断某一个文章的正负翻译。
舆情大数据展现系统 分析实际存在的任何结构化数据,在几分钟内生成图表、坐标图、仪表盘与告。
▲利用拖放式界面,自定义视图、布局、形状、颜色等等,帮助展现自己的数据视角。
▲适用于多种数据文件与数据库。
数据可扩展性,不限处理的数据大小。
提供免费的现场或按需在线培训。
提供无需用户编写自定义代码,自定义配置的控制台。
在控制台上能够监测信息,提供完整的分析能力。
控制台灵活,具有高度的动态性。
▲可以将数据运算与可视化结合,实现拖拽式自动创建图表,将同一数据以多种图表自由呈现,实现从多个不同维度洞察数据所反映的业务重点。 
在用户的信任环境中自由查看数据,不受限于预定义的问题、向导或图表类型
数据受到规管和保护,安全连接到本地或云中的任何数据源。
发布和共享数据源,供所有被授权人使用。
可使用热门的企业数据源,如Cloudera HadoopOracle、AWS Redshift、多维数据集、Teradata、Microsoft SQL Server等。可通过Web数据连接器和API可访更多自定义数据源。
集中管理所有元数据和安全规则。为用户提供共享的、组织化的数据来源。与Active DirectoryKerberosOAuth等成熟标准协议无缝集成。管理用户级别和组级别的身份验证。传递数据连接权限和行级筛选,维护数据库的安全。利用多租户选项和细粒度的权限控制,保证用户和内容的安全灵活部署,提供详尽的监控和管理平台,确保易于部署、缩放和监视。
轻松跟踪和管理内容、用户、许可证和性能。
快速管理数据源和内容的权限,并直观地监视使用情况。
向现有的商业门户嵌入交互式仪表盘,包括SalesforceSharePointJive等应用程序。
▲在会议、现场或出行中立即获取答案。将仪表板发布后,团队成员即可使用任意浏览器或移动设备安全地进行访问。直接在浏览器中创作新工作簿,以新的方式使用数据。
实时在线数据和离线数据方式切换:可实现在超快提取数据和实时连接数据之间无缝切换。还可计划按所需频率自动进行数据提取刷新。数据连接发生故障时可获得自动警报。可通过设置订阅随时获得所需的数据。
▲可将数据存在本地服务器还云端,本地$装需实现防火墙保护下的完全控制;也可部署在Amazon AWS、Microsoft Azure或阿里云等公共云服务平台。
★与商业智能分析系统同一品牌,可对接后将商业智能分析系统完成的任意数据分析项目通过采购人私有的服务器提供基于web的展示和在线实施重计算。
提供≥10种不同的角色权限划分。
商业智能分析软件 有强迫用户编写自定义代码,新的控制台也可完全自定义配置。在控制台上,不仅能够监测信息,而且还提供完整的分析能力。控制台灵活,具有高度的动态性。
将数据运算与美观的图表完美地嫁接在一起。程序容易上手,可以用它将大量数据拖放到数字“画布”上,转眼间就能创建好各种图表。这一软件的理念是,界面上的数据越容易操控,对自己在所在业务领域里的所作所为到底是正确还是错误,就能了解得越透彻。10个用户授权;提升数据潜力;扩大整个组织内的数据价值。在信任环境中自由査看数据,不受限于预定义的问题、向导或图表类型,推进业务进步。而且数据受到规管和保护, 让您高枕无忧。安全连接到本地或云中的任何数据源。发布和共享数据源,供所有人使用。使用热门的企业数据源,如ClouderaHadoop、Oracle、AWS Redshift、多维数据集、Teradata、Microsoft SQL Server 等。我们的Web数据连接器和API可访问数百个其他数据源。
数据对人的意义,准确可信:
严格管理,无需妥协。集中管理所有元数据和安全规则。为用户提供共享的、 组织化的数据来源。了解使用情况以优化环境。恰当平衡用户灵活性和掌控力。为您保驾护航,无论使用的是Active Directory、Kerberos、OAuth还是其他标准,Tableau都可与您的现有安全协议无缝集成。管理用户级别和组级别的身份验证。传递数据连接权限和行级筛选,维护数据库的安全。利用多租户选项和细粒度的权限控制,保证用户和内容的安全灵活部署,无论是将数据存在本地还是云端,Tableau Server都能让您灵活集成到现有的数据基础结构中。本地安装可实现防火墙保护下的终极控制。借助AWS、 Azure或Google Cloud Platform实现公共云端部署,从而利用现有云端投资。强大的监控和管理平台易于部署、缩放和监视。轻松跟踪和管理内容、 用户、许可证和性能。快速管理数据源和内容的权限,并直观地监视使用情况。准备就绪时,即可纵向,、横向扩展。将见解嵌入工作流,在员工、客户、 合作伙伴和供应商所需之处进行分析,提高业务能力。向现有的商业门户嵌入交互式仪表盘,包括Salesforce、SharePoint和Jive等应用程序。
随时随地提出新问题:
在会议、现场或出行中立即获取答案。将仪表板发布后,团队成员即可使用任意浏览器或移动设备安全地进行访问。直接在浏览器中创作新工作簿,以新的方式使用数据。
实时且存储良好:
只需单击一下,即可在超快提取数据和实时连接数据之间无缝切换。还可计划按所需频率自动进行数据提取刷新,两全其美。数据连接发生故障时获得警报。设置订阅后,您就可以随时获得所需的数据。
PaaS云平台 一、基于云平台的管理软件
1.   要求能够合法用于企业云服务平台基础包,配置≥50个应用实例许可, 一个应用实例对应一个容器服务。
2.   提供了命令行和内置的Web界面的2种灵活的管理方式。
3.   开放平台,支持不同的IaaS (基础架构即服务),支持VMware vSphere 或是vCloud,支持OpenStack,支持AWSAzure等公有云上部署。
4.   必须支持目前的PaaS应用平台标准构建包(BuildPack),并且可以从 GitHub上下载的构建包,通过PaaS云系统可以自动的部署在PaaS云上提供运行环境。
5.   应用负载均衡通过PaaS系统平台内置的软件Router[路由器]实现,支持websocketHTTP的路由,支持Router的集群和负载均衡。
6.   平台基于Gardon进行容器调度编排,支持Docker容器及kubernetes等调度编排软件的对接。
7.   ▲PaaS平台必须支持操作系统容器技术一Gardon,实现基于Linux Container的应用平台容器,能够提供Linux应用的运行容器。应用容器必须实现资源隔离,如CPU资源隔离、内存资源隔离、存储资源隔离、网络资源隔离,要求能避免一个应用把CPU跑满就影响其他应用容器的CPU分配,严格限定没有容器的CPU使用额度,避免一个应用把磁盘占满等情况。投标时提供软件截图
8.   支持基于多租户组织架构的资源配额分配,不同的组织架构可以分配不同的资源配额,比如CPU、内存、存储空间等。各个租户组织在进行应用部署和弹性伸缩的时候不能突破资源配额。
9.   支持组织架构的定义,项目space的定义,更方便的进行权限和资源管 理,支持团队开发和应用全生命周期的管理。
10. 应用的依赖的库、应用平台等打成一个符合Gardon运行要求的包。
11. PaaS平台内置Stager实现应用的自动打包,能够对应用进行特定检査确定应用平台,同时能自动下载应用所缺的依赖库、包等,把应用代码、应用的依赖的库、应用平台等打成一个符合Gardon运行要求的包。
12. PaaS平台内置Stager要求实现并行的应用打包和应用的自动化部署;
13. 支持针对应用的定制域,并可以定制子域,通过路由器和域的定制,实现应用域名的定制,多租户应用可以针对每个租户定制域名或是子域名。
14. PaaS应用平台应包括主要部件如云控制器(平台大脑)、消息传输总线(从各个部件和应用收集信息的神经系统)、软件路由器、应用组装器、应用平台构建包、健康度管理器、服务中介、存储库等。
15. 支持主要部件的高可用性(HA),比如控制器、健康度管理中心和消息总线等。
16. 除了以上高可用性的部件,其他部件支持集群,可以随时通过管理工具动态的增加部件的运行实例数,比如云控制器、软件路由器、应用组装器、服务中介等。
17. 提供Web Service,对应用平台、部署、服务的Web运维管理,即应用和服务管理门户。
18. ▲服务监控:展示用户所使用的基础服务的当前运行数据,包括:服务类型、厂商信息、版本号、状态、绑定地址、活动实例等,投标时提供软件截图。
19. 支持各种服务资源管理功能:
a)资源使用的伸缩性:应用对资源池、基础平台服务的使用采用弹性管理,用户根据应用的SLA要求实现资源的自动伸缩,SLA要求比如业务并发量、web页面的平均反应时间,CPU平均利用率等,比如平均Web页面时间超过3秒就弹性伸缩,那么系统通过动态路由器检测到某应用的平均Web页面的反应时间超过3秒,就通知云控制器增加应用运行的实例数,同时把请求分发到新的应用实例上。如果Web页面的平均反应时间小于1秒,就通知云控制器减少应用运行的实例数,不再把请求分发给某个应用实例,等这个应用实例上的Web请求全部处理了,就关闭此应用实例。
b)高可用保障:服务在集群环境的多个节点部署,各个模块有可靠的通信和监测机制,使得服务能够稳定可靠运行,即便出现单点故障,也不影响整体服务的可用性。
c)负载均衡能力:系统可以实现请求以负载均衡方式自动分配到多个实例上,随负荷的变化情况自动增加或者减少实例的提供。
20.  支持应用部署及监控集成等功能。平台自身应具备完善的监控机制,能够对部署的应用、基础服务等做有效性跟踪,除了提供console供聚合平台运维使用,还需要与平台门户做集成,用户可在门户中直接监测应用服务状况。包括:
a)应用部署:在用户门户提供应用部署界面,包括应用部署环境的定制等功能。
b)托管应用监控:展示应用的部署和运行数据,包括:所在空间、状态、内存使用、磁盘使用、运行框架、路由地址、活动实例等。
21. 平台软件的功能必须为同一家厂商提供,禁止借用第三方软件的整合, 以保证功能的可兼容性和安全性。
二、二、基于平台的开发工具
1.   平台集成常见编程语言的IDE,支持程序的在线部署。
2.   支持代码的在线编译和测试。
3.   基于Esclipse进行二次开发。
4.   支持多种版本控制库工具,如SVNGit等。
5.   支持应用程序的可视化部署。
6.   配套持续集成工具,如JenkinsConcourse等。
7.   支持开发微服务模式。
8.   提供虚拟化管理平台API、SDK等接口,可以与第三方管理软件结合或二次开发。
三、三、基于云平台的中间件软件
1.  ▲提供平台监控工具:如metics、APM、Spring lnght等监控工具,具备完整的可视化图表。
2.  消息传送与队列服务:如RabbitMQ等符合AMQP业界规范的消息服务。
3.  分布式缓存服务:如Redis等分布式缓存服务工具。
4.  日志分析工具:如Logserch等日志处理和分析工具。
5.  PaaS平台必须支持各种编程语言,包括Java、Ruby、Go、PHP、Nodejs、 Python、.NET 等语言。必须为 J2EE、Ruby、Python、Go PHP、Nodejs 等语言编写的应用提供运行环境支撑。
6.  PaaS平台必须支持各种开发框架,包括:Spring for Java、Ruby on Rails、 Sinatra、 Node.js、 Grails、 Scala on Lift、 PHP等
四、四、基于云平台的数据库软件
1.   1. 平台必须支持各种基础平台服务,包括:
a)      a关系数据服务:提供基于关系数据库的数据存储服务,支持MySQL。
b)      b)NoSQL数据服务:如Redis等NoSQL持久化数据服务。
c)   2. 平台支持关系型数据库软件的应用,支持MySQL等数据库。
d)   3. 平台支持NoSQL数据库的应用,支持MongoDB、Redis等NoSQL数据库。
e)   4. 支持各种数据服务,如MongoDB, mySQL多节点版等。
内存数据库 1.  支持分布式部署安装。在完全不依赖于其他产品的情况下完成部署和运 行,不受限于其他产品的强制性认证。
2.  支持异地(多集群)多活数据中心部署。支持多数据中心集群间数据实时同步,支持基于广域网数据同步的拓扑架构WAN-Gateway,灵活实现多种拓扑逻辑结构,支持多队列并行传输以及队列的持久化。
3.  支持面向对象数据管理存储。面向对象存储与查询,包括自定义对象及子对象。通过对象査询语言OQL提供类似于SQL的査询,支持按对象属性进行查询,支持join査询。
4.  GemFire支持与Greenplum,Oracle,Mysql,DB2等传统关系型数据库结合。
5.  GemFire作为应用系统读取数据的唯一入口,支持数据写入时同时存入传统     RDBMS。
6.  GemFire支持数据缓存,从其他传统RDBMS读取数据,缓存在内存中,供其 他需要数据的应用系统使用。
7.  支持异步增量数据同步。支持后写的方式,批量的写入到其他数据源或者数据中,进行数据的高速同步,支持釆用异步消息队列的方式完成数据传输,釆用增量的方式传输数据的变化部分。
8.  支持事件机制。捕获处理数据的新建,更新删除事件,并自定义按照业务要求实现逻辑对这些事件进行处理,实现企业消息总线的功能。通过持续查询的方式实现对数据变化的事件触发机制,并针对该事件完成后续的处理和通知等操作,实现复杂事件处理需求。
9.  ★支持数据持久化。支持将内存中的数据持久化到磁盘和关系型数据库中。
10. 数据存储容量。单集群最大可支持超过10T的数据量,单表内保存的记录无上限,可以支持百亿级别的记录数。
11. ★支持Session管理。提供独立管理Session内容,支持Tomcat,Tc Server, Appservers(weblogic, WebSphere等),可以把应用服务器进行无状态化或者云化改造,提升应用服务器的服务等级,支持spring session框架,便于应用代码开发。
12. 可靠的安全机制。GemFire内置安全认证机制,支持在多种环境下(节点间, 客户端/服务器端,集群间)提供用户访问的认证和授权机制。
13. 支持数据排序、聚合、索引、在线数据库结构变更。GemFire通过OQL支持数据的排序、聚合,并支持索引对査询进行优化,支持在线通过GemHre 的命令行工具(GemFire Shell, GFSH)进行数据结构的变化。
14. ★丰富的开发平台支持。Spring data gemfire提供与spring framework开 发结合,支持原生JAVA、C++、C#开发应用与GemFire接口对接,提供Restful API并支持json数据格式。
15. GemFire支持高可用性。高可用性和灾难恢复确保持续的正常运行,多个故障检测模型可检测故障并迅速作出回应,确保集群始终正常运行且数据集始终完整。
16. GeniFire支持自愈能力。自愈能力能让节点能在集群恢复运行后快速重新加入其中,快速启动、重新连接以及增量更新数据,所有操作均无需管理人 员干预。
17. ★支持分布式节点智能管理。一个集群中的节点之间自动调整系统资源, 具体方法是在减少网络流量的往返的同时,以智能方式管理数据的放置。数 据仅会复制到需要数据的节点,访问请求则会使用可用的最直接路径被智能 路由。
18. 节点配置通过自动冗余集中处理,以获得高可用性,新节点可在启动时从集中式配置管理器获取配置,以快速加入集群i而无需执行额外系统管理任务。
19. ★GemFire集群支持在线增加和减少节点这样的集群节点数量动态变化的功能,同时在节点增加的情况下,还能保证整个系统的处理能力可以近似 线性增加。
20. 提供强大的系统管理工具。内置的GemFire Pulse可以提供在线的可视化 集群管理和监控功能,包括监控分布式系统内各成员的监控状况,内存及磁 盘读写的使用情况等。(投标时提供截图)
21. 内置gfsh工具支持在线修改系统设定,完成数据快照,数据备份恢复等。
22. GemFire有完整全面的JMX数据管理接口,可供jconcole或其他管理工具使用,VSD工具支持对系统运行的内部情况提供历史追踪分析功能。
23. 支持高性能高稳定的内存集群。高并发能够支持10万TPS以上,并且延时稳定不会有明显波动。低延时针对lk数据,随机读取平均响应时间小于 lms,随机写平均响应时间短于10ms。
24. 线性扩展系统在增加节点的时候,性能的增加符合准线性效果,支持系统针对访问量增加情况下的运维和扩展。
25. 在高性能査询1万并发事务下,支持査询平均延时不超过l0ms,Insert, update,delete等常见事务平均延时不超过100ms。
26. 集群系统借助智能节点管理和数据备份机制,支持持续稳定连续运行,集群系统不存在单点故障现象。支持数据的自动和手动备份,以备数据恢复时使用。
27. ▲提供3年原厂(非OEM厂商)服务,包含:5*12小时400电话技术支持,Email技术支持,版本升级服务等。
28. ▲平台软件的功能必须为同一家厂商提供禁止借用第三方软件的整合,以保证功能的可兼容性和安全性。