金融股票财经行业Web大数据采集系统方案

在数据急速膨胀的今天,金融财经行业面临大数据的诸多挑战,例如数据应用深度不断加强,数据分析技术更新频率加快,数据类型不断增多等。基于业务和政策需求,数据的收集、整理、传输、分析和发布是一个连续而复杂的过程,不同表现方式的数据在不同部门、企业甚至国家之间传递,经常会遇到传递摩擦和数据孤岛问题,数据的传输和共享效率面临前所未有的挑战,统一的数据格式和规定是解决这些问题的一个重要渠道,也是迫切的需求。

基于金融股票财经行业的一些问题聚集,探码研发了WEB大数据采集系统,这套系统主要解决的问题有八个层面:大数据集群、数据采集、采集数据源调研、数据爬虫、数据清洗、数据合并、任务调度、搜索引擎优化。这套系统基于云计算研发的,利用众多的云计算服务器协同工 作,能快速采集大量数据,避免了一台计算机硬件资源的瓶颈,另外随着行业之间对数据采集的要求越来越高,传统post采集不能解决的技术问题也逐步被解决,以探码Kapow/Dyson采集器为代表的新一代智能采集器,能模拟人的思维,模拟人的操作,从而彻底解决了IP封禁、Ajax等技术难题。

技术要应用在场景之中,探码WEB大数据采集系统主要用于金融、股票、财经等领域,提供的是完整设计和方案,定制化产品输出,帮助金融财经行业搭建具备可成长性的大数据系统。根据各行业的需求可将整体分为多个模块多种形式进行可视化。其主要的步骤:

  1. 从目标Web文档中获得待采集信息;
  2. 判断待采集信息类型是否是所需数据,
  3. 剔除无用的、重复的信息数据,按照所需信息数据进行过滤校验;
  4. 保存所需数据。

金融股票财经行业搭建大数据采集系统的五大流程:

1、构建服务器的大数据集群系统

在做数据采集之前,服务器搭建是必不可少的一步,探码WEB大数据系统采用国内外分布式服务器管理,可以储存TB级采集到的数据,实现数据持久化,避免在采集过程当中数据被屏蔽。



2、采集数据源调研

在行业实现海量数据信息采集之前,数据源是必不可少的一个环节,经过调研,得出需要采集页面、过滤的关键字、需要提取的内容等。以下是罗列的一些数据源清单:

http://www.techweb.com.cn/roll/
http://www.miit.gov.cn/
http://www.100ppi.com/kx/
https://www.fert.cn/1001/
http://www.tmtpost.com/nictation
http://www.ndrc.gov.cn/
http://www.cctime.com/list/5070.htm
http://36kr.com/newsflashes
http://data.tsci.com.cn/News/Default.aspx?Kind=All&P=0
http://www.p5w.net/kuaixun/tj/?COLLCC=3331028898&
http://roll.tech.sina.com.cn/s/channel.php
https://new.qq.com/ch/ori/
http://irm.cninfo.com.cn/ircs/sse/sseSubIndex.do
http://sns.sseinfo.com/qa.do
http://www.ebrun.com/top/
http://district.ce.cn/newarea/roll/index.shtml
http://www.chinanews.com/scroll-news/news1.html
http://roll.cnr.cn/
http://tech.163.com/
http://roll.finance.qq.com/
http://news.cecb2b.com/roll/#size=20&page=1
https://www.yicai.com/brief/
http://news.21cn.com/domestic/yaowen/
http://www.mydrivers.com/
http://it.sohu.com/scroll/
http://roll.caijing.com.cn/?source=114
http://www.ebrun.com/top/
https://www.thepaper.cn/
https://www.jiemian.com/lists/4.html
http://news.people.com.cn/
http://www.ofweek.com/CATList-8100-CHANGYIEXINWE.html
http://www.ofweek.com/CATListNew-41000-74003.html
http://www.ofweek.com/CATListNew-25000-10000.html
http://www.ofweek.com/CATListNew-25000-74006.html
http://www.caixin.com/search/scroll/0.jsp?date=
https://www.ithome.com/list/
http://www.100ppi.com/kx/
http://www.cankaoxiaoxi.com/roll/
http://www.gg-lb.com/news/
http://www.gg-lb.com/news_more2-6df15ea6--9ad85de562a59053-1.html
http://news.gg-lb.com/
http://laoyaoba.com/ss6/?action-category-catid-2
http://www.sasac.gov.cn/n2588025/index.html
http://www.baiinfo.com/Orders/NewsList/6993?pageid=1
http://www.stdaily.com/index/gundongxinwen/gundongxinwen.shtml
https://www.jinse.com/lives
https://www.shgzw.gov.cn/website/html/shgzw/shgzw_xwzx_gzyw/List/list_0.htm
http://www.ailab.cn/
https://voice.itjuzi.com/
https://www.leiphone.com/
https://t.qianzhan.com/
http://www.sootoo.com/
http://www.beijing.gov.cn/
http://www.fmprc.gov.cn/web/wjbz_673089/zyhd_673091/
http://www.news.cn/politics/gd.htm
http://live.nbd.com.cn/
http://www.ccin.com.cn/ccin/news/2018/07/17/381498.shtml
http://www.chem.hc360.com/
http://www.bitecoin.com/
http://www.cementren.com/news/list_294.html
http://www.c114.com.cn/news/roll.asp
http://www.ccement.com/news/
http://www.caixin.com/search/scroll/0.jsp?date=
http://www.mofcom.gov.cn/article/resume/n/
http://www.cctime.com/list/5070.htm
http://www.molychina.com/Home/Market/lists/cid/39.html
http://www.molychina.com/Home/Article/lists/cid/3.html
http://www.molychina.com/Home/Market/lists/cid/40.html
http://www.stdaily.com/index/gundongxinwen/gundongxinwen.shtml
http://www.nbd.com.cn/columns/3
https://news.china.com/
https://news.china.com/news100/index.html
http://news.cri.cn/roll
http://www.dcement.com/Article/
http://news.cecb2b.com/jdxw/
http://politics.gmw.cn/node_9831.htm
http://www.techweb.com.cn/finance/41.shtml#wp
http://news.zol.com.cn/list.html
http://www.lieyunwang.com/news
http://www.lieyunwang.com/archives
https://it.ithome.com/
https://news.feng.com/
http://www.cninfo.com.cn/search/search.jsp
http://www.askci.com/
https://www.okcoin.cn/tcat-3-301.html
http://news.ddc.net.cn/newslist_qiye.html
http://news.ddc.net.cn/
http://auto.gasgoo.com/auto-news
http://www.metalnews.cn/oil/
http://www.chem17.com/news/
http://news.chinawutong.com/
https://t.qianzhan.com/
https://www.bestb2b.com/news.htm
http://auto.gasgoo.com/nev/C-501
https://www.huxiu.com/
http://tech.ifeng.com/
http://tech.ifeng.com/listpage/803/1/list.shtml
http://www.kejixun.com/news/
http://www.chinaz.com/news/
http://www.sohu.com/tag/48069
http://www.cena.com.cn/industrynews/index.html

 

3、数据清洗及合并

通过Ruby on Rails + Vue技术框架,实现Web前端展示,展示出爬虫程序抓取到的数据,金融股票财经企业集中了所有信息之后,依据业务需求,对信息进行加工整理,需要对定量的信息进行定性,方便信息分类和筛选。实现数据采集来之后的清洗。数据被清洗之后,数据合并系统会自动匹配大数据集群中的数据,通过相识度评分,关联可能相识的数据。通过Web前端展示匹配结果,可以人工或自动合并数据。

4、行业的数据爬取

爬虫程序都是独立的个体,结合需要的数据采集系统服务器,通过Rancher编排,自动在DigitalOcean中启动爬虫程序,根据输入参数,抓取到指定的数据,然后通过API发送回我们的大数据集群系统。探码WEB大数据爬虫系统有各种不同的算法,核心基于六个层面:智能推荐系统算法、智能分类算法、回归算法、自然语言处理算法、聚类算法、相识度量算法。这套爬虫系统可以爬取大量的数据,模拟人的思维以及人的操作,实现人工智能化。

5、搜索引擎系统

搜索引擎是基于PC端来检索系统功能的,目的是能够从大数据集群中、快速地检索数据的必要数据源,包装不同角色的查询结果准确以及写入的时效性。

总结

金融财经行业通过大数据采集系统实现各类信息的抓取,将定量信息归纳为定性信息,并依据业务需求进行标签化,有助于金融企业找到目标客户,并且了解客户的潜在需求,进行精准营销,降低营销成本,提高产品转化率。另外金融企业还可以依据客户的消费特征、兴趣爱好、社交信息及时为客户推荐产品,设计产品,优化产品流程。提高产品销售的活跃率,帮助金融企业更好地为客户设计产品。

 

 

 

 

 

 

蜀ICP备15035023号-4