这是一个探码大数据客户案例,我们根据客户需求,作了如下调研。

       基于大数据的理论,机票数据采集系统的软件架构应该是从这三方面来研发的:左边是大量的数据源,中间是大数据平台,后边是对大数据分析处理以后的用途归属。

 机票数据采集 机票数据采集系统 机票数据采集系统策划 探码科技

       提供机票数据源的平台很多,包括像携程、去哪儿、艺龙这样的平台,到各个航空公司自己的官网,都可以源源不断的提供实时的机票数据,将这些机票数据汇集在一起,形成一个数据池。

       中间的大数据平台是机票数据采集系统的核心,大数据平台将数据池中的数据结构化以后,提供给项目作任何维度的分析和研究,查询和检索,同时根探码大数据平台的业务逻辑进行筛选。

       当有了大数据平台以后,探码科技将结构化的数据分发到不同的终端,这种终端可以是公司自有的APP、网站或者微信公共号,也可以是公司的第三方分销平台,如通过携程API上传到携程分销商,通过阿里开发结构对接到阿里旅行。

       机票数据是一种实时性要求很高的网络数据,同时机票采集数据的用途也很多,数据采集的量也会相应增加。

       机票数据采集系统的核心目的是通过采集[去哪儿]数据源的机票实时价格信息,动态分析出需要的价格内容,并上传到[携程API]。以下的内容是针对机票数据采集系统策划方案的详细介绍。

  •      1. 采集去哪儿数据(多线程实时采集)
  •      2. 大数据平台管理系统实现
  •      3. 开发携程API接口,上传数据

1.采集去哪儿网站机票信息

  • 1.1 多线程处理:预计开设300-400条线程,每台服务器至少保证每台服务器能运行100个线程。
  • 1.2 数据更新必须及时且准确,速度以上海为例,循环上海出港到国内所有城市时间一圈不能超过20分钟。
  • 1.3  实现自动化采集,不用人工参与,后台可以人工设置采集城市,采集参数。

机票数据采集 机票数据采集系统 机票数据采集系统策划 探码科技

 

2. 大数据平台管理系统实现

  • 2.1 构建一个实时大数据分析平台,可以在上面按照各种查询条件分类、筛选出需要的航班机票。
  • 2.2 一个数据采集前端队列界面,可以直观的看到目前数据采集的情况,成功的条数,失败的条数,失败的原因,真正排队的任务等。

机票数据采集 机票数据采集系统 机票数据采集系统策划 探码科技

3. 上传到携程API

  • 3.1 学习最新版本的携程API接口,开发上传接口。
  • 3.2 完成机票资源共享平台的对接。

机票数据采集 机票数据采集系统 机票数据采集系统策划 探码科技

总结:

探码大数据主要采集数据:

       第一部分:所有航班的详情,采集字段包括航空公司、起飞日期 、起飞机场 、到达机场 、航班号、 使用规定、对应舱位、  对应价格 、剩余座位。

       第二部分:最低价格的航班详情,采集字段包括起飞城市三字码、到达城市三字码、 航空公司、起飞日期、起飞机场、 到达机场、 航班号、 使用规定、最低价格、 最低价格舱位 、I舱价格、 最低价剩余座位。


OTA机票数据采集

       采集目标:  OTA网站机票价格、移动端机票价格,可采集指定网站的数据,按客户要求进行处理,输出所需数据格式.
       案例:  www.qunar.com、www.ctrip.com、www.kuxun.cn、以及各大航空公司

  • 根据线路出发地、目的地获取机票信息
  • 自动对比机票价格,获取最低报价
  • 根据每天的机票价格生成2-3月报价
  • 一键自动更新2-3个月内的价格
  • 可自行设定成人地接价、儿童地接价、价格说明


探码大数据服务优势

  • 一对一采集服务:满足每个客户单独的数据采集处理方式
  • 内容、关键字、链接替换:相近内容、词、链接地址替换
  • 支持图片采集下载:自动将内容中的图片换为本地图片
  • 分页采集:多页连续横向采集
  • 多层嵌套采集:多层嵌套纵向深入采集
  • 复杂数据结构组织:数据间复杂逻辑结构自动组织
  • 任意编码采集:支持各种语言编码网页的采集
  • 多种数据保存格式:Excel/JSON/MySQL/MsSQL/API
  • 图片验证码识别:自动识别图片中的信息 中英、中拼自动转换:中英文、中文拼音自动转换