作者:探码科技, 原文链接: http://www.tanmer.com/bigdata/157
这是一个探码大数据客户案例,我们根据客户需求,作了如下调研。
基于大数据的理论,机票数据采集系统的软件架构应该是从这三方面来研发的:左边是大量的数据源,中间是大数据平台,后边是对大数据分析处理以后的用途归属。
提供机票数据源的平台很多,包括像携程、去哪儿、艺龙这样的平台,到各个航空公司自己的官网,都可以源源不断的提供实时的机票数据,将这些机票数据汇集在一起,形成一个数据池。
中间的大数据平台是机票数据采集系统的核心,大数据平台将数据池中的数据结构化以后,提供给项目作任何维度的分析和研究,查询和检索,同时根探码大数据平台的业务逻辑进行筛选。
当有了大数据平台以后,探码科技将结构化的数据分发到不同的终端,这种终端可以是公司自有的APP、网站或者微信公共号,也可以是公司的第三方分销平台,如通过携程API上传到携程分销商,通过阿里开发结构对接到阿里旅行。
机票数据是一种实时性要求很高的网络数据,同时机票采集数据的用途也很多,数据采集的量也会相应增加。
机票数据采集系统的核心目的是通过采集[去哪儿]数据源的机票实时价格信息,动态分析出需要的价格内容,并上传到[携程API]。以下的内容是针对机票数据采集系统策划方案的详细介绍。
1.采集去哪儿网站机票信息
2. 大数据平台管理系统实现
3. 上传到携程API
第一部分:所有航班的详情,采集字段包括航空公司、起飞日期 、起飞机场 、到达机场 、航班号、 使用规定、对应舱位、 对应价格 、剩余座位。
第二部分:最低价格的航班详情,采集字段包括起飞城市三字码、到达城市三字码、 航空公司、起飞日期、起飞机场、 到达机场、 航班号、 使用规定、最低价格、 最低价格舱位 、I舱价格、 最低价剩余座位。
采集目标: OTA网站机票价格、移动端机票价格,可采集指定网站的数据,按客户要求进行处理,输出所需数据格式.
案例: www.qunar.com、www.ctrip.com、www.kuxun.cn、以及各大航空公司