探码网络大数据之机票信息采集方案解析

发布日期: 2019-09-18, 最近更新: 12 天前
基于探码网络大数据采集系统对机票信息进行全方位的实时采集。

国民消费水平的提高,让选择飞机为出行工具的人越来越多,加上近年出境游市场高度景气,旅行社和大众航空业务增长迅速。据《 2019年8月中国民航市场简报 》统计,2019年8月,国内机场出港直飞航班42.86万班次,同比增加6.38%,其中国内航班38.56万班次,同比增加6.53%,国际/地区航班4.3万班次,同比增加5.02%,国内航班增速快于国际/地区航班。相比2018年8月,国内机场新开航线1627条,其中国内航线1350条,国际/地区航线277条。

针对发展迅速的航空业务,机票信息大数据帮助飞行旅客提供航班价格、航班状态、延误信息、航班点评等专业性功能,为商旅用户提供贴心便捷的旅行服务,为机场、空管提供ACDM,保障航班正常。

机票信息采集字段

机票信息采集需要包含日期、航空公司、航班号、经济舱价格、经济舱折扣、公务舱价格、公务舱折扣、税费、附加费、机 型、起飞城市三字码、到达城市三字码、起飞时间等所有相关信息。

以下是票务网页的Response preview示例,也就是在网页中需要爬虫的字段:

机票信息网站选择

据劲旅智库统计,用户预定机票最常使用的APP是携程旅行,其次是去哪儿旅行、途牛旅游、阿里旅行、同程旅游、艺龙旅行和驴妈妈旅游6家OTA企业的APP。在航空公司直销战略下,移动端表现较好,中国国航、南方航空、海南航空分别位于第八名到第十一名,常使用的用户分别为9.9%、8.2%和6.1%。

用户预订机票常使用的APP:

         

机票信息网络爬取技术选择

探码科技基于云计算研发的探码Web大数据采集系统——利用众多的云计算服务器协同工作,能快速采集大量数据。

探码通过网络爬虫对相关网站进行全方位实时的汇总采集。针对票务网站数据,对相关数据字段进行全自动化采集,借助网络爬虫或网站API,从网页获取机票信息数据,将其统一储存为本地数据。网络数据采集平台在获得所需的数据并将其分解为有用的组件之后,通过可扩展的方法来将所有提取和解析的数据存储在数据库或集群中,然后创建一个允许用户可及时查找相关数据集或提取的功能。

整体框架如图:


探码机票信息主要采集的数据

第一部分:所有航班的详情,采集字段包括航空公司、起飞日期 、起飞机场 、到达机场 、航班号、 使用规定、对应舱位、  对应价格 、剩余座位。

第二部分:最低价格的航班详情,采集字段包括起飞城市三字码、到达城市三字码、 航空公司、起飞日期、起飞机场、 到达机场、 航班号、 使用规定、最低价格、 最低价格舱位 、舱价格、 最低价剩余座位。

OTA机票数据采集

采集目标:  OTA网站机票价格、移动端机票价格,可采集指定网站的数据,按客户要求进行处理,输出所需数据格式。案例: 去哪儿携程途牛以及各大航空公司。

  • 根据线路出发地、目的地获取机票信息
  • 自动对比机票价格,获取最低报价
  • 根据每天的机票价格生成2-3月报价
  • 一键自动更新2-3个月内的价格
  • 可自行设定成人地接价、儿童地接价、价格说明

爬取结果示例

探码采集网络航班数据的优势总结

  • 数据准确率高:24小时自动化爬虫技术,实现数据的实时更新,保证数据的抓取准确率
  • 渠道全覆盖:实现票务渠道全面覆盖,机票数据处理能力达到每秒千条
  • 采集基础保障:专业的采集云服务器,采集动态IP储存丰富,应对各平台的反爬虫策略
  • 专业的清洗团队:对数据质量要求高,通过“机器+人工”的方式清洗好高质量的数据
  • 丰富的技术经验和业务沉淀:沉淀了行业领先采集技术和采集入口,保证同条件的需求尽可能采集更多的数据

相关阅读:

探码网络大数据之网络舆情方案解析