作者:探码科技, 原文链接: http://www.tanmer.com/web-bigdata/556
国民消费水平的提高,让选择飞机为出行工具的人越来越多,加上近年出境游市场高度景气,旅行社和大众航空业务增长迅速。据《 2019年8月中国民航市场简报 》统计,2019年8月,国内机场出港直飞航班42.86万班次,同比增加6.38%,其中国内航班38.56万班次,同比增加6.53%,国际/地区航班4.3万班次,同比增加5.02%,国内航班增速快于国际/地区航班。相比2018年8月,国内机场新开航线1627条,其中国内航线1350条,国际/地区航线277条。
针对发展迅速的航空业务,机票信息大数据帮助飞行旅客提供航班价格、航班状态、延误信息、航班点评等专业性功能,为商旅用户提供贴心便捷的旅行服务,为机场、空管提供ACDM,保障航班正常。
机票信息采集需要包含日期、航空公司、航班号、经济舱价格、经济舱折扣、公务舱价格、公务舱折扣、税费、附加费、机 型、起飞城市三字码、到达城市三字码、起飞时间等所有相关信息。
以下是票务网页的Response preview示例,也就是在网页中需要爬虫的字段:
据劲旅智库统计,用户预定机票最常使用的APP是携程旅行,其次是去哪儿旅行、途牛旅游、阿里旅行、同程旅游、艺龙旅行和驴妈妈旅游6家OTA企业的APP。在航空公司直销战略下,移动端表现较好,中国国航、南方航空、海南航空分别位于第八名到第十一名,常使用的用户分别为9.9%、8.2%和6.1%。
用户预订机票常使用的APP:
探码科技基于云计算研发的探码Web大数据采集系统——利用众多的云计算服务器协同工作,能快速采集大量数据。
探码通过网络爬虫对相关网站进行全方位实时的汇总采集。针对票务网站数据,对相关数据字段进行全自动化采集,借助网络爬虫或网站API,从网页获取机票信息数据,将其统一储存为本地数据。网络数据采集平台在获得所需的数据并将其分解为有用的组件之后,通过可扩展的方法来将所有提取和解析的数据存储在数据库或集群中,然后创建一个允许用户可及时查找相关数据集或提取的功能。
整体框架如图:
第一部分:所有航班的详情,采集字段包括航空公司、起飞日期 、起飞机场 、到达机场 、航班号、 使用规定、对应舱位、 对应价格 、剩余座位。
第二部分:最低价格的航班详情,采集字段包括起飞城市三字码、到达城市三字码、 航空公司、起飞日期、起飞机场、 到达机场、 航班号、 使用规定、最低价格、 最低价格舱位 、舱价格、 最低价剩余座位。
采集目标: OTA网站机票价格、移动端机票价格,可采集指定网站的数据,按客户要求进行处理,输出所需数据格式。案例: 去哪儿 、携程、途牛以及各大航空公司。