中航信大数据思考与实践_第1页
中航信大数据思考与实践_第2页
中航信大数据思考与实践_第3页
中航信大数据思考与实践_第4页
中航信大数据思考与实践_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中航信人数据思考与实践【赛迪网讯】我来自中国民航信息集团公司(以下简称中国航信)。中国航信的前身创建于80年代,30年来,一直为中国民航业提供信息化服务。 中国航信 正式组建于2002年10月,属国资委管理的中央企业,现有员工近 4000人,总部 在北京。2000年10月,中国民航计算机信息中心联合当时所有国内航空公司发起成立中国民航信息网络股份有限公司,于2001年2月在香港联交所主板挂牌上市交易。2008年7月,中国民航信息集团公司以中国民航信息网络股份有限公司为 主体,完成主营业务和资产重组并在香港成功整体上市。目前,中国航信是航空旅游行业领先的信息技术及商务服务提供商,主要业务是航空客

2、运业务处理、航空旅游电子分销、机场旅客处理、航空货运数据处理、 航空财务结算清算、IT外包服务、互联网旅游分销平台。包括淘宝、携程、艺龙 在内,它们销售客票的原始数据都由中国航信提供。航信的电子客票服务,可以 让乘客方便地通过网络购买机票、网上值机,拿着第二代身份证就可以登机。我曾经看到过这样一个报道:美国某机场通过视频监控发现一个旅客把前面旅客的劳力士手表给偷了。随着服务细化以及航信客户-航空公司的要求越来越高、越来越细,中国航信也会逐步将图像、声音、视频加入到数据库当中,增加 数据库的多样性。目前,航信只是把图片放到了数据库中,视频还没有放到其中。中国航信目前运行着超过 2000台硬件设备

3、,每秒钟事务处理能力是11000TNX/S,每天为100万旅客提供订票离港服务,每天交易量10亿元。中航信目前存储的数据大部分为结构化数据,拥有超过2PB的存储系统,每年结构化数据增长量为35%中国航信拥有3个正在运行的数据中心,还有两个在建数据中心,分别是在顺义的30000平米数据中心以及浙江在嘉兴的15000平米数据中心。未来,会根据客户需求以及市场驱动等因素,来决定在结构化或非结构化数据的投 资。目前,中航信最紧迫是要满足航空公司的实时票价计算需求。实时票价,就 是航空公司能够在在某一时刻,根据历史数据、当下的需求,来自动决定机票售 价,既可以让航空公司的利润最高,又能够让消费者能够接受

4、。这个动态票价点 需要在几秒内计算出来,需要结构化大数据、并行计算等技术来进行支撑。中航 信现采用的传统teradata关系数据库,不能支持实时计算。航信成立之后的前20年,中国航信都是采用传统的主机系统,设备都是旧M的UNIX。目前,中国航信正在从传统的主机模式向开放平台进行转移,目前,酒 店业务、货运业务、电子客票、机场离岗等等都在逐步地向开放平台进行迁移。在开放平台上,中国航信主要应用是的Oracle或者MySQL数据架构之间相互比较独立、烟囱式的,每个系统之间数据没有物理上的联系。而逻辑上的些微 联系也是根据业务需求,进行的数据交换。这些数据在物理上是统一存储,我们 在3年前实现了在开

5、放平台上的虚拟化存储技术,把所有的磁盘、所有的应用系 统、主机都集成到我们的虚拟化云平台上,可以根据需要在几分钟内就部署一套 系统,这在两年前就完全实现了。中国航信在2002年投资一亿部署Teradata的数据仓库。这是一个关系型数 据库,它能存储大量数据,但缺点是反应速度慢,没法实时地为航空公司提供服 务,不能在规定时间内计算出票价,这个需求对于航空公司、客票代理、购票人都是非常有用的。过长的等待时间会让该功能失去功用了,因此 Teradata系统不 能用于实时的计算,都是按天为单位来运算的。在 2000年时,觉得Teradata的 存储容量很大,可以存储 12年的数据,但我们现在存储半年数

6、据就满了,且管 理成本、运维成本、扩容成本都是千万级的,也非常昂贵。根据预测,2020年的中国航空旅客运输量将达到 7.7亿人次左右,年复合增 长率为12.27%,并将成为全球第一的航空旅行大国。航空客运销售代理市场的规 模将达到360亿元左右,成长空间巨大。可以预见,支撑这一巨大规模的IT系统也将是及其复杂的。止匕外,中航信今天还面临数据多样性的挑战。数据多样性,这更多是由客户 驱动,如航空公司、客票代理、旅客对价格的理解,对服务需求的理解,对服务 要求的提高,会促使中航信决定是不是、何时应用大数据,是结构化的还是非机 构化的。比如中航信现有数据库支持图片,那就可以支持在乘客离岗时候照一张

7、照片,在登机口利用照片核对是否同一人,符合之后才可以登机。但这里面的数 据保密问题,对航空公司、信息服务提供商、乘客都是一个很大挑战。在2011年,中航信就开始研究大数据,是以事件交易服务为中心,主要面向旅客、面向航空公司来做大数据的服务。 并在2011年底对国内航空公司做了调研。 航空公司要求航信能够提供实时机票定价服务,根据市场需求,根据航线情况, 能够给出旅客能够接受的最高价格,比如京沪航线,什么时候全价、什么时候能 够打八折、八五折、七折,或者更低的折扣,这就要求航信提供很快的服务,能 够根据当时的市场需求、以及前几年的历史数据,以及飞机时刻,来计算出能够 航空公司所能卖出的最高价格,

8、同时也能提高舱位的利用率。同时,也要监测竞争对手是不是有低价,如果竞争对手给出低价,航空公司也要立即跟进。这都需 要实时数据来支撑。目前,中国航信在 EMC勺Greenplum上进行了大数据部署,这是基于事务性 的、云计算部署,它解决了结构化数据并行计算问题,能够快速计算、迅速反应, 但在图像存储上还有待完善。未来,航信最终会做hadoop,会采用全开源的NoSQL+X86勺硬件平台,利用 mapreduce、bigtable、GFS等类似的技术。特别是对于证券业、民航业、银行业等结构化数据较多的企业来说, Greenplum 是适用的,因为他的结构化数据+并行处理能力强大。而对于拥有大量图像

9、、声音、 视频的非机构化数据,hadoop更加适用。对企业来说,任何技术都有好处和缺陷,关键要看企业客户需求是什么,客 户要拿来做什么。就好比:不可能开着飞机大炮去打猎,得拿着猎枪。因此,服 务提供商选择什么样的技术是基于客户的需求,要选对工具和技术去支撑应用, 这是最关键的一点,看不到这点,会走冤枉路,花冤枉钱。中航信目前在做一个shopping ,把中航信的酒店、机票还有价格放到平台上 面,底层用的是mysql,上层是一些Nosql的数据库,这样能够快速响应。因为统 计发现,大概每900-1000个的访问者中只有一人进行了购买,大部分人是浏览。 为了应对这种情况,中航信采用了低成本的mys

10、ql,上面放一个高速缓存的nosql数据库,上面再架设一个网站的方式来为客户提供服务。民航主要用的是微软数据库架构,正逐步走向mapreduce、NoSQL逐步走向开源系统、开放架构。由于中国航信研发人员比较多,能够较好地对开源内容进 行编制和再创新,但最终还是航空公司和旅客的需求应用来驱动中国航信的架构。比如未来旅客订票需要图像,又如我们提供的预定酒店服务,可以在网上展 示酒店客房的实际情况,甚至可以模仿消费者在房间里面走,而出现的视觉变化, 房间的布局、颜色。以及窗外的景色,这就需要大数据的支持,必须是非结构化 大数据来支持,传统的结构化数据是无法支持的。客户愿意花钱购买这个服务, 或者竞

11、争让这个服务以更低的成本得以实现。比如订酒店,你可以看到周围环境 的布局以及酒店房间里面的情况,这样消费者可以更快地决定是否购买。如果其 他商家做不到,那就有独特的竞争优势。对商家来说,是否能够负担这个成本, 所有东西都取决于客户的需求以及成本的匹配。在数据中心“大数据平台”发展路线上,中国航信规划了四个方面。第一是 基础的IDC建设,目前建设了两个全新的数据中心;第二个是云存储、云主机、 云计算;第三个是开放的云应用,第四是把这些技术应用到web上,如网上值机、根据座位图来选择座位,未来航信可以提供立体飞机仓位示意图,让乘客可以更 直观地判断位置的舒适程度等,只要航空公司需要,就可以很快开发出这些服务。除了为民航提供服务之外,中国航信还对其他企事业单位开放,提供包括信 息服务,外

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论