(交通运输规划与管理专业论文)铁路客票数据挖掘研究.pdf_第1页
(交通运输规划与管理专业论文)铁路客票数据挖掘研究.pdf_第2页
(交通运输规划与管理专业论文)铁路客票数据挖掘研究.pdf_第3页
(交通运输规划与管理专业论文)铁路客票数据挖掘研究.pdf_第4页
(交通运输规划与管理专业论文)铁路客票数据挖掘研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(交通运输规划与管理专业论文)铁路客票数据挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机科学的不断发展,大量的原始数据被不断收集并存储 到计算机中,而数据处理能力的低下,造成了目前信息丰富,知识贫 乏的现状。数据挖掘用非平凡的方法从大量数据中发现有用的知 识,正是应此要求而迅速发展起来的一门科学。 铁路中的客票系统蕴含了丰富的数据信息,如何从这海量的信息 中挖掘出有用的知识,是一个有待研究解决的问题。本文将数据挖掘 技术用于铁路客运营销分析中的巨量客票分析,针对铁路客票的实际 特点,对客票数据进行分析,提取客流信息以及客票数据的各个属性 对旅客购票行为的影响规则,用于指导铁路旅客运输组织,服务客运 营销决策。 本文选用s q ls e r v e r2 0 0 0 作为数据仓库和数据挖掘的开发工 具。分析了数据挖掘技术、可视化数据挖掘技术、o l a p 以及数据仓 库的基本原理,并对s q ls e r v e r2 0 0 0 中决策树、聚类分析的数据挖 掘算法作了重点分析。在对铁路客票系统中的数据进行了初步分析基 础上,对涉及的多种数据进行了集成与转换,给出了数据仓库的详细 设计过程和步骤。以京九线南昌局段下行方向0 8 年4 月份的客票数 据为样本,建立了星型构架的多维数据集,分析了样本数据的客流特 征,并且利用决策树和聚集技术对样本数据的席位、发车时间、列车 种类字段其进行了的数据挖掘和结果分析。 关键字:铁路旅客运输,客运营销分析,数据挖掘,决策树,s q ls e r v e r 2 0 0 0 a b s t r a c t w i t ht h ec o n t i n u o u sd e v e l o p m e n to fc o m p u t e rs c i e n c e ,ai o to fr a w d a t ah a sb e e nc o l l e c t e dc o n t i n u o u s l ya n ds t o r e di nt h ec o m p u t e r t h el o w a b i l i t yo fd a t ap r o c e s s i n gr e s u l t e di nt h ec u r r e n ts t a t u so fr i c hi n f o r m a t i o n b u tp o o rk n o w l e d g e d a t am i n i n g u s i n gn o n t r i v i a lw a yt of i n du s e f u l k n o w l e d g ef r o mal a r g ea m o u n to fd a t a ,i st h er e s p o n s et ot h i sr e q u e s t a n d q u i c k l yd e v e l o p e da sas c i e n c e r a i l w a yp a s s e n g e rt i c k e t ss y s t e mc o n t a i n saw e a l t ho fi n f o r m a t i o n i ti sa l li m p o r t a n tp r o b l e mt h a th o wt om i n eu s e f u lk n o w l e d g ef r o mt h e m a s so fi n f o r m a t i o n a i m i n ga tt h ec h a r a c t e r so ft r a i nt i c k e t sa n d a p p l y i n gt h et e c h n o l o g yo fd a t am i n n i n gi nt i c k e t sa n a l y s i s ,w ee d u c e i n f o r m a t i o no ft h ep a s s e n g e rs t r e a ma n di n f l u e n c er u l e so fp a s s e n g e r t i c k e t s c h a r a c t e r st ot h ea c t i o no f b u y i n gt i c k e t s s ot h a tw ec a nu s et h e m t od i r e c tt h eo r g a n i z a t i o no fr a i l p a s s e n g e rt r a n s p o r ta n ds e r v et h e m a r k e t i n gd e c i s i o no f r a i lp a s s e n g e rt r a n s p o r t t h es q ls e r v e r2 0 0 0i sc h o s e na st h ed e v e l o p m e n tt o o lo fd a t a w a r e h o u s e a n dd a t a m i n i n g t h e b a s i c p r i n c i p l e s o fd a t a m i n i n g t e c h n i q u e ,v i s u a ld a t am i n i n gt e c h n i q u e ,o l a pa n dd a t aw a r e h o u s ea r e p r e s e n t e d d e c i s i o nt r e ea n dc l u s t e ra n a l y s i si nt h es q ls e r v e r2 0 0 0a r e h i g h l i g h t e d a f t e rt h ep r e l i m i n a r ya n a l y s i st ot h ed a t ai nt h er a i l w a y p a s s e n g e rt i c k e t ss y s t e mi sc a r r i e do n ,t h ei n t e g r a t i o na n dc o n v e r s i o nt o s e v e r a ld a t a b a s e si n v o l v e da lec a r r i e do n t h ed e t a i l e dd e s i g np r o c e s s a n ds t e po ft h ed a t aw a r e h o u s ef o rd e c i s i o nm a k i n ga r ep r o v i d e d a st h e s a m p l ed a t a ,t h et i c k e t sd a t ai sc o l l e c t e df r o mb e i ji n g k o w l o o nl i n ei n n a n c h a n g b u r e a uw i t hd o w n w a r dd i r e c t i o ni n a p r i l2 0 0 8 as t a r f r a m e w o r kc u b ei se s t a b l i s h e d c h a r a c t e r i s t i c so fs a m p l e sd a t aa r e a n a l y z e d t h ed a t am i n i n gt ot h es e a t ,l e a v i n gt i m ea n dt r a i nv a r i e t yi s c a r d e do n l a s tr e s u l ta n a l y s i si sd e s c r i b e d k e yw o r d s r a i l w a yp a s s e n g e rt r a n s p o r t ,p a s s e n g e rt r a n s p o r t m a r k e t i n ga n a l y s i s ,d a t am i n i n g ,d e c i s i o nt r e e ,s q ls e r v e r2 0 0 0 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。 作者签名: 弛函扎 日期:丑趟年卫月鲨日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允 许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容, 可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技 术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名:箍函劾导师签名日期:壶丝年卫月塑目 硕士学位论文第一章绪论 第一章绪论弟一早三百y 匕 我国幅员辽阔,铁路纵横交错,随着经济的发展,人口流动规模也越来越大。 如何合理有效地组织铁路旅客运输,保证铁路畅通、高效运转是一个值得关注的 问题。铁路客票发售与预定系统每天实时产生和不断积累大量客票发售数据。开 发这些数据资源,提取有用知识,服务客运管理、营销决策,是铁路客运营销部 门的迫切需求。本文根据铁路客票数据的特点利用数据挖掘技术对其进行研究分 析,提取铁路系统决策者所需要的信息知识,用于指导铁路旅客运输组织。下 面就论文的研究背景、研究意义、研究现状以及论文的整体结构做简要介绍。 1 1 选题背景及意义 在数据库技术迅猛发展的今天,人们产生和收集各种类型数据的能力迅速提 高,造成数据的大量堆积。其中包括条码在商品中的广泛使用,商务、科学和行 政事务的计算机化,以及由文本和图像扫描平台到卫星遥感系统的数据收集工具 的进步。此外,作为全球信息系统的万维网的流行,更是将我们淹没在数据和信 息的汪洋大海中。存储数据的爆炸性增长激起了对新技术和自动工具的需求,以 帮助我们将海量数据转换成信息和知识。尽管很早就出现了简单的数据统计技 术,能够对数据进行一定的分析,但这远远不够,我们需要更为先进的智能数据 分析工具对海量的数据信息进行更为深入的理解和分析。 因此,在商业领域和科学研究领域都迫切要求发展这样的技术,能够从如此 海量的数据中抽取出非平凡模式,找出数据变化的规律和数据之间的相互依存关 系,使人们能够从宏观的高层次的角度来审视数据,充分发掘数据的潜力,指导 人们的行为,为决策和科学发展提供有力的支持。 于是,数据挖掘从大量数据中,用非平凡的方法发现有用的知识,就成了 一种自然而迫切的社会需求。正是这种广泛的社会需求引起了人们的关注,导致 了数据挖掘研究的蓬勃开展和数据挖掘技术的不断进步。数据挖掘任务一般可以 分为两类:描述和预测。描述性挖掘刻画数据库中数据的一般特性;预测性挖掘 是在当前数据上进行推断,以进行预测。数据挖掘主要有以下功能:对概念和类 进行描述;利用关联分析发现关联规则;分类和预测;聚类分析;孤立点分析; 演变分析。描述行为随时问变化的规律或趋势,并对其建模f l , 2 1 。 我国铁路客票系统每日产生的售票记录高达3 0 0 余万条,分布存储在各级服 务器的数据库中,以一定周期传输、汇总、集中到铁道部,数据经过整理压缩并 硕士学位论文第一章绪论 长期保存。为了实现较高速度的超大规模数据库查询和多角度的统计分析,铁道 部门对上述交易数据进行了进一步的整理和重组,形成了以决策分析为主要目的 大型数据库系统一客票营销分析系统,它是采用全新的数据模式组织的大型数据 库系统,其中存储了大量的原始客票数据,这些数据规模巨大,蕴涵丰富的决策 信息和知识,开发这些宝贵的信息资源,服务于客运营销决策,是提高铁路客运 市场竞争力的一项重要任务,也是目前迫切需要解决的问题1 3 卅。 铁路客运营销分析是铁路部门一项重要的工作,它通过一系列的方法和手段 对铁路旅客运输的各个方面进行决策分析,得出指导列车运营的相关知识,对铁 路运输进行有效的管理,使其在激烈的市场竞争中占据优势。客票营销分析是铁 路客运营销分析的一个重要部分,它主要以客票数据为依据,根据客票的各种属 性分析客票销售情况,从中得出客票发售的规律,用于指导列车营运、调整客流 和进行预测分析。 在数据挖掘技术日益成熟的今天,己经出现了很多数据挖掘的软件工具,如 s a s 、d b m i n e r 、b u s i n e s so b j e c t 、q u e s t 、a n a l y s i ss e r v i c e s 等i 7 l l l 。这些都是 通用的数据挖掘商业软件,它们都有较强的数据挖掘能力,能够对一定规模的商 业数据进行关联规则、分类、聚类等操作【1 2 - 1 5 j 。 旅客列车开行方案的编制需要精确的客流信息,而现在收集客流信息一条途 径为问卷调查,但由于调查问卷设置的方法、水平以及被调查者素质的不同,调 查结果并不能完全达到问卷的目的,即不能十分清晰、精确地反映客流内在的本 质特征和发展规律。另一个途径就是利用客票销售系统中保存的售票数据,但是 该系统中的数据量庞大,且关系复杂,目前在这些数据上只能做一些简单的统计 分析,无法提取对客运营销有帮助的决策信息。 针对这种情况,本文着眼于铁路客运营销分析的具体情况,从铁路客票的发 售系统存储的客票数据入手,针对客票数据的具体特征和客票信息挖掘的具体要 求,利用铁路客票的海量数据建立数据仓库,利用决策树和聚集基本思想,将数 据挖掘中的决策树技术和聚集规则应用于客票数据挖掘,对客票的席位、发车时 间和列车种类属性进行挖掘,从中发现影响旅客购票规律和知识,得出指导铁路 客运组织工作的客流信息,应用于铁路客运的上层决策分析【1 6 , 1 7 】,实现数据挖 掘技术在客运营销分析中的应用。 1 2 国内外研究现状 1 2 1 国外研究现状 德国铁路客运公司注重利用科学手段和方法,加强客流预测和分析,结合客 2 硕士学位论文第一章绪论 户需求,不断优化客车开行方案。在进行常规性客流预测的同时,特别强调运用 心理学原理从情感、习惯等方面去分析研究运输需求的变化。譬如,对票价、速 度、出行时间需求;对某种交通工具的喜好;各城市不同阶层客户购买力;各类 客户的出行规律等方面进行研究和分析。在对客流进行预测分析的基础上,利用 先进的客车开行方案模拟系统,设计出既符合旅客运输需求,又能实现运能与运 量最佳匹配的客车开行方案。目前,在长途客运方面,许多城间快速列车和地区 间直达列车实行节拍式运行方案( 即在6 :0 0 _ 2 4 :0 0 的时间段内,列车严格以 0 5 h ,l h 或2 h 的节拍运行) ,以及在0 :o o - 巧:0 0 时间段内实行旅客列车补充 开行方案。 法国铁路客运总部设有专门的市场营销部,专门负责市场调查和分析研究, 工作做得非常细致、深入。他们把版图划分成许多个小块,每个小块要调查4 0 项内容,包括有多少人外出、多少人到达,乘坐什么交通工具,旅行目的是什么 等。对不同旅行目的的乘客在不同时间段的流量要详细调查,把每目划分为8 个时间段,将每个时间段的不同方向出发和到达的人数调查清楚。调查方法采取 问卷调查和对售票进行统计分析相结合。在充分掌握调查数据的基础上,编制客 流量负载图,然后据此确定开车班次、停靠站。其深入、透彻的市场调查研究, 为细分市场、合理设计运输产品提供了可靠依据。 1 2 2 国内研究现状 国内关于建立铁路客运营销信息系统的初步设想始于九十年代末一计算机 技术、网络技术等信息技术在中国快速发展的时期。而国外在商业智能和数据仓 库技术等方面的迅速发展,以其强大的信息处理能力广泛应用于各行各业,这些 都给铁路加快信息化建设带来了契机与挑战。由于软件开发者对铁路客运营销信 息系统开发的认识不同,软件开发的目的、目标不同造成软件开发的结果也各不 相同。在我国,铁道部、各铁路局、铁路各大专院校在铁路客运营销信息系统的 研究和开发上做了大量的工作,有些设计在实践中取得了显著的成果【1 8 - 2 2 。 铁路客票发售和预订系统从1 9 9 6 年开始实施,是国家“九五”科技攻关的重 点项目。该项目历时4 年完成,建立之后被评为国家“九五”攻关一等奖,到目前 为止已经过5 次升级。在其三级架构中,车站系统是面向售票实时交易系统,地 区中心面向席位的控制、调度以及管内的运输管理,铁道部客票中心则是面向全 路的客运管理、营销分析和保障全路联网售票。客票系统的平台基本构成:地区 中心、大车站基本采用小型机,一般车站采用微机,微机服务器;数据库选用了 s y b a s e ,前端采用了s y b a s e 的p o w e r b u i d e r 。铁道部开发建设的铁路客票发售和 预订系统,解决了长期存在的买票难问题,提高了铁路客运经营水平和服务质量。 硕上学位论文第一章绪论 从客票系统衍生出营销分析系统。营销分析系统能够动态掌握售票情况,并 实现指标统计、实现自由报表、智能分析、各种预测。客票系统解决的是广域网 售票数据采集、生产数据的重组和存储、数据的展现。存根存在车站,中间件每 隔2 0 分钟定时传到地区中心、铁道部,即车站有存储、地区中心有存储,铁道 部有存储( 全国的) 。将这些数据进行重组,客票系统是面向交易的,分析则是对 整体客运量、收入等进行分析,数据的结构有较大的不同。铁道部建立了数据仓 库,数据包括了客运量、运能、上车人数等;展现则是将自由报表、多维分析结 合在一起。更进一步的工作是预测和数据挖掘。这个工作还有待进一步实践。 朱晔和季令提出了一个关于全国铁路客运营销信息系统的初步构想:系统覆 盖全路,纵向分为铁道部、路局和车站3 级,横向由信息收集、数据分析和预测 决策3 个模块构成【2 引。 田宁在研究客票营销分析问题的基础上,结合客票系统的实际,运用数据仓 库理论和数据在线分析处理( o l a p ) 的思想设计了客票营销分析系统。根据客票 系统的信息源分布情况和网络情况,设计了客票发售生产数据的广域网采集和处 理方案,并就客票营销分析系统中数据源的选取,数据采集、传输和整理,以及 数据集市的设计做重点研究【2 4 l 。 宫国顺和傅军在铁路客运营销信息系统研究中,通过对客流信息的分析比 较,智能化地给出了客流信息要点提示和运能调整建议,并且提供方便的列车开 行方案设计,以及快捷的方案盈亏测算和多方案的优化比选【2 5 1 。 冀平在研究客票营销分析问题的基础上,结合客票系统的实际,运用数据仓 库理论和数据在线分析处理的思想设计了客票营销分析系统。为铁路客运管理人 员了解现场售票情况,进行席位发售、售票收入和客流统计分析以及辅助决策提 供了依据【2 6 】。 张琪和黄厚宽探讨了数据挖掘中的两种模式:关联规则和序列模式的概念和 作用,探讨了序列模式挖掘用程序流程的方式;讨论了基于铁路客票分析的实现 效果f 2 7 1 。 王艳辉和王卓在分析铁路客票数据特征的基础上,提出了采用分段模糊神经 网络对铁路客运量进行数据挖掘预测。证明了分段模糊的数据处理方法是有效 的,为预测铁路客运量提出了一种新思路【2 引。 杜彦华、尹晓峰和刘春煌利用多a g e n t 的智能性、协作性、互操作性等良好 特性,引入多种a g e n t ,构建了一个基于多a g e n t 的分布式客票数据挖掘系统。 该系统有效的解决了数据的分布性和隐藏复杂性问题,且使系统具有较好的模块 化和可重用性【2 9 1 。 目前国内的研究工作主要是依据客票发售数据进行旅客运输的统计、分析和 4 硕士学位论文第一章绪论 预测的,面向铁道部客运管理部门的辅助决策管理活动【3 们。目前其完成的工作 主要有:完成客票发售和旅客运输数量等数据的统计汇总;能灵活生成日、旬、 月、年各类报表;能进行多角度、多层次的灵活分析、比较;能方便地对售票情 况进行相对动态查询;能进行客流走势与进款的预测。需求的核心是客流分析, 通过统计、查询、比较、分析、分类、预测,对运行图进行评价,进而实现客流 组织优化和运输方案及票额分配计划的调整等客运组织管理决策支持。 但这些工作对于客票营销分析以及客运营销分析来讲还远远不够,这些初步 的统计活动仅能对客票数据进行简单的分析,无法得到上层领导所需的决策知 识。然而,客票营销分析是对大规模客票数据进行的高层次的预测分析活动,它 面向的对象是大量的客票数据,目的是为了查询、分析和辅助决策,因此它必须 利用已经组织形成数据库系统的大规模客票数据,进行有效的数据挖掘,挖掘出 指导列车营运的非平凡模式并产生知识,才能满足客运组织高层管理人员决策分 析的需要。 所以本文在利用客票销售系统的海量存根数据的基础上,运用数据挖掘技 术,从海量数据中,提取一些简单易懂的知识和规则,应用到客运营销的工作当 中去。 1 3 论文的整体结构 本文简要介绍数据挖掘技术及其在铁路客票数据分析中的应用,然后重点研 究利用数据挖掘技术从大量的客票数据中得出的知识规则来为票额合理分配、运 行图优化及客运营销服务。各章内容安排如下: 第一章绪论 介绍本文的选题背景、意义和研究现状,提出本文的主要研究内容以及论文 的结构。 第二章铁路客运营销与客流量预测分析 介绍铁路客运营销分析的现状以及为客运营销服务的分析与决策支持系统 的概况和组成。分析铁路客运量预测的大概情况并重点介绍了回归分析和灰色模 型预测两种客运量预测方法。 第三章数据挖掘概述 阐述数据挖掘的概念、预处理技术,并重点介绍数据挖掘技术。此章是客票 数据处理和进行客票数据挖掘的理论基础。 第四章铁路客票数据挖掘关键技术分析与设计 介绍s q ls e r v e r2 0 0 0 数据库工具和a n a l y s i ss e r v i c e s 数据挖掘工具,探讨铁 路客票数据处理的方法,建立铁路客票数据仓库,给出基于a n a l y s i ss e r v i c e s 的 硕士学位论文 第一章绪论 数据挖掘方案,为实现铁路客票数据挖掘分析提供了技术支持。 第五章铁路客票数据挖掘实证研究 利用数据挖掘技术对铁路客票数据进行实证研究,得出影响旅客选择席位、 发车时间和列车种类的因素。并对京九线南昌局段的车站和列车的运能资源利用 情况进行多层次、多角度、全方位的分析和挖掘。 第六章结论及展望 对全文进行总结。提出了本论文尚未解决有待今后继续进行研究的问题,并 对将来的研究工作进行了展望。 6 硕士学位论文 第二章铁路客运营销及客流量预测分析 第二章铁路客运营销与客运量预测分析 由于客运信息数据的复杂性及海量性,就需要对客流数据进行恰当的分析预 测,这也是铁路客运营销分析及其辅助决策活动中的关键之一。 2 1 铁路客运营销分析及其辅助决策支持系统 2 1 1 铁路客运营销分析及其辅助决策支持系统目标 铁路运输部门为了应对运输市场激烈的环境,应该及时、准确、有效地掌握 铁路客运信息,以帮助决策人员制定合理的资源配置和营销战略,这在现阶段是 完全可行的。目前我国铁路客运预订和发票系统已经完善和稳定,产生了大量格 式规整、结构合理的铁路客运业务数据。铁路客运部门通过o l a p ( o n l i n e a n a l y t i c a lp r o c e s s i n g ,联机分析处理) 对这些数据进行处理以建立客运决策支持系 统( r a i l w a yp a s s e n g e rt r a n s p o r t - d e c i s i o ns u p p o r ts y s t e m ,r p t - d s s ) 。 铁路客运决策支持系统的需求和系统目标:铁路运输部门通过对业务职能迸 ,行反复的调查研究和需求分析,得到全面的系统需求,这些需要包括:客流分析、 客运运输的技术指标评价、运输组织的调整、强大的查询和客流预测。这些分析 辅助铁路客运部门决策者对客运资源的调整,以最小的投资获得最佳的经济效 益,同时满足市场对铁路客运的需求。 铁路决策支持系统的总体目标的核心是建立铁路客票数据仓库系统,完成对 全路的客票信息的收集和整理,加强决策者和分析人员对营业状况、客流信息、 人力和列车资源的全面了解,提高决策的科学性和市场快速反映能力,并应用先 进的数据分析处理技术,主动发现铁路运输行业的问题和规律,以充分满足系统 需求f 3 0 1 。 客运决策支持系统应该具备以下三个系统目标: ( 1 ) 解决日常决策支持查询 这一阶段主要产生各种固定报表,灵活报表,这基本上是通过车站一路局一 铁道部逐级传输汇总数据,分别整理生成统计数据。这部分的应用与铁路客票原 有的报表相比较,提供了使用更方便、信息更丰富的查询手段和应用类型。 ( 2 ) 可以进行多维分析 通过对客运数据的分析,应用o l a p 前端工具进行分析,辅助决策人员发 现问题和规律。 ( 3 ) 专题分析和数据挖掘 7 硕士学位论文第二章铁路客运营销及客流量预测分析 选择有效的数据挖掘方法和手段,研究路段、列车、客源、线路之间的关系, 得到客流与收入的预测性分析。目前铁路客运管理采用铁道部、铁路局、车站三 级管理模式,这种经营模式形成了铁路客运决策部门分别分布在铁道部、铁路局、 车站三级地方。车站直接受铁路局管辖,它是旅客运输决策的具体执行者,所以 铁路客运的基本决策部门是铁道部、铁路局。而铁道部作为全路旅客运输总指挥, 要求决策支持系统得到全方位的支持。同样,铁路局应该得到下面铁路车站的全 方位的支持。因此要求适合此种管理模式的的客运决策支持系统的数据采用“自 下而上”和“自上而下”相结合的模式。根据所有用户和客票信息系统的数据资源 的分布情况,我们采用以下客运决策支持系统的总体框架结构。如图2 所示: 外部数据库 分中心操作数据库 图2 - 1 客运决策支持系统总体框架 其中o d s ( 操作数据存储) 主要是存放从业务系统收集到的数据和便于往后续 数据仓库的中间数据,并能够满足相对时事的统计分析。d w d m ( 数据仓库,数 据集市) 的数据信息,它供o l a p ( 联机操作系统) 分析工具直接使用以及高粒度的 数据向c u b e ( 多维数据存储) 中加载【3 l 】。 8 硕士学位论文第二章铁路客运营销及客流量预测分析 2 1 2 铁路客运营销分析及其辅助决策支持系统的组成 ( 1 ) 数据管理子系统 在这个系统中,数据录入系统主要是对客运客票的销售情况进行录入以建立 客票销售数据仓库,这个仓库作为其他分系统分析的基础:同时录入系统也可以 输入其他分系统分析的结果作为历史数据为以后的分析提供可查询的依据。由于 我国的客运管理采用的是铁道部、铁路局、车站的管理模式,所以客运决策支持 系统采用导出系统的建立正是为了将各级统计的数据通过联机方式直接传到上 一级系统中进行汇总,同时也可以传到下一级系统中以供查询。数据查询系统的 作用主要是帮助决策者可以随时查询到有关以往决策数据,了解客运状况以便更 好地做出决策。 ( 2 ) 客流分析子系统 通过现有的车票销售情况以及以往年份客流信息,预测出未来的客流量。 ( 3 ) 现有设各预调度分析子系统 该系统在预测客流量以及客流分析的基础上,对现有的设备做出合理的调度 分析。 ( 4 ) 铁路政策预评价子系统 铁路客运部门随着经济的发展和市场的激烈竞争,必然相应地调整客运政 策,需要对这些政策做出评价,以减少决策失误。 ( 5 ) 开行列车技术指标评价子系统 通过该系统的分析,对于开行车辆的技术经济指标进行分析,可以帮助铁路 局有效地掌握开行列车的经济效益。 各分系统之间的关系如图2 - 2 所示: 图2 - 2 客运决策支持系统分系统之间的关系 9 硕士学位论文第二章铁路客运营销及客流量预测分析 2 2 铁路客运量预测 2 2 1 客运量预测的概念 客运量又称客运运输量,是指在一定的运输供给条件下所能实现的人的空间 位移总量,是运输需求与供给、运输需求与运输服务水平相互作用的反映,是在 一定运输能力下所实际完成的运输需求量。客运量的预测主要内容包括各种运输 方式的总客运量和旅客总周转量等。客运量是评价运输组织效果的指标,是衡量 旅客运输生产劳动量的尺度,是统计期内运送的旅客数量,其实质体现了运输部 门的绝对成果和运输组织方式满足社会客运需要程度的大小。对未来若干年的客 运量及其发展趋势进行预测,可以有效地计划和组织旅客运输,为客运系统的规 划布局提供依据,以达到促进旅客运输的经济效益和社会效益,满足国民经济快 速增长和人民生活水平日益提高需要的目的,对于客运的管理和决策具有重要的 意义。 2 2 2 客运量预测的特点 在进行客运量预测时,不仅要考虑社会经济发展对客运需求的影响,而且还 应从综合交通的角度出发,考虑各种交通方式之间的相互作用对客运需求带来的 影响,研究客运量预测的规律与特点,以更好的反映客运量的未来增长规律。 预测模型在运用中通常以一个特定的假设条件作为前提,即预测对象的未来 发展趋势与历史资料所反映的发展趋势相同。当前,我国的交通运输行业进入了 快速发展的时期,各种交通方式的客运量增长趋势发生了很大的变化,在进行客 运量预测时,必须注重对模型的选择和历史数据的选取,既要符合预测理论,又 要考虑客运量增长的特点。 在客运量预测中,数据样本一般具有以下特点: ( 1 ) 小样本 近年来,我国的交通运输行业进入了加速发展的时期,客运量的增长趋势发 生了很大的变化,在预测中,需要对历史数据进行合理选取,因此,在实际客运 量预测研究中所能收集到的有效数据样本较少。 ( 2 ) 非线性 交通系统是一个复杂的大系统,影响客运量的因素众多,客运量的增长不仅 受社会经济的影响,并且,在综合交通系统内各交通方式之间也相互促进、相互 制约,其关系往往不能用简单的数学解析式表述,另一方面,随着我国经济的快 速发展和综合交通系统的完善,我国的交通运输行业近年来进入了加速发展的时 l o 硕士学位论文第二章铁路客运营销及客流量预测分析 期,客运量的增长趋势也随之发生了较大的变化,客运量历史数据往往呈现出非 线性增长的特点。此外,各种突发事件的干扰往往也会使客运量的历史数据出现 较大的波动,如2 0 0 3 年非典事件对交通运输行业的影响。 2 2 3 影响客运量的因素 交通运输业离不开需求的驱动,因此,对铁路客运业务做出科学的预测是非 常重要的。铁路客运部门为了提高中长期计划性、科学性、预见性、有效性和严 肃性,发挥中长期计划的指导、组织、协调铁路运输在生产和建设方面的作用, 必须对客运量进行科学预测。 影响铁路客运量的因素很多。虽然每个因素的影响大小都不一样,但是要准 确预测铁路客运量却必须考虑这些因素。同时由于预测的提前性,大多数铁路客 流量预测都是上年度完成的,有些无法预料到的因素却造成预测值波动剧烈。比 如2 0 0 3 年,我国爆发s a r s 病症,在上年度的预测中,由于条件的限制和不可 预料性,就很少考虑到这方面因素将会对铁路客运运营造成巨大的影响。下面主 要讨论铁路客运量的主要影响因素,以此为基础建立预测客流量模型。 ( 1 ) 国民经济发展水平 国民经济发展水平对客运量的变化的影响范围最大,随着国民经济发展水平 的提高,城市间的联系更加密切,客观促进了人员的交流和流动。在我们现阶段 经济不断发展的情况下,民工流、学生流、探亲流等的数量都在不断的提高,这 就给铁路客运带来了机遇同时也带来了运营困难,这几年春运客流量屡创新高以 及购票难的现象就反映出经济水平的发展造成客运流量的增大,从而导致客运运 能不能满足市场的需要。 ( 2 ) 居民的经济收入 居民经济收入是另外一个对客运量产生影响的主要因素。居民的出行和选择 何种交通工具在很大一部分都要取决于自己的收入水平。例如,对于短途旅客而 言,在一定的收入水平支配下,选择铁路运输将是最经济的选择,但是当收入水 平达到另外一种水平的时候,旅客可能选择公路运输。因为公路相比较铁路客运 而言,具有舒适性和短时问性。而对于长途旅客而言,在一定的收入水平支配下, 可能选择铁路硬座或是卧铺,但是当收入达到一定水平的时候,就可能选择航空 运输【3 2 j 。 ( 3 ) 铁路客运设施改善以及政策的调整 一般来说,在常规影响因素中,除了国民经济发展水平和居民经济收入外, 铁路客运设施的改善以及政策的调整对铁路客运量的影响最大。目前铁路客运大 规模的提速,这使得旅客运输时间大为缩短,同时铁路客运服务质量也得到很大 硕士学位论文第二章铁路客运营销及客流量预测分析 的提高,有力地刺激客运量的增长。另外一方面,国家对农村居民到城市务工的 限制政策不断减少,也促进了全国范围内人员流动的频繁。我国铁路客运部门在 满足旅客运输需求的同时,也积极地提高自身经济效益。近几年来,铁路客运部 门提出“优质优价”政策,逐步淘汰现有的一些绿皮车,使用空调车来提高铁路客 运服务水平,这种政策必然带来客运价格的提高,从而也对客运量产生积极影响。 ( 4 ) 政治文化因素 通常这些因素并不是总是产生显著的影响,但是当这些因素达到一定程度时 就会对铁路客运量产生显著影响。例如,我国在2 0 0 8 年举办奥运会,这种体育 文化交流必然引起客运量的大幅度提高,在分析此类因素时,我们只能根据国家 既定政策和现有信息做出推测。 ( 5 ) 不可预料因素 这些因素相对而言发生的几率非常小,但是一旦发生,就会对客运量产生显 著影响。2 0 0 3 年度我国爆发的s a r s 病毒感染,在年初时,很少有人会预知到 它对铁路客运会产生这么大的影响。因此,这些不可预料的因素给铁路客运部门 的预测带来极大的困难,我们只能根据以往的经验和现有情况预测这些因素发生 的概率以及影响范围的大小 3 3 1 。 2 3 客运量预测方法 客运量预测是客运营销调度的核心内容,也是市场营销策划的关键,客运量 流预测需要采集大量的客流信息,运用数学的统计方法对这些信息进行分析,从 中找出客流的一般规律,根据这些规律做出对不同时间范围或特殊时间段内的客 流预测,预测的结果可以作为新开行列车或加、停、甩、挂车辆的主要依据。常 用的客运量预测方法有指数平滑模型、回归分析法、灰色模型、组合模型等,在 本节中将介绍最常用的两种方法:回归分析法和灰色模型预测法。 2 3 1 回归分析方法 应用回归分析法建立预测客流量的数学模型。在这里,我们设下一年度的预 测值为匕,以本年度的实际运送量为烁,建立一元线性数学模型: k = p o + a 以一l ( 2 - 1 ) e 广- 下一年预测量: 广一本年度实际运送量; 8 0 ,8 1 :为回归系数: 1 2 硕士学位论文第二章铁路客运营销及客流量预测分析 在这个模型里,我们取前5 年的实际客运量作为( 刀= j ,2 ,3 ,4 ,d 的 数值,k j ( n = l ,2 ,3 ,4 ,刃为前5 年的预测值。 经推导,回归系数岛,应满足下面的方程式: 55 刀岛+ 届以= 匕一。 ( 2 - 2 ) n = ln = l 55 5 屁瓦+ 届瓦一,= 以一。 n = l7 = i n = l 从( 2 ) 和( 3 ) 式中我们可以求解得到, a o ,所: 屈=;5 - k 一- 1 否5 以一一善5 ( 以一i ) ( 匕一一7 ) 善5 砰糕鼍) 2 p o = y p 、x 1)1, 其中见叉= 以,7 = 匕一, c _ 一 c j 一 ,一= lj 月;l 5 ( 五一牙) 2 n = l ( 2 3 ) ( 2 4 ) ( 2 5 ) 通过( 2 4 ) 中得到的岛,历带入( 2 1 ) 式中就可以求得下一年度客流的预测值。 在应用本方法时,为了得到更精确的数值,我们可以增加一个相关系数来检验预 测值是否精确。我们定义这个相关系数为,这个,表示变量x 和】,之间线性相 关程度的量度指标。 其中k = 善5 ( e i ) 2 ,。= 喜( 艺一。一歹) 2 ,岛= 喜( 以一叉) ( k 一,一歹) ( 2 - 6 ) a r = 0 ,说明x ,l ,不存在线性关系,即采用这种方法不能获得有效的数据。 b r = l 说明兄】,是完全的线性关系,即采用这种方法可以获得精确的数据。 c o r 0 ,正相关, o ,负相关, 越大,线性相关度越显著,所获得的数据就越精确。 回归法对于未来的预测随着相关因素的增多,误差的积累就越大。上下波动 的偶然抵消的几率也是非常小的,因此回归因素只适合于计划性相关因素,就是 说相关因素的未来值可以通过计划来得到或者推导出,这样误差就可能相对小 些。而旅客旅行因素无法通过计划,更不可能通过其他强制手段来完成或是限制 其发展,因此,回归法不能准确预测年度客运量。 彘 i | r 硕士学位论文 第二章铁路客运营销及客流量预测分析 2 3 2 灰色模型的预测方法 长期以来铁路的客运量一般都是用线性预测的方法来处理,然而客运量的变 化是一种社会现象,受经济、政治、社会等诸多因素的影响和制约,变化是动态 的,波动较大。因此用线性方法计算的预测值和实际值的误差较大。用灰色模型 的预测方法就能较好地解决这个问题。灰色系统是模糊数学派生的一种决策预测 方法,它是把被预测的对象作为灰色系统来处理。我们定义信息完全明确的系统 为白色系统,如历年旅客运输量数据;信息完全不明确的系统为黑色系统,如某 星体的体积、质量。而信息部分明确、部分不明确的系统称为灰色系统,如今后 几年旅客运输量变化趋势。灰色系统就是用已知的完全明确的白色信息,对一些 灰色信息白色化,用于社会经济活动决策和预测。 ( 1 ) 预备知识 灰色系统不是用原始数据建立模型的,因原始数据呈现较大的波动性,因而 必须对原有数据进行改造,使这些新的数据既能体现出原始数据的变化规律,又 能消除其波动性。这些新产生的数据叫生成数。处理的原则称为生成函数,通常 是用累加处理的方法。 累加定义:设原始数据序列为 x ( 七) = x o ( 1 ) ,。( 2 ) ,一j o ( 玎) 其中k 表示数据序列的时刻。累加是以原始数据为基础值,原始数据是0 次累加数据。 一次累加数据定义: x 0 ) ( 七) = x 。( f ) j = i 二次累加定义是在一次累加基础上进行的: 2 ( 七) = x 0 ) ( f ) i = l 一般地,n 次累加定义如下: ”( 七) = x ( - 0 ( f ) t = l ( 2 ) 灰色预测模型的建立 建立模型是灰色系统的关键,灰色预测模型则是灰色系统模型在实际中的进 一步应用。已知白色系统内部的参数和信息可用精确的量度来描述,如一闭合电 路中电流、电压和电阻问的关系可以用u = i r 来确切地描述。而灰色预测的基本 1 4 硕上学位论文第二章铁路客运营销及客流量预测分析 俣坐( j m ( i ,足以似万力径t f 刀日巴f f , j 俣型。 设给定变量:x 。) _ l x ( o ) ( 1 ) ,0 。( 2 ) ,。( 玎) j 相应的微分方程为帮a 一。m 甜 i , 微分方程的解( 连续) 安o o ) :i x 一兰1 e _ a u 1 aia 或者为( 离散) :篓q + 1 ) :r x 。( 1 ) 一兰1 p 罐:一u l口j a p = 一妒( 1 ) ( 2 ) 1 一圭 1 1 ( 2 ) + 。1 ( 3 ) t 一三 x ( 1 ( 刀一- ) + x ( 1 ( 胛) , = e x ( 。( 2 ) ,工( 。( 3 ) ( 。( 门) t 式中x 俐预测原始数据的一次累加; 似预测原始数数据 灰色模型在构造时采用的是一阶微分方程,其通解形式为 f 【x ) _ c l e - q 。+ c 2 上式是由常数和指数函数构成的二项式,随着指数q 的取值,函数呈连续单 调变化,或常数形式。当q - - o 时,f f x ) = c l + c 2 ,预测年限内交通量增长率为0 ;当 q 0 时,l i r a g e 班0 ,f ( x ) 一c 2 ,交通量无穷减少,直至为零。以上现象都 是我们不想见到的,随着社会经济的不断发展,人类文明的不断进步,交通量无 限增长或是无限降低都是不太可能发生的。因而,灰色预测理论在模型的构造方 面存在一定的缺陷,从而限制了其预测精度。 2 4 小结 本章对铁路客运营销分析与辅助决策的系统目标和组成,以及客运量预测方 法进行了分析,现有的客运营销方法都是以客票数据为依据,采用统计分析等方 硕上学位论文第二二章铁路客运营销及客流量预测分析 法对旅客发送、到达、运送人数、旅客周转量等信息进行汇总分析活动。虽然在 一定程度上对客票数据进行统计分析,但无法实现真正的智能分析和决策。因 此客运营销份迫切需要引入数据挖掘技术,对大规模的客票数据进行全面的分析 处理m l 。 1 6 硕士学位论文第三章数据挖掘概述 3 1 数据挖掘的概念 3 1 1 数据挖掘的产生 第三章数据挖掘概述 数据挖掘是信息技术自然演化的结果。2 0 世纪6 0 年代以来,数据库和信息 技术己经从原始的文件处理演化到关系复杂、功能强大的数据库系统,数据库业 界逐步开发了以下功能:数据收集和数据库创建,数据管理( 包括数据存储和检 索,数据库事务处理) ,以及数据分析与理解( 涉及数据仓库和数据挖掘) f 3 5 ,3 6 】( 见 图3 1 ) 。 数据收集和数据库创建( 2 0 世纪6 0 年代) 一原始文件处理 数据库管理系统( 7 0 年代) 一关系犁数据库系统 数据建模t 具:实体联系模型等 一查询语言:s q l 等 一用户界面:表单、报告等 一查询处理和查询优化 一事务处理:恢复和并发控制等 一联机事务处理( o l t p ) 高级数据库系统( 8 0 年代中期) 一高级数据库模型:扩充关系、面向对 象、对象关系、演绎 一面向

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论