基于某旅游公司的客户信息挖掘分析_第1页
基于某旅游公司的客户信息挖掘分析_第2页
基于某旅游公司的客户信息挖掘分析_第3页
基于某旅游公司的客户信息挖掘分析_第4页
基于某旅游公司的客户信息挖掘分析_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE内容摘要本文的研究利用数据挖掘技术与CRM的有机结合,通过客户关系价值分类、有针对性的市场营销、高质量的游程管理和及时的游客跟踪服务,能够提供给游客更加个性化、人性化和标准化的旅游产品,从而提高游客对旅行社的满意度和忠诚度,进而实现客户价值和公司利益双赢的目的。因此,把在温州某民营旅行公司实习所接触到的客户旅游的信息作为这次论文研究的对象,尝试通过所得客户旅游信息数据,采用数据挖掘方法对温州客户旅游性质进行分类和关联规则分析,在了解客户的特征之后,便可以采取一对一的营销服务,使旅行社更加有效的进行客户关系管理,提高公司盈利。关键词:数据挖掘、客户关系管理、客户营销、关联分析、旅行社

ABSTRACTUtilizethecombineorganicallyofthetechnologyofdataminingandtheCRM,throughtheClassifyofcustomer'srelationvalue,pointedmarketing,high-qualityvisitingdistancemanagementandpromptvisitor'sfollow-upservice,wecanoffermoreindividualized,favorandstandardizedtravellingproductstovisitors,thusimprovevisitor'ssatisfactionandloyaltytothetravelagency.SoputthecustomertravelinformationofprivatetravelingcompanyinWenzhouwhereIstudiedasresearchobjectofthisthesis,Trytothoughthecustomer'stravelinformationdataIget,adoptingthemethodofdataminingtoClassificationandrelatedregularanalysisthecustomer'stravelpropertiesinWenzhou.Afterfindingoutthecharacteristicofthecustomers,thenwecanadoptthemarketingserviceofone-to-one,Enablethemoreeffectivethatcarryingonthecustomerrelationshipmanagementoftravelagencyandimprovingtheprofitsofthecompany.KEYWORDS:DataMining,CRM,Customer'sMarketing,RelationAnalysis,TravelAgency

正文目录第一章引言 1第一节研究的背景与现状 1第二节研究的目的与意义 5第三节研究的内容 8第二章数据挖掘理论和客户营销理论 9第一节数据挖掘的产生和发展 9第二节数据挖掘的定义和常用技术 10第三节客户营销理论 13第四节数据挖掘在客户关系管理中的应用 18第三章温州某民营旅游公司客户信息分析 21第一节线路分析 21第二节出行时间及人数分析 23第三节旅游目的和特征分类 23第四节客户信息的关联分析 24第四章对关联分析结果的讨论 35第五章结论 36【参考文献】 37致谢 38第一章引言第一节研究的背景与现状研究背景旅游业具有“无烟产业”和“永远的朝阳产业”的美称,它已经和石油业、汽车业并列为世界三大产业。旅游业一般分为国际旅游业和国内旅游业。国内旅游业是为国内旅游者服务的一系列相关的行业,它关系到国内游客、旅行方式、膳宿供应设施和其它各种事物。改革开放以来,我国的旅游业有了非常迅速的发展,但是比较而言,我国国内旅游业发展的广度深度都远远不能适应经济发展和人民生活水平提高的需要。随着市场经济的发展和人民收入水平的进一步提高,人民对旅游消费的需求将进一步上升,国内旅游业在国民经济中的地位和作用越来越重要。李亚非.旅游经济[M].中国林业出版社,2001.2008年旅游企业业绩普遍下滑,受挫感要比行业宏观形势更加强烈。中国旅游研究院11月份对564家旅游企业进行的产业景气调查的结果表明,旅游企业景气指数为89.3,处于相对不景气区间,绝大多数旅游企业判断2008年经营状况与2007年相比大致持平或将会下降,只有30.9%的旅游企业判断2008年企业经营状况较2007年上升。从行业来看,旅行社行业最不景气,景气指数为54.7;饭店企业次之,景气指数为100.5;景区企业最为景气,景气指数130.5。从地区来看,东部地区旅游企业景气指数为101.4,处于微景气区间;中部地区旅游企业景气指数为92.4,处于微弱不景气区间;西部地区旅游企业景气指数为38,处于较重不景气区间。戴斌.2008年旅游经济回顾与2009年趋势预测[J].旅游研究,2009(1)温州作为华东地区民营经济发展最快最繁荣的地区,从1995年到2008年这14年间,不管是温州国内旅游业还是国际旅游业都保持着迅猛发展的态势。根据浙江省旅游资源普查结果表明,温州有各等级旅游资源单体3279个,超过杭州,在浙江省位列第一。这几年,市委、市政府非常重视发展旅游业,把旅游业作为新的经济增长点和第三产业的龙头产业来抓,旅游业取得了长足的发展。旅游业的发展对温州地区的经济增长起到积极的促进作用,并且拉动了相关产业的发展,本文的研究正是在全国旅游业繁荣推进的大背景下,以温州旅游业发展为研究背景,针对自己所实习的温州某民营旅游公司的客户数据对客户的旅游特征和习惯进行分析。研究现状数据挖掘在各方面的应用数据挖掘可以通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。数据挖掘最吸引人的地方是它能建立预测模型而不是回顾型的模型。数据挖掘在企业CRM中的应用闫禹在《数据挖掘在客户信息管理中的运用》中指出:随着我国商品经济的迅猛发展,从大量顾客基础信息中了解顾客行为和购买倾向越来越有重要的商业价值。数据库中的知识发现(简称KDD)是目前人工智能和数据库相交叉的一个热门研究领域。数据挖掘是KDD的一个核心步骤,其内容涉及各种知识模式的提取算法。数据挖掘在商业部门的许多领域得到广泛应用。采用客户信息的简单数据集,每个顾客有客户类别、职业、年龄、收入水平、化妆品消费额度/年、消费国产/进口品牌等属性。运用数据挖掘技术对商业客户信息进行挖掘分析的方法:1.采用概念描述的方法评价客户信息。2.使用关联规则发现客户信息数据之间的关系。3.使用分类与聚类方法对客户归类。数据挖掘在旅游方面的应用在现代旅游业管理中,我们应该能随时随地访问到任何需要的信息,这就要求有一个体系结构来容纳各种格式的内部数据和外部数据。例如经营数据、历史数据、现行数据以及来自Internet服务提供商(ISP)的数据。使用数据分析可以进行有目标的市场销售,把最满意的旅游商品和服务送到可获得最大利润的客户手中。基于顾客的年龄、性别、职业、人口统计数据和其他类似因素,对其进行分析,辨别出具体的顾客偏好,组织他们到本旅行社来,这将是有很大潜力的市场。吴春阳等在《数据挖掘技术及其在旅游线路规划系统的应用》中指出:当前的一些旅游公司在规划旅游线路时,一般采用以下几种方式:一是主题旅游线路设计,比如红色旅游等来安排旅游线路;二是超市型旅游路线设计,顾客可以根据自己需求随意挑选景点,来安排自己的旅游线路;三是应用运筹学方法来寻求最优线路,从而把整个路线关联起来;最后就是市场导向,根据市场的要求来安排路线。但这些方法并没有充分利用信息技术的优势。随着数据库技术的发展,尤其是数据挖掘在各个行业中的广泛应用,为挖掘出合适的旅游线路提供了可能。相关公司可以利用数据挖掘技术提出更为合理、受用户欢迎的旅游线路,从而提高企业的经济效益。李君铁等在《基于WEB数据挖掘的旅游需求分析与预测》中指出:研究发现,使用互联网过程中,大部分的游客不会直接在网上预订,但他们却会通过网络搜索旅游信息,根据网上信息组合行程后再通过旅游中介进行预订。央视调查咨询中心所做的北京中青年网民“互联网网民旅游消费调查”结果显示:21.8%的网民登录过旅游网站,43.2%的网民表示将会登录旅游网站;在已经登录旅游网站的网民中,3.8%的网民已经进行过与旅游相关的网上预订,54.2%的网民表示将会尝试网上预订。可见互联网在旅游信息获取中的地位逐步提高。Web数据挖掘和传统的市场调研及网络调研相比较,优势十分明显。目前,Internet是一个巨大的、分布广泛的全球性信息服务中心,它包括新闻、广告、消费信息等各种各样的旅游信息。不仅如此,Web还包含着丰富的结构化数据,如动态变化的超链接信息以及对于Web页面的访问和使用的信息等,这为Web数据挖掘提供了丰富的资源。潜在客源对所感兴趣的旅游信息点击的记录可以作为旅游业对潜在客源的消费特性进行分析的重要数据依据,这些记录可以显示何地的潜在客源(who)对何目的地(where)在何时(when)进行点击。张晗等在《基于数据立方体的多维关联规则在旅游服务中的应用》中指出:利用OLAP(联机分析处理)技术实现对多维数据的分析,形成多维数据集,这些数据集可以作为多维关联规则算法的源数据。通过对多维数据集进行高效、多视角查看和维间关联分析,挖掘出适合游客的多维一体化旅游资源信息,例如景区景点、酒店、旅行社以及个性化的旅游线路等。根据用户给定的挖掘任务,从数据仓库中生成数据立方体,在此数据立方体上进行关联规则挖掘,具有一定的针对性。关联分析在旅游方面的应用关联分析在旅行社CRM中的应用徐会敏在《关联规则在旅行社CRM中的应用》中研究出:用关联规则挖掘将对游客消费项目(即旅行产品)的特征进行分析,判断出游客的行为方式和消费习惯,进而将游客分类,分析不同类型的游客的价值,确定旅行社的目标市场,制定出详细的计划。在旅行产品的众特征中,依据旅行社的自身经营特色,这里只抽取其最常见/重要的五种来刻画,并标记每种为——(1)体验性(2)休闲化(3)生活化(4)娱乐化(5)生态化。进而得出该类型游客的消费项目的特征常是体验性、休闲化同时是生活化或者生态化的,在了解该类型游客的需求特点后,旅行社可对推出针对性强求的一对一的服务,为其设计相符的、个性化的旅游服务,才能让其深刻体会到旅行社让渡的顾客价值,最终实现旅行社的价值。关联分析在旅游突发事件预测中的应用唐亮等在《关联规则挖掘在旅游突发事件预测中的研究》中指出:为了挖掘预测规则,需要向系统输入以前发生过的突发事件的相关信息,包括事件发生的前导因素和结果因素等。对其进行关联规则的挖掘,可以找出事件发生的规律,例如某些前导因素会以多大概率导致某些后果的发生。根据得到的这些规则和当前发生的行业事件,可以推测出将来有可能发生的行业事件及其造成的后果。针对记录旅游事件信息的数据库,尤其是记录突发事件的数据库,每一条事件的记录包含着该事件发生的时间、地点、当时的客流量等事件发生的主客观因素信息,以及事件造成的财产损失、事件造成的人员伤亡等后果信息。上述各种前因后果信息首先通过聚类、离散化后,作为分析系统的输入,可以得到各种事件发生的规律。.这种利用关联规则挖掘分析预测突发事件的方法,建立在对历史数据中所蕴含的规律信息的挖掘的基础上,根据现有的数据库中的数据,通过数学推导得到事件发生的规律及其发生的概率,从而对突发事件进行预测。关联分析在旅游行程规划中的应用王玉珍在《关联规则挖掘方法在旅游行程规划中的应用》中指出:利用Apriori算法来找出旅游景点之间的关联性,并以关联规则表示。其算法说明如下:(1)找出所有1-项目组的支持度,满足最小支持度者,即成为高频1-项目组,若是,则停止执行;(2)由(1)的高频1-项目组组合成2-项目组,找出所有2-项目组的支持度,满足最小支持度者,即成为高频1-项目组,若为=,则停止执行;(3)找出高频(k-1)-项目组,k>2;(4)由(3)中找出任两个有(k-2)项目组相同的高频(k-1)-项目组,组合成k-项目组;(5)判断由(4)所找出的k-项目组,其所有包括的(k-1)-项目组之子集合是否都出现在(3)中,假如成立就保留此k-项目组,否则就删除;(6)再检查由(4)所撷取的k-项目组,若满足最小支持度,即成为高频k-项目组,否则就删除;(7)跳至(3)找高频(k+1)-项目组,直到无法产生高频项目组为止;对所有高频项目组,找出满足最小信赖度的关联规则。第二节研究的目的与意义研究的目的在国民经济中的地位旅游在促进经济发展方面有着巨大的作用,按照中国制定的全国旅游发展规划,以2000年为基数,到2020年,旅游业总收入翻三番,将达到36000亿人民币,占GDP的8%,中国将成为世界第一大旅游目的地国家,因此随着经济的发展和社会的进步,作为六大新兴消费热的行业之一的旅游行业,在今后几年,将存在广阔的发展空间,成为发展势头和规模最快的产业之一,对于城市经济的拉动性以及对于文化和环境的促进作用也日益的显现。所面临的国内国际环境根据“外资旅行社2007年7月1日起,将取消对外商投资旅行社设立分支机构的限制,并对外资旅行社的注册资本实行国民待遇。”修改后的《旅行社治理条例》规定:所有国际旅行社都可以经营出境旅游业务,但同时设置了一个质量保证金的门槛;其二,根据ADS协议的条款,在经营到官方认可的中国公民出境旅游目的地国家旅游时,旅行社还必须得到签约双方的认可,一些原本有资格经营的国际旅行社被排斥在外;其三,最外边还有一个大围墙,合资旅行社和外资旅行社不得经营中国公民的出境旅游。出境旅游业务的开放问题成了一个重要的焦点,形成了政府、内资旅行社和外资旅行社多重博弈。发展中存在的问题随着中国旅游业市场机制的确立,我们清楚地看到长期困扰我国旅行社业的深层次问题:那就是朝阳产业成为微利行业,甚至亏损行业。但其原因是多方面的,首先是政府干预过多。政府对旅行社实行的“严格的审批制度,进入旅游市场的旅游企业数量受到限制”。其次,传统观念制约。跟我国其他许多行业一样,旅游行业的许多企业家与西方提倡的“战略联盟”这一重要观念格格不入。再次,所有制形式单一。我国目前现有旅行社中合资旅行社屈指可数;集体所有制旅行社略多;私有制旅行社同样寥寥无几。本文的研究是希望研究结论能给所实习的温州某民营旅游公司在客户营销方面带来更大的收益。二、研究的意义国内竞争近年来,旅行社的数量不断增加,旅游市场竞争日益激烈,为了争夺市场份额都把降价作为争夺客源的主要手段甚至是惟一手段。一些旅行社以低价格吸引旅游者和打击竞争对手,其竞争对手则以更低的价格为手段进行复,致使旅游市场上的旅行社产品价格越来越低,各家旅行社竞相削价,走进了削价竞争的误区,造成旅行社行业处于无序竞争的恶性循环。国际竞争一个国家的旅行社业结构是否合理、优化,直接关系到旅行社国际竞争力的强弱。我国旅行社业竞争力的不足,我国除国际、中国、青年三大旅行社外,其他旅行社的集团优势还不十分显著,经济规模还有待培育。另外,我国旅行社的业务范围过窄,多为经营团队旅游、观光旅游,未充分挖掘市场潜力;国际旅行社的自组能力差,其国际业务多为接待外国旅行社发来的团队。从现有文献来看,对旅游经济的研究大多是从旅游业整体进行的,对民营私有旅行社的研究比较少,但在浙江民营企业蓬勃发展的经济大省,对民营私有旅行社的研究尤有重要的意义。正如王世忠指出:“留住一个客户比找到一个新客户更有价值。从营销成本上讲,寻找新客户的成本是最高的,而留住客户,不仅可以有效降低成本,更能为口碑营销带来机遇。”客户资源是现代企业的重要战略资源当今世界,市场竞争的焦点已从产品的竞争转向品牌、服务和客户资源的竞争。谁能拥有客户,并能和客户建立且保持一种长期、良好的合作关系,赢得客户信任,给客户提供满意的服务,谁就能通过为客户服务的最优化来实现企业利润的最大化。争夺客户资源是现代商战的主要特点由于客户资源已经成为一种战略资源,因此对客户资源的争夺已经成为现代商战的主要特点。客户是企业生存和发展的基础,市场竞争的实质是争夺客户资源,一项研究表明:争取一位新客户的成本是保住一位老客户的5倍。由于竞争加大了赢得新客户的难度和成本,使越来越多的企业转向老客户,把营销重点放在获利较为丰厚的客户群上,即使不在新客户上投资,企业也能够实现大部分的盈利目标。客户关系管理的策略着眼点不仅在于维系现有客户,还在于维系老客户的基础上去发展新客户。企业要在竞争中保持优势,采取信息化手段建设客户关系管理系统和以客户为中心的营销机制,才是提升竞争力的根本措施。寻求企业利润最优化是客户关系管理的根本目的通过采用先进的客户管理系统,一方面,企业能够对客户信息进行全面整合,在企业内部充分共享,从而为客户提供更快速、更周到的优质服务,吸引和保持更多的客户;另一方面,借助客户关系管理所蕴含的先进的管理理念优化企业的业务流程,把“满足客户明确和隐含的需求”的经营理念贯彻到企业经营的全过程中,无论客户采取什么样的途径向企业发出任何联系信号,都能够像对待老朋友那样及时对待,企业的每个部门都知道他寻求的目标、购买的习惯、付款的偏好和感兴趣的产品。由于客户的一切信息尽在掌握之中,就能够有的放矢地提供及时、周到、满意的客户服务,使企业通过客户价值的最大化、客户服务的最优化来寻求市场开拓的最大化和企业利润的最优化。

第三节研究的内容本文通过对温州某民营旅行社客户旅游线路的挖掘分析,找出客户对出行时间、旅游景点、旅游性质及一些偏好的关系。首先,通过相关研究资料的搜集、文献的阅读。之后,运用温州某民营旅游公司提供的旅游客户信息,对客户信息进行分析,采用关联挖掘方法对温州客户旅游性质进行分类和关联规则实证分析。最后,得出结论,对结论进行分析并给出适当的建议。拟解决的问题主要是得出哪些是有待开发的线路和哪些最适合推荐给顾客及如何引导客户出游目的倾向性等等。

第二章数据挖掘理论和客户营销理论第一节数据挖掘的产生和发展数据挖掘的产生当今,数据容量规模已经达到万亿字节(TB)的水平。过量的数据被人们称为信息爆炸,带来的挑战是一方面规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手;另一方面在这些大量数据的背后却隐藏着很多具有决策意义的有价值的信息。那么如何发现这些有用的知识,使之为管理决策和经营战略发展服务?计算机科学给出的最新的回答是数据挖掘(DataMining,DM)。数据挖掘产生的前提是:从大量数据中找出隐藏在其中的、有用的信息和规律;计算机技术和信息技术的发展使其有能力处理这样大量的数据。数据挖掘的应用价值应用数据挖掘从大量数据中所发现的规律并不是“放置四海而皆准”的规律,而是面向某一应用的规律,具有具体的指导意义。早期,数据挖掘主要应用于商业领域,如许多读者熟知的“啤酒和尿布”的故事,就是零售业巨头“沃尔玛”从大量销售数据中分析出来的规律:美国的男士在下班后要去超市买婴儿尿布,他们在购买尿布的同时会买啤酒。“沃尔玛”因此将这两种“毫不相干”的商品摆放在靠近的货架上,并在其间摆放一些下酒小菜,使这些商品销量大增。随着人们对数据挖掘了解的逐步深入,其应用领域逐步扩大,如科学研究、市场营销、金融分析、体育比赛等。数据挖掘的发展过程数据挖掘是20世纪80年代,人工智能(ArtificialIntelligence,AI)研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。知识发现(KnowledgeDiscoveryInDatabase,KDD)和数据挖掘是数据库领域中最重要的课题之一,国际上第一次关于数据挖掘与知识发现的研讨会于1989年在美国的底特律召开,在此次会议上第一次提出了知识发现一词。1995年,在加拿大召开了第一届KDD和DM国际学术会议。会议对KDD做了确切的定义,未对DM做确切的定义。目前KDD和DM已成为研究热点和焦点,一批DM系统开发出来,在商业、经济、金融和管理领域都取得了应用性的成果。第二节数据挖掘的定义和常用技术数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘应该更正确地命名为“从数据中挖掘知识”。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据等。一般的说,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程这些模型和关系可以用来作为决策和预测。数据挖掘的常用技术决策树方法决策树方法就是利用训练集生成一个测试函数,根据不同取值建立树的分支:在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策树。然后对决策树进行修剪处理,最后把决策树转化为规则,利用这些规则可对新事例进行分类。这种方法实际上是根据信息论原理对数据库中存在的大量数据进行信息量分析,在计算数据特征互信息的基础上提取出反映类别的重要特征。典型的决策树方法有分类回归树(CART)、ID3、C4.5等。神经网络方法神经网络源于自然界的神经网络,由许多神经元所组成,模拟人类的直觉思维和神经元功能,根据生物神经元和神经网络的特点,通过带有一定权重的“导线”连接神经元以形成并行网络。利用非线性映射的思想和并行处理的方法,经过输入层、隐藏层和输出层等,实现输入到输出的映射关系,对数据进行调整、计算,最后得到结果。神经网络方法用于非线性数据和含噪声的数据时具有更大的优越性,比较适合于市场数据库的分析和建模。目前,在数据挖掘中,最常用的神经网络是BP和RBF网络。关联规则挖掘算法关联规则是数据挖掘的核心技术,是由R.Agrawal等人首先提出的,关联规则就是给定一组属性和一个记录集合,通过分析记录集合,推导出属性间的相关性,是以形式为“A1∧A2∧…An→B1∧B2∧…Bn”来描述数据之间存在的关系规则。其作用是在数据库的对象间挖掘出满足一定条件的依赖关系,并有可能描述属性间的因果关系。遗传算法它是基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术,但也是人们理解最少的一种方法。它是以模拟生物进化过程为基础,就如同进化是产生较优的生物种类一样,遗传分析应用定向搜索的迭代过程,先找出两个合适的父样本,通过基因组合、交叉、变异和自然选择四种典型的带有生物遗传特点的操作产生子样本,反复迭代操作直到收敛为止。遗传分析常用于预测分析。除了上述的常用方法外,还有模糊集合方法、BayesianBeliefNetords、最邻近算法(k-nearestneighborsmethod,KNN)和可视化技术等。在实际问题解决中,数据挖掘算法是最核心的问题,关键就在于算法的选择和实现。一般根据实际问题决定选择采用何种挖掘算法,但往往为了达到更好的挖掘效果,还要同时使用多种数据挖掘技术。例如:在数据预处理阶段,会使用粗糙集方法进行属性归约;在挖掘初期会使用聚类分析方法来预分类,简约规格化后的数据集合,为后面采用其他的数据挖掘方法来达到更好的挖掘效果;当在挖掘过程中,发现选择的数据不合理,或者采取的挖掘技术达不到预期效果,就重新开始挖掘过程,因此可以说,整个挖掘过程就是一个不断反复的过程,通过运用多项技术对原数据进行处理和分析,最后得出宝贵知识的过程。关联规则算法基本概念定义1设关联规则挖掘的数据集记为D,D={t1,t2,…,tk,…,tn},tk={i1,i2,…,ip},tk(k=1,2,…,n)称为事务,im(m=1,2,…,p)称为项目。定义2设I={i1,i2,…,im}是D中全体项目组成的集合,I的任何子集称为D中的项目集,|X|=k称为集合X为k项目集。设tk和X分别为D中的事务和项目集,如果X!tk,称事务tk包含项目集X。每一个事务都有一个惟一的标识符,称为TID。定义3数据集D中包含项目集X的事务数称为项目集X的支持数,记为σx。项目集X的支持度记为support(X),support(X)=σx|D|100%;其中|D|是数据集D的事务数,若support(X)不小于用户指定的最小支持度(min_support),则称X为频繁项目集,简称频集,否则称X为非频繁项目集,简称非频集。定义4若X、Y为项目集,且X∩Y=",蕴涵式X#Y称为关联规则,X、Y分别称为关联规则的前提和结论。项目集X∪Y的支持度称为关联规则的X#Y支持度,记作support(X#Y),support(X#Y)=support(X∪Y);关联规则的X#Y置信度,记作confidence(X#Y),confidence(X#Y)=support(X∪Y)support(X)×100%。通常用户根据挖掘需要指定的最小置信度记为minconfidence。支持度用于衡量关联规则在整个数据集中的统计重要性,而置信度用于衡量关联规则的可信程度。一般说来,只有支持度和置信度均较高的关联规则才可能是用户感兴趣、有用的关联规则。定义5若support(X#Y)≥minsupport,且confidence(X#Y)≥minconfidence,称关联规则X#Y为强规则,否则称关联规则X#Y为弱规则。定理1:设X、Y是数据集D中的项目集:(1)若X!Y,则support(X)≥support(Y)。(2)若X!Y,如果X是非频集,则Y也是非频集。(3)若X!Y,若Y是频集,则X也是频集。由上述定义可知,定理1成立是显然的。解决方法一般地,给定一个数据集D,关联规则挖掘的任务,就是要通过用户指定最小支持度和最小置信度来寻找强规则的过程。因此,该任务又可以划分为以下两个子任务。(1)寻找所有频集通过用户给定的最小支持度,寻找所有频集。事实上,这些频集可能具有包含关系,一般地,我们只关心那些不被其它频集所包含的所谓最大频集的集合。寻找所有频集是形成关联规则的基础。(2)生成关联规则通过用户指定的最小置信度,在每个最大频集中,寻找置信度不小于最小置信度的关联规则。Apriori算法与寻找频集Apriori算法是挖掘产生布尔关联规则所需频集的基本算法,也是一个很有影响力的关联规则算法。该算法是根据有关频集特性的先验知识(priorknowledge)而命名的,它利用了一个层次顺序搜索的循环方法来完成频集的挖掘工作,即利用k-项集来产生(k+1)-集。具体做法:首先找出频1-项集,记为F1;然后利用F1来挖掘F2,即频2-项集;不断如此循环下去直到无法发现更多的频k-项集为止。每挖掘一层就需要扫描整个数据集一遍。为提高按层次搜索并产生相应频集的处理效率,Apriori算法利用了一个重要性质,即上述定理1所述,该性质可有效缩小频集的搜索空间。关联规则的生成在用Apriori算法挖掘出所有的频集后,就可以较易地获得相应的关联规则。即产生满足最小支持度和最小置信度的强规则,可利用上述定义4中confidence(X!Y)=support(X∪Y)support(X)×100%公式来计算关联规则的信任度。具体操作如下:(1)对于每个频集f,产生f的所有非空子集。(2)对于每个f的非空子集s,若support(f)support(s)≥minconfidence;则产生一个关联规则“s!(f-s)”;其中minconfidence为最小置信度。数据挖掘的过程数据挖掘是指一个完整的过程,该过程从大量数据中挖掘先前未知的、有效的、可使用的信息,并使用这些信息做出决策或丰富知识。数据挖掘的一般步骤如图1-2所示:图1-2数据挖掘的过程第三节客户营销理论史雁军史雁军.个性化客户营销的四大核心能力./data/2005/2005-11-12/126786_3.shtml,2005-11-12.随着市场竞争的加剧,客户个性化程度不断分化,以及IT技术进步带来的营销革命,越来越多的服务性企业开始进入新的营销浪潮之中,即客户洞察驱动的个性化营销。越来越多的企业营销经理开始谈论客户关系营销、直复营销、数据库营销、个性化营销这些名词,听个性化营销可能为企业带来的巨大投资回报,往往令每一位营销经理鼓舞,但企业在建立个性化营销的核心能力方面,往往有所欠缺,而在实际的企业营销实践中又往往急于求成,是造成这些企业实际的营销效果往往不如期望的那样的乐观的原因所在。来看看下面这些营销经理经常面对的典型问题:向哪些媒体和营销渠道进行营销投入,会使得发展新用户的效率最高收益最大?公司在营销佣金上的支出越来越大,但是为什么公司的利润却没有相应增加?现在的客户看起来越来越不忠诚了,经常在竞争者之间来回选择,应当如何识别那些可能流失的客户,如何采取措施提高客户的忠诚度呢?一些客户的购买次数和数量都在不断下降,如何提升这些客户的价值呢?

公司的产品线越来越长,如何识别哪些是有购买潜力和购买意向的客户呢?企业营销经理们在进行服务或产品营销策划时,在很多情况下都是从产品的角度来考虑问题,往往是沿着产品的特性来进行以产品为核心的营销策划,而经常由于各种条件的限制忽略了以客户为中心的客户特征识别和分析。从客户营销的根本来讲,企业营销策划的目的一般都是为了实现以下的一些营销目标:更高效的客户获取,提高产品或服务的市场占有率更高的客户忠诚度,以减少客户流失,增加客户终身价值更大的客户占有率,以提高客户价值贡献水平

更佳的营销投资回报率,优化营销与服务成本,以获得更大的营销利润而从企业营销管理的角度来看,以上四个目标都各有侧重:一、更高效的新用户发展

有统计显示,获取一名新用户的成本是保留一名现有客户的七倍。这就需要企业能够精确进行目标客户定位,理解客户的需要和需求,策划和执行高效的营销活动,通过最恰当的营销渠道和沟通策略向客户传递正确的营销意图。二、更高的客户忠诚度

客户服务营销的一个最重要的目的就是要提高客户的满意度,通过营销与服务流程的优化,改善客户体验,从而提高客户满意度,降低客户流失率。有统计显示,获取一名新用户的成本是保留一名现有客户的七倍之多。这就需要企业能够真正理解客户的需要和需求,有效的对产品和服务的设计和提供过程进行分析,不仅能够识别客户的忠诚度和生命周期价值,并能通过整合的营销沟通策略来优化与客户的关系。三、更大的客户占有率

在目前激烈的客户竞争中,仅仅简单将营销目标定位于保留客户是远远不够的,而应当让客户将更多的消费集中于本企业的产品和服务上,让客户享用企业更多的产品与服务组合,或是提高客户在某一产品或服务上的消费水平,即提高忠诚客户的占有率变得越来越重要。通过交叉销售、向上销售来提高客户的购买水平是最直接采用的营销方式。但企业的营销经理仍然面临着几大难题:如何保证销售活动的效果?向哪些客户进行营销?向他们推荐什么产品和服务?什么时间以什么方式进行?四、更佳的营销投资回报率很多企业已经认识到,当定位于不同的客户、不同的营销渠道、不同的产品和服务时,营销投资回报率经常会有较大的差异。要保证营销投资回报率,就需要理解客户的生命周期价值,根据不同的客户价值来优化并控制产品与服务的提供成本,加强营销风险管理能力等等。企业的营销经理都已经认识到,并非所有的客户都应等同对待的。企业应当为那些为企业带来高额利润的客户提供更好的服务,而对于那些带来较低收益的客户提供与其提供价值相对等的服务,并通过服务营销来提升客户的收益贡献水平和利润贡献率。以上这些都是企业在进行个性化客户营销时所需要达到的营销目标,也是大多数企业的营销经理每天面临的营销问题,但实际情况往往是企业有进行个性化营销时需要了解客户的信息不足,以及获取的信息对于营销的策划和实践的驱动力不足。不少企业在面对这样的问题时,往往求助于信息技术的手段,但是这些问题的解决,远远不是通过增加投资建立一个客户信息管理系统,再买套统计分析软件那么简单的。根据国际上的服务营销的成功经验,要提高企业的个性化营销的能力,都需要基于以下四项关键的营销能力的建立,即客户数据管理能力、客户分析能力、营销活动管理能力,以及洞察驱动的客户互动能力:(一)客户数据管理能力经验证明,高质量的客户数据管理能力是企业采取差异化营销以区别对待不同客户的基础。著名的研究机构GartnerGroup也将客户数据管理能力列为影响企业进行个性化营销的最重要的能力之一。很多运营多年的企业往往有着比较完备销售数据和交易数据,这些企业往往认为对这些数据进行有效的采集和集成即可以有效的帮助企业进行一对一的个性化营销,而实际营销的效果经常差强人意。造成这样的原因何在?这些企业虽然有了完整的交易数据,如交易时间、交易次数、交易金额等等,但是这些数据全部是基于事务处理过程中产生的交易数据,而从客户知识的角度所需的客户信息并不仅仅是交易数据。客户数据是根据客户的需求来设计和采集的,而实际上大多企业非常缺乏能够洞察客户行为和价值的客户信息,如人口统计数据、行为心理数据等等。这些数据并不影响企业与客户的交易行为,但对于分析和识别客户的行为和价值却至关重要。我在给国内一些企业提供客户分析咨询时,经常听到企业的技术人员讲,我们已经应用国际领先厂商提供的先进工具建立了数据仓库,但当基于某些应用主题对客户进行分析建模需要抽取客户数据时,常常发现企业建立的所谓的数据仓库只是基于交易数据的汇总,有时甚至连基本的数据建模都存在问题,更不用提能否支撑基于分析主题的业务建模了,客户分析所需的一些行为变量根本没有,经常需要重新构建分析所需的客户数据文件。而这时企业的市场管理人员,往往又不理解为什么投巨资建立的数据仓库不能支持有效的客户分析工作。这是因为,企业没有建立起完整的客户数据管理策略,即从统一客户视图的角度来规划客户数据管理策略。而建立客户数据管理能力往往需要多年的积累,有计划有策略的采集和丰富客户数据,有时需要从外部采集第三方的数据源,与内部的数据进行集成和丰富,建立高质量的客户信息基础,并在企业层次管理和维护客户数据质量,这才是在企业层次应用客户知识的重要的基础和保障。(二)客户分析能力简单来讲,客户分析能力就是将客户信息转化为客户知识,并在企业内部进行知识共享的过程能力。一些企业中,有些技术经理谈到客户分析时都认为,客户分析就是数据挖掘和客户细分,这些企业非常热衷于在客户分析方面投资于昂贵的统计分析软件,有些企业甚至在一开始就不惜重金采购SAS、SPSS等高级统计分析工具,但在每年支付着高昂的分析软件服务费用的同时,这些分析工具却并没有给企业带来预期的收益和效果。究其原因,客户分析首先要基于企业的业务目标,主导客户分析的是企业的业务和客户营销策略,分析软件仅仅是这一过程的支撑工具而不是主导。企业在没有清晰的客户营销策略下往往听信软件厂商宣称的统计分析工具的强大功能,在没有清晰的客户营销分析策略时,就将大量资金投在了分析软件工具的采购上。这就好比带着高级计算器去参加高考的数学考试一样,计算器也好,统计分析软件也好,仅仅是技术工具,只能帮助你提高计算的效率,而不能告诉你解决问题的思路一样。应当由营销部门和服务部门来主导客户分析能力的建设过程,营销和服务部门需要客户分析的结论来支撑营销和服务策略的执行。而在国内企业的现状是,业务部门往往缺乏对分析技术了解的业务人员,而信息技术部门的工程师虽然有着很强的数据库技能,但是往往由于对于业务和客户的理解差异,面对着海量的数据,不知如何为业务部门提供分析。分析客户数据的能力并不仅仅是掌握数据库技术和统计技术就可以,关键的不完全是统计技术,而是客户策略主导的业务应用。客户分析是通过对客户信息的理解,应用适应性建模技术,通过动态的行为和价值分析,识别客户的行为、价值和需求,从而为采取差异化的营销与服务策略区别对待不同的客户群提供支撑,并帮助企业建立起实时的业务和客户洞察力。(三)营销战役管理能力基于高质量的客户数据和高水平的客户分析能力,能够有助于企业针对不同的客户群设计营销策略,具体营销活动的管理能力也是个性化营销中重要的环节,企业的营销执行能力和活动管理水平才是确保营销投资回报率能够实现的真正保障。一些客户密集型企业往往一年要进行数十次,甚至数百次的营销活动,面对如此频繁的营销活动,企业进行营销战役管理的能力就显得尤为重要。营销战役管理是一个在营销实践中动态学习的过程,不仅需要应用行业的最佳营销实践,通过客户分析能力的驱动,设计出客户针对性强、市场竞争力强的营销方案,而且还需要实时收集营销执行的效果,应用实时的营销分析和客户洞察,匹配目标客户以最适合的产品和服务,并且通过完善的营销绩效分析,努力提高营销投资回报率。从这个意义上来讲,营销战役管理是以客户为核心进行完整的营销策划、战役实施、营销绩效分析的全过程。而国内企业经常进行的营销活动管理虽看似也有着策划、实施和总结评估的阶段,但往往缺乏以客户为中心的营销分析驱动,对于营销活动的过程分析也极为溃乏,往活动从策划和实施的阶段是分离的,鲜有动态的调整和优化,而基本信息的营销分析能力则更是国内企业的营销软肋。以国内移动通信行业为例,某些省级移动运营商每年进行的营销活动都是以数以百计甚至数以千次来计,而企业实际的营销管理能力又相对较弱,往往一个营销活动接着一个营销活动。市场部十几个人一年负责面向数百万客户,围绕数十个产品,策划的实施数以百计的营销活动,经常的情况是只有时间策划活动,根本没有精力顾及营销的实施,更不用说对营销进行实时的动态监控和完善和营销分析了。而且,受到国内目前移动通信企业大多是按产品进行企业组织职能设置而缺乏以客户为核心的职能的限制,这些营销活动基本上都是以产品为核心进行了产品策划和推广,一些通信企业甚至会不欠其烦在相近的时间内多次向同一客户针对不同产品进行营销推广活动。这样一来,企业的市场营销部门仿佛成了营销活动的实验室,而在市场中进行着一次又一次的产品营销试验,一些企业根本就没有建立起有效的机制和能力,来记录和跟踪分析每一次营销活动的执行效果和收益,只是一年到头时算个总帐,看看发展了多少新用户,一共创造了多少收入,是赔是赚,年底做帐。这样的结果经常造成企业的很多营销活动只播不收。(四)洞察驱动的客户互动能力客户互动能力即是选择一个对企业和客户都有利的互动方式的能力。高质量的客户互动离不开企业对客户的理解,即客户知识对客户互动能力的驱动能力。客户互动能力往往涉及到以下几个关键的核心的营销管理问题:渠道组合管理、客户接触点管理、客户沟通和客户体验管理。在“渠道为王”的传统营销思想影响下,很多国内服务企业在IT技术进步带来的营销通路变革和客户消费偏向与方式变化情况下,并没有在客户渠道偏好上进行相应的分析,在利用多通路进行营销渠道组合的设计和实践中,往往是沿着企业有哪些可利用的渠道来接触客户的进行营销通路设计,而没有从客户偏好于通过什么渠道来与企业联系来进行考虑。虽然不小企业都寻求在客户接触点上都为客户提供最好的服务,在所有客户接触点上建立和执行高效的、高个性化的客户沟通能力对于很多国内服务企业是个挑战。我早在十几年从事国际航空服务策划和管理的时候,国内一些航空服务企业就在提客户接触点管理和服务体验优化,时至今日,国内航空服务管理水平与国际航空服务相比,仍有着巨大差距!我们的航空企业有着国际最先进的飞机机型,这十几年国家对机场的巨大投资也使得国内的航空地面设施有着国际同步甚至领先的硬件水平,相对飞速改进的硬件环境和设施来说,国内航空服务在客户服务体验方面的改进却落后甚多,很多地方机场甚至十几年如一日,至今仍停留在客户至上的口号上。以国内近几年来逐渐成熟起来的电话营销和目录营销来说,在客户互动方面需要的改进就更多了。随着国内通信产业的迅速发展,电话营销也逐渐也为电信行业主要的营销通路之一,甚至有些电信运营商已经将电话营销称为与营业厅、代理商和大客户渠道并列的“第四通路”,但目前运营商在进行电话营销中仅仅比较多的关注于电话座席代表的电话营销沟通技能,而在电话营销策略、沟通设计设计、沟通脚本设计等客户互动策略和能力的建设上关注和投入不足。国内电信运营商在电话营销支撑信息系统的能力建设方面,也投入甚小,往往只是在CTI硬件平台上辅以简单的电话外拨功能,而不能支持以客户为核心的智能接触管理和动态营销分析。

综上所述,企业进行个性化营销与传统的营销方式相比,在营销能力建设方面有着明显的差异性,一旦企业建立起相对竞争对手更强的个性化客户营销能力,则将在未来的客户竞争中处于优势。甚至可以毫不夸张的讲,客户知识是唯一一个最终左右企业成败的元素。几乎所有的企业都承认客户是他们最重要的资产,但很多企业并没有意识到哪些客户资产是优质资产,在对客户进行营销投资之前,如果不对客户做精确的识别和分析,就很难取得理想的营销投资回报率。第四节数据挖掘在客户关系管理中的应用进行客户分类客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。进行客户识别和保留在CRM中,首先应识别潜在客户,然后将他们转化为客户这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。在客户保留中的应用客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。对客户忠诚度进行分析客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。对客户盈利能力分析和预测对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。交叉销售和增量销售交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

第三章温州某民营旅游公司客户信息分析我国旅行社基本上分为三大块,即入境游、国内游、出境游。在近些年来,伴随着中国旅游业的高速发展,我国旅行社行业发生了巨大的变化,特别是近10年来,行业规模不断扩大,从业人员不断增加,经营体制不断创新,经营环境不断改善,旅行社行业已经成为我国拉动经济增长、扩大就业渠道的重要服务行业之一。但由于其本身的行业特点以及政策管理的滞后性,我国的旅行社发展得快,存在的问题也多,集中表现在旅行社小、散、弱。这些特征不利于国际市场的竞争。要想赢得国际市场的一席之地,就要借助于数据挖掘去发掘潜在信息,进而针对性的进行营销,建立新型的客户关系管理措施,以改善这种局面。因此对温州某民营旅游公司2006年至2008年的客户旅游信息进行了整理、归类和分析。第一节线路分析这里针对抽取的2008年1至11月的客户旅游数据分析得到各月份最受欢迎的路线:一月份:主要是海南路线和浙江省内路线(包括横店,绍兴,武义,台州)二月份:哈尔滨、海南和昆明等长线和横店、普陀山、绍兴、厦门及温州市内(文成龙麒源、雁荡山、泰顺)等短线三月份:海南、昆明和张家界等长线和横店、普陀山、仙岩、绍兴及台州的海洋馆与温州的马屿、动物园、江心屿(主要是学生春游)等短线四月份:海南、桂林、昆明、西安和长江三峡等长线和横店、杭州、厦门、苏州、上海、普陀山及温州的楠溪江,湖岭、马屿农家乐和动物园、科技馆博物馆春游以及台州海洋馆春游等短线五月份:北京、成都、桂林、海南和昆明等长线和横店、杭州、普陀山、绍兴、千岛湖、江苏上海、厦门以及温州的文成龙麒源、太姥山、楠溪江、雁荡山等短线六月份:北京、海南、桂林、昆明、西安郑州和江西等长线和横店、厦门、普陀山以及温州的洞头、南麂、青云谷、文成等短线七月份:桂林、咯哪斯吐鲁番、大连蓬莱威海青岛、昆明、江西南昌、新疆咯纳斯、郑州西安和西宁西藏成都等长线以及横店、福建白水洋和九鲤溪、厦门、普陀山和温州的洞头、南麂等短线八月份:北京、桂林、海南、昆大丽、青岛大连等长线以及横店、福建白水洋、江苏上海、厦门和温州的洞头、南麂、青云谷、文成等短线九月份:北京、海南、云南、新疆、谢拉尔呼伦贝尔、西安郑州开封洛阳、青岛大连泰山、张家界等长线以及杭州、横店、绍兴、江苏上海、黄山、厦门和温州的南麂、江心屿、青云谷等短线十月份:北京、天津、成都峨眉乐山、海南、桂林、昆明等长线以及杭州、横店、临海、厦门、普陀山、千岛湖、绍兴、江苏上海、乌镇西塘、台州海洋馆和温州的洞头、雁荡山、江心屿、平阳南山和楠溪江的农家乐、等短线十一月份:北京、海南、桂林、昆明、西安洛阳郑州等长线以及横店、江苏上海、台州海洋馆(学生秋游)和黄岩、衢州和温州的雁荡山、青云谷、平阳南山农家乐等短线

第二节出行时间及人数分析这里针对2008年温州某民营旅游公司客户旅游数据进行分析。表3-12008年1-11月出行人数统计月份1234567891011人数3687596143109614508172514271674192161553132通过图表表示,得到图3-1:图3-12008年各月旅游出行人数表3-1和图3-1表明:旅游业的旺季主要集中在3月、4月、5月和10月、11月,适宜的天气和空闲的时间使人们更有意愿出外旅行、远足。第三节旅游目的和特征分类日本心理学家今井省吾指出,现代人的旅游动机分为三种:(1)消除紧张感的动机,包括交换气氛、从繁杂中解脱出来、接触自然;(2)自我完善的动机,包括对未来的向往、接触自然;(3)社会存在的动机,包括朋友的友情、大家一起旅游、了解常识、家庭团圆。不同的旅游动机决定了游客选择不同旅游市场的心理模式的不同,根据游客选择旅游的动机不同,游客大致可以分为如下几种:体验化旅游:它是以旅游为依托,又不同于纯粹的旅游。是以团队的形式,让人们在享受自然风光的同时,通过体验一个个富有趣味性、刺激性的项目,在自然开放的氛围中达到身心的双重放松。休闲化旅游它是指以旅游资源为依托,以休闲为主要目的,以旅游设施为条件,以特定的文化景观和服务项目为内容,通过游览、观光和休息去放松。娱乐化旅游它是以娱乐,游乐为主要目的,以游乐设施为条件,以服务项目为内容,通过玩耍来实现旅游和娱乐相结合的效果。观光化旅游观光化旅游又分为山水风景旅游和人文古迹旅游。生活化旅游将旅游作为生活的一部分,一旦有时间都会考虑出行。因此,本文所涉及到得关联分析将依据上述的5种游客分类进行。第四节客户信息的关联分析规则挖掘在这里将对游客消费项目(即旅行产品)的特征进行分析,判断出游客的行为方式和消费习惯,进而将游客分类,分析不同类型的游客的价值,确定旅行社的目标市场,制定出详细的计划。根据旅游特征,标记每种为——A1:体验性;A2:休闲化;A3:生活化;A4:娱乐化;A5:山水风景化;A6:人文古迹化。通过对数据的整理,针对一些客户不同时段的旅游纪录,从中选取几位客户进行分析。假设最小支持度为2,最小置信度为60%。一、客户一:潘庆贵先生表3-2客户一不同时段消费项目记录时间线路人数单价2008-10-1北京双飞六日15大3小=182350/20502008-2-9哈尔滨五日4大2小=65100/42002008-5-1横店二日14大3小=17480/2602008-3-8武义温泉二日264302007-10-2昆大丽六日527802007-2-19日本本州六日416600/135002007-5-1长江三峡五日153900/26002007-7-21南麂二日21500/3502006-10-3厦门三日6大3小780/4002006-1-31海南五日8大5小2680/22602006-5-1成都九寨黄龙拉萨林芝八日12大5小7500/51002006-1-1普陀山二日4780表3-2关联分类TID记录中各项ID的列表T1A6T2A5,A6T3A2,A3,A4,A6T4A1,A2,A3T5A2,A5,A6T6A4,A5,A6T7A1,A5T8A2,A3,A5T9A2,A5T10A2,A5,A6T11A5T12A1,A3,A5算法的第一次迭代,每个项都是候选1-项集的集合C1的成员。算法简单地扫描所有的事务,对每个项的出现次数计数。最小事务支持计数为2(即min_sup=2/12=17%)。可以确定频繁1-项集的集合L1。它由具有最小支持度的候选1-项集组成。扫描D,产生候选扫描D,产生候选1-项集C1扫描D,对每个候选计数扫描D,对每个候选计数A1A2A3A4A5A6频繁1-项集L1计数A13A26A34A42A59A66为发现频繁2-项集的集合L2,算法使用L2×L2(连接)产生候选2-项集的集合C2。扫描D中事务,计算C2中每个候选项集的支持计数。2-项集C2计数{A1,A2}1{A1,A3}2{A1,A4}0{A1,A5}2{A1,A6}0{A2,A3}3{A2,A4}1{A2,A5}3{A2,A6}3{A3,A4}1{A3,A5}2{A3,A6}1{A4,A5}1{A4,A6}2{A5,A6}42-项集C2{A1,A2}{A1,A3}{A1,A4}{A1,A5}扫描D,对每个候选计数由L扫描D,对每个候选计数由L1产生候选C2{A2,A3}{A2,A4}{A2,A5}{A2,A6}{A3,A4}{A3,A5}{A3,A6}{A4,A5}{A4,A6}{A5,A6}确定频繁2-项集的集合L2,它由具有最小支持度的C2中的候选2-项集组成。为发现频繁3-项集的集合L3,算法使用L3×L3(连接)产生候选3-项集的集合C3。扫描D中事务,以确定L3,它由具有最小支持度的C3中的候选3-项集组成。3-项集C3计数{A1,A3,A5}0{A2,A3,A5}1{A2,A5,A6}2频繁2-项集L2计数{A1,A3}2{A1,A5}2{A2,A3}3{A2,A5}3{A2,A6}3{A3,A5}2{A4,A6}2{A5,A6}4扫描D,对每个候选计数扫描D,对每个候选计数由L2产生候选C3比较支持度计数频繁3-项集L3计数{A2,A5,A6}2对3-项集C3的所有非空子集为{A2,A5},{A2,A6},{A5,A6},{A2},{A5},{A6}对于该频繁项集L的每个非空子集S,计算规则S=>(L-S)的可信度,各非空子集支持计数{A2,A5}3{A2,A6}3{A5,A6}4{A2}6{A5}9{A6}6A2∧A5=>A6Confidence=3/3=100%A2∧A6=>A5Confidence=3/3=100%A5∧A6=>A2Confidence=4/4=100%A2=>A5∧A6Confidence=4/6=67%A5=>A2∧A6Confidence=3/9=34%A6=>A2∧A5Confidence=3/6=50%依据最小置信度为70%,所以第(1)、(2)、(3)项将做为最后的规则被输出。结果分析:从以上结果可以看出,该类型游客的消费项目的特征常是休闲化和山水风景、人文古迹的观光化二、客户二:陈永茂表3-3客户二不同时段消费项目记录时间线路人数单价2008-10-2重庆九寨黄龙五日6大3小3880/21002008-8-6洞头一日24大4小188/902008-4-30西安洛阳郑州双卧七日游7大2小1880/10002008-3-15武义温泉二日124502008-2-8海南五日5大2小4980/38002007-11-17悠然南山一日11大4小80/602007-10-2湄洲岛厦门四日14大5小760/3502007-8-11洞头二日21大7小138/552007-5-1南昌庐山九江双卧四日19大6小960/5602007-2-22武义温泉二日25大9小450/2202006-12-30福州温泉大熊猫世界休闲二日11大4小500/2602006-10-1北京双飞五日8大3小2680/15002006-8-12南麂二日14650/3502006-7-8白水洋杨家溪二日17550/3202006-5-1昆明大理丽江双飞六日游6大2小2680/25002006-3-4马屿农家乐7大4小140/1802006-1-30哈尔滨五日游10大2小5480/4500表3-3关联分类TID记录中各项ID的列表T1A1,A5T2A2,A3,A4T3A2,A6T4A2,A3,A5T5A5T6A1,A4T7A2,A5,A6T8A2,A3,A4,A5T9A5,A6T10A2,A3,A5T11A2,A4T12A6T13A2,A5T14A1,A4,A5T15A5T16A1,A3T17A4,A6依据Apriori算法,不断扫描数据库,可以找出所有频集来,过程如下:频繁1-项集L1计数A14A28A35A46A510A65第一次扫描1-项集C1第一次扫描A1A2A3A4A5A62-项集C2计数A1,A20A1,A31A1,A42A1,A52第二第二次扫描0A2,A34A2,A44A2,A55A2,A62A3,A42A3,A53A3,A60A4,A53A4,A61A5,A62频繁2-项集L2计数A1,A42A1,A52A2,A34A2,A44A2,A55A2,A62A3,A42A3,A53A4,A53A5,A623-项集C3计数A2,A3,A42A2,A3,A53A2,A4,A51A1,A4,A51A3,A4,A51A2,A5,A61频繁3-项集L3计数A2,A3,A42A2,A3,A53第第三次扫描因此,从以上结果可以看出,该类型游客的消费项目的特征常是休闲化、生活化同时又是娱乐化或是山水风景的观光化。客户三:林海表3-4客户三不同时段消费项目记录时间线路人数单价2008-10-1西安郑州开封洛阳五日9大1小3880/18002008-5-1南京无锡苏州三日自驾游255002008-8-9南麂洞头二日自驾游352402008-3-1武义温泉二日17大3小470/2102008-4-16杭州乌镇三日考察学习501802008-2-7昆明大理丽江双飞六日3大1小2900/16002008-1-1福州金汤温泉二日游35大6小560/2202007-10-1新疆双飞五日11大4小6000/40002007-7-28大连蓬莱威海青岛八日6大1小4380/42802007-5-2黄山三日12大3小950/4602007-3-17马屿农家乐11大7小220/3302006-12-16武义温泉一日143002006-10-1北京双飞五日5大1小2800/1700表3-4关联分类TID记录中各项ID的列表T1A2,A6T2A1,A4,A5,A6T3A1,A2,A5T4A2,A5T5A3,A6T6A5,T7A2,A3.A4T8A1,A5T9A2,A4,A5T10A1,A2,A5T11A1,A3,A4T12A1,A2T13A6依据Apriori算法,不断扫描数据库,可以找出所有频集来,过程如下:频繁1-项集L1计数A16A27A33A44A57A64第一次扫描1-项集C1第一次扫描A1A2A3A4A5A62-项集C2计数A1,A23A1,A31A1,A42A1,A54第二第二次扫描1A2,A31A2,A42A2,A54A2,A61A3,A42A3,A50A3,A61A4,A52A4,A61A5,A61频繁2-项集L2计数A1,A22A1,A42A1,A54A2,A44A2,A55A3,A42A4,A533-项集C3计数A1,A2,A40A1,A2,A52A1,A4,A51A2,A4,A51频繁3-项集L3计数A1,A2,A52第第三次扫描因此,从以上结果可以看出,该类型游客的消费项目的特征常是体验化、休闲化和山水风景的观光化。四、客户四:钟振凯表3-5客户四不同时段消费项目记录时间线路人数单价2008-10-25杭州烟花节二日164382008-10-1谢拉尔呼伦贝尔七日4大1小7680/55002008-8-9南麂二日117002008-7-19洞头二日123202008-5-1西安郑州开封洛阳五日5大1小3880/24502008-3-8武义温泉二日175502007-10-1青岛大连六日9大2小3980/19502007-8-17厦门三日6大3小670/4302007-5-2横店二日6大1小428/2202007-4-7温州乐园一日101202007-3-24武义温泉一日71702007-2-20福州金汤温泉二日游13大3小600/2002006-10-1成都峨眉乐山五日6大1小2900/12002006-4-30咯哪斯吐鲁番八日7大2小2500/2050表3-5客户四关联分类TID记录中各项ID的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论