医学信息学论文基于数据仓库的医院客户关系管理技术分析与研究_第1页
医学信息学论文基于数据仓库的医院客户关系管理技术分析与研究_第2页
医学信息学论文基于数据仓库的医院客户关系管理技术分析与研究_第3页
医学信息学论文基于数据仓库的医院客户关系管理技术分析与研究_第4页
医学信息学论文基于数据仓库的医院客户关系管理技术分析与研究_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于数据仓库的医药企业客户关系管理技术分析与研究于芳 卢大国摘要:本文表述了一个基于多维查询分析的客户关系管理系统,在olap多维分析算法的基础上对数据进行分析。从系统的功能设计出发,设计了系统整体的体系结构,并设计每个模块功能要求。以星型模式设计了实例数据库的多维数据模型,并采用了sql server2000企业版设计了数据转换服务包dts,实现了数据的抽取、转换与装载,通过运用analysis servers自带的挖掘工具来分析现有的医药行业数据,从而得出结论,为其更好得实施crm提供理论依据。关键词:数据仓库;olap;数据挖掘;关联规则;多维数据集analysis and resear

2、ch about technology of medicine enterprise customer relations management based on data warehouse fang yu daguo lui studied customer relation management system based on many dimensions, then analysis calculate way based on many dimensions of the olap. i designed whole system structure and function re

3、quest of each mold from function of the system. many dimensions data models of the database is designed through star model ,and designed the data conversion service of dts adopting the sql server2000 business enterprise version and carried out sample conversion and load of data. i analytical the exi

4、sting medicine enter to sell a data by usage the analysis servers taking mining tool to get a conclusion thus, those will carry out theories basis to crm of medicine professionkeyword: data warehouse; olap; data mining; connection rule; dimensions1、医药行业crm特点(1)医药行业服务的超前性:在医药服务行业中,最为普遍的就是个性化需求表现的特别突出

5、,同样的需求在不同的客户身上体现出来的个性化特征尤为明显。(2)将传统流程以基于互联网的模式整合在单个crm中。2、研究目的本文研究的主要目的是: 通过数据仓库技术了解医药行业客户目前的需求和潜在客户的需求 探讨增强医药行业竞争力的新途径 数据仓库在医药行业实施crm中的重要性3、系统设计和实现系统分为四个模块:数据仓库模型设计、数据转换与管理控制模块、多维数据分析模块和数据挖掘模块。 31数据仓库模型设计 311概念模型设计数据仓库模型设计首先要进行的是概念模型设计。通过概念模型设计,可以确定数据仓库的主要主题及相互关系。进行概念模型设计所要完成的工作有两个1:界定系统边界确定主要的主题域及

6、其内容。下面介绍最常用的表示法e-r(实体联系)法。该方法的步骤为:任务和环境的评估;需求的收集和分析;主题选取,确定主题间关系;主题内容描述;e-r图;例如,订货销售主题与药品信息、客户信息主题的关系可以用e-r图表示为(如图3.1): e-r图具有良好的可操作性,形式简单直观,易于理解,便于与用户交流。该模型只是对企业模型进行静态的描述。 312逻辑模型设计进行逻辑模型设计所要完成的主要工作有:1) 分析主题,确定当前要装载的主题;2) 确定数据粒度的选择;粒度选择的主要标准是数据仓库中表的总行数。3) 确定数据分割策略;4) 增加导出字段;5) 定义关系模式;6) 记录系统; 通过逻辑设

7、计,可以对每个主题的逻辑实现进行定义,并将相关内容(如适当的粒度划分、合理的数据分割策略、增加的导出字段、记录系统定义等)记录在数据仓库的元数据中。313物理模型设计物理设计中,主要解决数据的存储结构、数据的索引策略、数据的存储策略、存储分配优化等问题。物理设计的主要目的有两个:一是提高性能,二是更好地管理存储数据。访问的频率、数据容量、选择的rdbms支持的特性和存储介质的配置都会影响物理设计的最终结果。对于一个多维数据集的设计,比如销售模式,首先考虑针对销售数据,客户可能提出的问题:某年某类产品的销售情况如何?某年两个连续的季度销售情况有何变化?销售员的工作业绩如何?哪些产品目前一段时间内

8、购买量大?同类的药品哪类产品销售量大而且药效好?针对某类产品,销售员工的销售量是多少?国家经济状况和医疗保障制度是否对销售有影响?对上面的一系列问题进行分析,可以通过得知销售多维集分析的目的是使得医药行业可以从时间、客户、销售员工和产品几个维度来统计分析销售数据,从而改进销售战略,吸引更多的客户。建立数据仓库的第一步是确定商业需求,根据需求确定分析主题。(如图3.2)所示就是一个销售数据分析为例的星型模式。 32数据转换与管理控制设计sql server的关系型数据库服务器是数据仓库分析和服务的主要数据来源。通过引入dts(data transformation server,数据转换服务)来

9、完成数据从olap源转移到olap系统的工作。在这个转换过程中,dts要进行数据校验、清理、合并和必要的转换。订货分析的dts包 dts即为数据转换服务,主要是把不同的数据来源中的数据结合起来,并利用自身的数据转换功能把这些结合后的数据放入数据仓库之中2。在对订货分析主题的星形模式进行设计后,利用dts把数据源中的数据转换放入数据仓库contract_mart的相应的维表与事实表中。 数据转换实现过程为:创建连接 数据转换建立数据导入的工作流 执行sql任务确定流程顺序执行并保存dts包其中转化过程中sql查询过程如下: select distinct month, year as 标志, s

10、ubstring(month,2, 2) as 月, substring(year, 1, 1) as 年 from ordertime select distinct homephone, postalcode, city, address, hiredate, birthdate, firstname, lastname as 标志 substring(homephone, 9, 9), substring(country, 8, 8), substring(postalcode, 7, 7), substring(city, 6, 6) , substring(address, 5, 5

11、), substring(hiredate, 4, 4), substring(birthdate, 3, 3), substring(firstname, 2, 2) , substring(lastname, 1, 1), employeeid from employees select distinct companyname, contactname, address, city,postalcode, country, phone, fax as 标志 substring(fax, 8, 8), substring(phone, 7, 7), substring(country, 6

12、, 6), substring(postalcode, 5, 5), substring(city, 4, 4), substring(address, 3, 3) as 地址, substring(contactname, 2, 2), substring(companyname, 1, 1), customerid from customers select distinct leibie, shengchanchangshang, shpchd, pizwh, lingsjzje, kcsx, jj, kcje, chbdj, kcshl,dw, shpgg, jixing, zjm,s

13、pmc, spbh as 标志 substring(leibie, 16, 16), substring(shengchanchangshang, 15, 15), substring(shpchd,14,14), substring(pizwh, 13, 13) as 位号, substring(lingsjzje,12, 12), substring(kcsx, 11, 11), substring(jj, 10, 10) , substring(kcje, 9, 9), substring(chbdj, 8, 8),substring(kcshl, 7, 7), substring(dw

14、, 6, 6),substring(shpgg, 5, 5), substring(jixing, 4, 4),substring(zjm,3, 3), substring(spmc, 2, 2),substring(spbh,1, 1), spid from ypxx select orders.orderid, orders.customerid, orders.employeeid,orders.timeid,orders.spid, orders.orderdate, orders.freight from orders inner join customers on orders.c

15、ustomerid = customers.customerid inner join employees on orders.employeeid = employees.employeeid inner join ordertime on orders.timeid = ordertime.timeid inner join ypxx on orders.spid = ypxx.spid创建流程的优先顺序: 执行sql任务删除现有的orders数据 将数据汇集到各个维表中 将数据汇集到事实表中执行并保存dts包,如(图3.5)所示: 图3.5 流程控制 33多维数据分析模块创建一个olap

16、数据库与sql数据库类似,sql数据库保存关系型表,而olap数据库保存多维立方。通常创建olap的一般步骤为: 数据源。 创建维。 浏览维的元数据。 处理维。 创建立方。 设计存储和处理。 浏览多维数据。33数据挖掘模块331数据挖掘定义数据挖掘3从技术角度来看比较公认的是w.j.frawley.gpiatetskyshapiro等人提出的:数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在的有用信息 ,提取的知识表示为概念(concept)、规则(rule)、规律(regularities)、模式(patterns)等形式。 332 analysis s

17、ervers数据挖掘实例过程及分析通过借助分析服务器的工具标识数据中的规则和模式,从而可以预测医药行业利润提高的可能性因素以及将来要出现的问题。在analysis servers中创建数据挖掘解决方案时,首先要创建描述业务问题的模型,然后生成数据的数学模型的算法运行数据,此过程称作“定型模型”。再依据该算法直观地浏览挖掘模型或创建预测查询。下面是通过一个医药企业销售的olap数据集来创建挖掘模型从而得出结论。(1) 创建analysis servers项目为orders创建新的项目,数据源定义了连接到挖掘模型所基于的数据源时使用的连接字符串和身份验证信息。同时还提供摘要信息,使用该信息修改结构

18、可以使其与项目的关系更密切。其中数据源中包括表customers, employees, orders, ypxx, ordertime, suppliers等。表customers记录数有91个,属性包含有customerid, name,monthly-income, card, country, phone等,用户country属性中有usa,germany,mexico,uk,france,sweden,spain,canada,argentina,brazil,venezuela等国家。表orders中记录了顾客从2000年7月到2004年5月客户定购药品的情况,定购的记录数有257

19、5条;表ypxx中包含有1724种药品,以上数据均表示表employees一个部门中的九个销售员的业务状况。这里选出三个表orders, customers, employees作为挖掘的关系表。(2) 在analysis servers项目中添加挖掘结构创建完项目后,添加挖掘结构以及基于每个结构的一个或多个挖掘模型。挖掘结构派生自该项目中的现有数据表或者olap多维数据集。这里是通过关系数据源来建立的挖掘结构,通过挖掘向导来定义结构并指定创建基于该结构的初始模型时使用的决策树算法和定型数据。设定事实表为orders,键列为orderid,它包含表中每个行的唯一标识符。这里订货id可以唯一标识

20、客户购买情况,并使事实表与嵌套表相关。输入列为freight,可预测列为country, city, company name, employeeid,其中这三个表以orders为事实表,其它为维表建立了olap多维数据集,可以对建立的挖掘结构进行编辑和处理,这样可以生成一个挖掘模型,该模型可将每个客户消费金额与订单号码关联起来。(3) 使用数据挖掘模型并创建预测结果对模型进行处理,以使analysis servers可将定型数据传递给算法来填充模型。通过刷新数据或者完全处理来进行处理。处理之后可以调查结果并确定性能最佳的模型,通过数据挖掘查看器来浏览数据挖掘模型。此实例的目的是使用数据挖掘来

21、创建预测以其发现与销售量相关的因素从而给医药企业提供决策支持。创建挖掘模型显示结果如(图3.11)所示: 图3.11 挖掘结果显示 从直方图可以看到france, germany, usa三国事例最多及订货可能性也较大,这说明购买力与国家的经济状况gdp和医疗保障制度有关系,因此可以预测经济状况好,医疗保障制度强的国家的人民购买力强,医药行业应该考虑这些因素具备的国家来进行投资,这样可以为企业的发展提供更好的战略思想从而提高企业的利润率。根据不同的用户系统有不同的预测结果。首先从上述的数据仓库中的客户表中进行分析,应用决策树算法具体分析哪些客户可能选择金卡成为忠实的客户。选出表customer

22、s来确定所有的用户中会员卡的分部情况,如(图表3.1)所示 图表3.1 所有顾客会员卡类型分布情况图表3.1表示所有持有会员卡用户的情况,可以看到大部分顾客是持有普通卡和铜卡。为了更进一步了解什么样的客户会选择什么样类型的卡,以及什么样的客户将会有可能换卡,我们在树的第一层次由“月收入”属性来决定,树的组织由决策树算法来决定,其基础是该属性在输出中的重要性。下面图表就是根据月收入以及客户购买情况所分析客户持有卡类的结果(图表3.2和图表3.3): 图表3.2 月收入在($1000$1100)顾客会员卡卡类及购买情况 图表3.3 月收入在($1100$1200)顾客会员卡卡类及购买情况从两个(图

23、表3.2,图表3.3)中大致可以看出收入在大于等于$1000的客户中持有金卡和银卡的客户较多而且购买力也很强,所以说持卡类别以及购买量与客户的收入有关。再通过所建立的输入列来看相关性网络如(图3.12)所示,会员卡类型(card)与消费额(freight)属性和客户所在城市(country)属性以及月收入多少有直接关联,并且随着连接的逐渐变强,关联度的箭头也有不同的变化,首先消失的是freight与card相连接的箭头,表明这一属性在三者之间起决定因素最弱。客户所在国家的经济状况以及医疗保险制度会影响到客户选择会员卡的卡类,在分析中看到,在usa、germany、france、sweden国家

24、中持有金卡和银卡的比例最多,以现有的数据中得到的数据金卡持有比例分别是:28.6%、12.78%、27.81%、94.9%。 图3.12 card相关性网络根据上述结果提出两点医药企业改善客户关系的对策:一、对持有不同卡类的客户给予不同的优惠政策,比如对持有金卡、银卡、铜卡的客户在买药品时有相应的折扣,同时可以给予不同的纪念品,尤其是对于金卡和银卡的客户更应该有特殊的待遇,这样可以激励他们进一步去购买,从而成为该企业忠实的客户;二、对于不同国家的客户有不同的策略,比如对那些属于综合国力比较强,经济又比较发达国家的客户来说,他们也是企业有潜力的客户,应该尽力去发展并维持下去,使得这部分客户给企业带来更大的利润,企业可以根据客户的基本资料来了解客户的特点,比如是否办理医疗保险,亲人健康状况,背景如何,这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论