基于数据挖掘技术的保险行业决策分析研究_第1页
基于数据挖掘技术的保险行业决策分析研究_第2页
基于数据挖掘技术的保险行业决策分析研究_第3页
基于数据挖掘技术的保险行业决策分析研究_第4页
基于数据挖掘技术的保险行业决策分析研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 基于数据挖掘技术的保险行业决策分析研究 摘要:本文针对目前保险行业信息管理的现状,提出数据挖掘技术对保险行业的重大影响,简要说明了“保险行业决策系统”项目及其对挖掘算法的改进等。并通过实验论证了改进算法的优势,通过分析结果展示了数据挖掘技术能使保险行业有效地利用现有数据实现经营目标,预测保险业的企业在激烈的市场竞争中获得先机。就保险行业而言,目前具有广阔的市场需求。 2 项目说明 本项目开发了“保险行业决策系统”。本系统操作主界面利用asp编程实现:数据预处理、客户购买险种分析、客户购买习惯分析、分析结果输出等功能;后台数据库利用sql server 2005网络数据库实现;挖掘工具采用sp

2、ss clementine ;在研究实验阶段,针对apriori算法存在的“存储复杂度”及“大量冗余规则”两大缺点进行了算法改进,通过利用一个模式树结构来降低apriori算法的存储复杂度,并同时减少冗余规则的出现。 本系统共分:数据预处理、客户购买险种分析、客户购买习惯分析、分析结果输出等主要功能模块。 (1)“数据预处理”模块包括:上传、数据平台、数据处理、统计、生成数据集等功能。 上传:可完成保险总公司下设所有分公司数据的上传。 数据平台:在数据上传前允许对数据平台进行选择。 数据处理:对数据进行清理、格式转换等操作。 统计:对经过预处理的数据进行分析,提取有效性数据。 生成数据集:将统

3、计过程提取的有效数据生成数据集,为数据挖掘提供较高质量的数据源。loCAlHOSt (2)“客户购买险种分析”模块包括:数据导入、参数设定、结果分析等功能。 数据导入:在此操作界面上,可通过选择不同数据平台将经过“数据预处理”生成的数据集分别导入。 参数设定:在此操作界面上设定“支持度”“置信度”等参数,对有效数据集中有分析价值的数据记录范围进行筛选。 结果分析:在此操作界面上可将“客户购买险种分析”的最终分析结果以“报表”、“图表”形式展示,此分析结果为行业提供了“同一客户购买本公司多种(次)保险”的客户信息,进而为行业提供了“可争取客户”的决策依据。 (3)“客户购买习惯分析”模块包括:数

4、据导入、参数设定、结果分析等功能。 数据导入:此操作同(2)“客户购买险种分析”模块中的“数据导入”。 参数设定:在此分别设定“输入参数”(包括:年龄、性别、职业等客户基本信息)及“输出参数”(客户购买的险种信息)。 结果分析:通过此操作界面可展示出客户购买习惯的分析结果,进而为行业提供了“可保持客户”的决策依据。 (4)“分析结果输出”模块包括:“客户购买险种分析”“客户购买习惯分析”等分析结果的打印输出功能。 3 项目中改进的快速算法 由于apriori算法存在时间空间复杂度高及产生大量冗余规则两大缺陷。因此本项目通过利用一个模式树结构来降低apriori算法的存储复杂度,并同时减少冗余规

5、则的出现。 一个模式树的结构 root是一个标为“null”的根结点,root以下是作为根结点的孩子的项目前缀子树集合,以及项目头表组成;树中的每一结点包含四个域user_id,count,node_link,node_next。其中,user_id为user的标记(唯一标识一个user),count为该父结点到达该结点的路径的数目,node_link指向树中具有相同的user_id的下一个结点的下一结点,当下一个结点不存在时,node_link为null,node_next指向树中其子结点;项目头表的每一表项包含三个域:user_id,count,head of node,user_id与树

6、中的定义相同,count为树中所有相同user_id之和,head of node指向树中具有相同user_id值的首结点的指针。 建立模式树 算法如下: 设事务数据库为a,其中的一个项集为ai。 算法:patterntree(tree,p),构造模式树 输入:用户事务数据库a 输出:用户模式树 procedure patterntree(t,p) create_ tree (t);/创建pattern-tree的根节点,以“null”标记 t=t; /t为当前结点 while anull do 读入一个事务数据库项集ai while p !=null do if _id=t的祖先_id th

7、en =+l; t=n; elseif _id=t的孩子_id then =+ l; t=c ; else insert_patterntree(t,p) ;/把p作为新结点插入树中,作为当前结点的孩子结点 p=; 对模式树进行剪枝 模式树建立后,可能存在大量的冗余的分枝,为了保证数据挖掘结果不被这些冗余分枝产生的噪声所影响,因此需要对树进行剪枝,剔除噪声信息。 算法:spt(tree,a),通过调用此算法对模式树进行剪枝 /spt为支持度模式树,即supported access pattern tree;a为项目头表 输入:模式树patterntree,min_sup(模式树的最小支持度)

8、 输出:经过修剪后的支持度模式树spt,模式b=bi|i=1,2,3n spt(tree,a) i=1; while(ai!= null) / 为项目头表的某一项 if(= min_sup) then 模式bi= of node ; p= of node ;/p指向ai在模式树中 的位置 while (p!= null and = min_sup) 查找p的前缀基,将p的前缀基和p连接,构 成模式b; if (= min_sup) then / 为模式b中p与p的前缀基中 的最小计数 在模式bi中保留p及其前缀基; bi = bi. node_link else 根据模式b中的p及其前缀基删除

9、 patterntree中的相应节点,重构子节点 与父节点,同时修改项目头表中的ai; p=p. node_next/p指向 在模式树中的 下一个位置; else 修改项目头结点的ai值; 删除模式树中相应的节点及其前缀基,重构父子 节点; i+; 通过模式树的建立可以避免多次扫描事务数据库;同时利用count域有效的保留了项集的数目,避免大量产生频繁项集,对于减小空间时间复杂度起到了一定的作用。通过树形结构可以避免产生大量冗余规则。 通过对模式树的剪枝,可以减除在模式树产生过程中产生的大量冗余分枝,起到了减小空间复杂度的作用,同时可以利用输出模式b产生规则,避免了多项集的频繁出现,减小了时间

10、复杂度。 4 结束语 本项目中通过模式树结构改进了apriori算法,弥补了apriori算法存在的缺陷。此种方法既能够对apriori算法从时间复杂度和空间复杂度上进行改进,同时又避免了中间规则的产生。本研究表明,通过利用一个模式树结构来降低apriori算法的存储复杂度,并同时减少冗余规则的出现,这对于apriori算法的改进是一种有效的措施。 参考文献 1邓纳姆.数据挖掘教程m.郭崇慧,田凤占,靳晓明,等译.北京:清华大学出版社,2005. 2苏新宁,杨建林,江念南,等.数据仓库和数据挖掘m.北京:清华大学出版社,2006. 3gal c s, kantor p b, shapira b. security informatics and terrorism: patrolling the web. amsterdam: ios press

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论