数据挖掘在管理中的应用研究_第1页
数据挖掘在管理中的应用研究_第2页
数据挖掘在管理中的应用研究_第3页
数据挖掘在管理中的应用研究_第4页
数据挖掘在管理中的应用研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘在管理中的应用研究

挖掘数据也称为数据库知识发现,是一项复杂的过程,从大量、不完整、噪声、模糊、随机的数据中提取隐藏、未知、有价值的模式、规律和其他知识。随着信息化程度的加剧,企业和组织更容易获取和存储大量数据。如何应用数据挖掘对海量数据进行有效分析以准确发现潜在的数据模式,使企业和组织的管理者能够更加科学有效地进行决策,提高收益和市场竞争力,已经引起了管理科学研究者的广泛关注。由此,我国管理科学界建议将“管理数据挖掘”列为管理科学与工程学科在“十一五”期间的重点资助方向。针对“十一五”期间管理数据挖掘项目的资助情况,从理论和应用2个方面对国内最新研究进展进行初步归纳,以期为研究者了解该领域的研究前沿和方向提供帮助,提高我国管理数据挖掘研究的理论和实践水平。1资助项目研究在“十一五”期间,国家自然科学基金委员会管理科学部(简称“管理科学部”)管理科学与工程学科资助管理数据挖掘研究项目达42项,其中重点项目2项、面上项目29项、青年基金项目11项。资助项目数呈稳定增加趋势,在2010年达到11项(见图1)。从资助项目的研究领域看,2项重点项目主要集中于数据挖掘的基础理论和方法研究。40项面上项目和青年项目几乎都涉及基础理论方法和应用研究2个方面,其中有22项侧重于数据挖掘的基础理论方法研究,有18项侧重于数据挖掘在管理中的应用研究(见表1)。2对数据挖掘方法与技术的创新性研究在国家自然科学基金的资助下,我国学者在数据挖掘理论方法及其应用方面取得了一系列研究成果。这些研究不是简单地将数据挖掘的方法和技术直接应用于各种管理问题,而是针对问题特性提出了具有一定创新性的新理论或新方法,使其能更好地用于解决实际管理问题。这与目前国家自然科学基金在该领域的资助目标是一致的,即面向管理问题的理论与方法的创新性研究。2.1本文在挖掘理论的基础上取得了成果从内容上看,数据挖掘基础研究主要集中于功能方法方面,目的是提高数据挖掘所获知识的准确性。2.1.1传统数据挖掘方法已将复杂的项目集进行内关联规则分析的目的是从大量的数据中抽取出数据项之间所存在的有价值的关联性。在关联规则分析算法方面,CHEN等以格论及位图索引技术为基础提出了一种新的频繁项集发现算法,该算法利用有向图进行一次性数据预处理,在预处理过程中将数据库预先存贮为每个节点都用一个域来记录其支持度的项目集格,从而把复杂的频繁项目集的发现问题转化为图搜索问题,提高了频繁项目集发现过程的效率。随着信息技术的进步,企业数据库规模越来越大、复杂性越来越高,各类数据的维度(属性)通常可以达到成百上千维甚至更高。同时,大量数据以数据流的形式快速产生,并具有很强的实时性。由此,传统的数据挖掘方法难以适应这类数据的挖掘。LIU等在经典的关联规则分析方法基础上,提出了高维度数据中发现闭合频繁序列模式的算法。在数据流挖掘方面,学者们对频繁项集挖掘问题进行了较为全面的综述和研究,发现了已有方法在误差上界方面计算的缺陷,提出了新的误差上界和算法。2.1.2嵌入加速器增加了属性约简学习分类与预测是2种数据分析形式,其目的是抽取能够描述重要数据集合或预测未来数据趋势的模型。粗糙集是分类与预测中一种重要的理论方法,在处理具有不确定性的数据时能在保留基本信息的前提下对数据进行约简,并求得知识的最小表达式。根据客观世界的规整性和重复性,QIAN等利用粗糙集理论导出决策规则,设计了一种基于正向近似的属性约简加速器。针对完备与非完备决策表,将该加速器嵌入到常用启发式属性选择方法中,在属性选择的过程中不断地去除当前粒度下决策表相对正域中的对象,而不改变对各个属性的评价结果。嵌入加速器后的属性约简算法即可以保持原有算法的属性约简结果,也可以大大减少属性约简算法的耗时。此外,QIAN等还通过利用多个不同的等价关系描述一个集合近似,提出了多粒度粗糙集模型,给出了该模型的一些重要性质,并在此基础上提出了多粒度粗糙集近似约简的定义,给出了相应的规则提取方法,进一步拓展了粗糙集模型。在分类与预测方法研究方面,我国学者利用不同的推广的粗糙集模型从不同类型的数据中挖掘知识并融合以形成预测规则,从而解决预测问题中不同类型数据中所挖掘知识的融合问题,为不确定性决策的建模与分析提供新的方法。在多关系挖掘方面,学者们提出了一些新颖高效的多关系离散化方法以及特征和关系选取方法,以取得更高的分类预测准确率。我国学者还将多目标规划引入数据挖掘中,提出了基于多目标规划的线性和非线性分类模型,证明了多目标规划是数据挖掘的一种重要工具。在实际的分类和预测问题中,用于建立模型的数据往往具有噪声,从而导致误差。ZHONG等利用二阶锥规划建立了支持向量机的线性和非线性鲁棒模型,实验证明该模型对于噪声数据具有很好的鲁棒性。对于多分类学习问题,学者们建立了支持向量机的非光滑牛顿算法,以防止在传统的“一对一”训练方式下信息的缺失问题,并通过实验说明了所提出方法具有高准确率和低时耗。对于一些稀有类分析问题,WU等将聚类技术和分类技术结合,将k-均值聚类方法引入分类领域,提出了基于局部聚类的COG和COG-OS分类框架。为了进一步处理高度有偏数据,还将抽样技术与COG结合,发展出了适用于稀有类分析的新方法。2.1.3算法设计技术研究和序列挖掘聚类分析是将数据集划分为若干数据簇的过程,使得同一个簇内数据对象具有较高的相似度,不同簇内数据对象具有较高的相异度。在聚类有效度评价方面,XIAO等利用偶极子给出了新的聚类一致性准则,提出了GMDH聚类分析方法,从理论分析和实证比较2个方面论证了新的一致性准则的优越性。WU等针对F-measure这一广泛应用的聚类评价指标在评价可重叠聚类结果时产生的递增效应和先验概率效应,提出了一种新的指标:蕴含强度,并通过理论分析和实验说明了该指标能够提高重叠聚类评价的准确性。在聚类分析方法模型方面,XIAO等将模糊软集合理论与GMDH算法结合,提出了一种新的模糊软规则归纳法,通过模糊软集合参数约简和局部最优思想筛选中间细分规则来建立聚类整体最优模型,克服了传统的以主观确定阈值来选择模型的局限性和专家系统的主观性,并具有较强的抗干扰性。针对时序分类型数据,CAO等通过粗糙隶属函数定义了2个概念之间的距离,基于滑动窗口技术提出了概念漂移检测算法,设计了不同滑动窗口下聚类结果演化趋势的可视化算法,并在网络入侵检测数据集上验证了算法的有效性。随着互联网的迅速发展,企业越来越关注能够反映客户网络行为和信息的Web数据。YANG等研究了Web数据处理问题及高效的Web挖掘方法,在序列模式挖掘研究方面提出了一种新的两阶段序列挖掘模式算法。同时,还提出了一种更加准确的衡量序列相似度的方法。在网页信息挖掘方面,我国学者提出了依据链接信息衡量网页标签以及资源之间相似度的方法,并提出了一种随机游走模型,该模型可以同时考虑对象之间的直接和间接关系。在此基础上,CUI等提出一个基于邻居搜索的聚类方法,并提出了邻居搜索的优化策略,该方法可以自动决定簇的个数,能够处理大规模数据。2.1.4时间序列优化方法演化分析从数据序列中抽取随时间变化的趋势和规律,并用其对未来进行预测。演化分析的一个重要研究内容是时间序列分析。时间序列数据本身所具备的高维性、复杂性、动态性、高噪声以及容易达到大规模的特性,使得时间序列挖掘成为近年来数据挖掘研究中最具有挑战性的十大研究方向之一。ZHANG等基于独立成分的广义自相关性和信息的非高斯性,建立了一个优化模型,并推导出了一个新的盲源提取算法,同时给出了算法的稳定性分析和相应的数值实验。为了实现带有噪声的时间序列数据盲源提取,学者们基于广义自相关性和高斯矩建立了优化模型,并推导出了一个考虑噪声混合的盲源提取算法,进行了相应的数值实验。为了发现时间序列中的潜在结构,YANG建立了时间序列复杂性寻踪统一模型,利用近似牛顿算法设计了一个不动点算法,数值实验结果表明,该算法收敛速度快于梯度型算法。由于不需要迭代步长,因而算法更容易实现。为了实现高维时间序列的降维,LI等通过对时间序列进行分段,并利用云模型来表示每个序列段的特征,进而实现数据降维和特征表示。同时,提出了基于期望曲线的云模型相似性度量,以便度量时间序列特征表示后云序列的相似性。这些理论方法在实际的时间序列数据挖掘中取得较好结果。2.2在公共服务方面的应用研究在数据挖掘理论方法研究不断深入的同时,其在管理中的应用研究也得到了较大发展。2.2.1提供优质服务需要满足客户需求客户关系管理是企业的一种经营哲学和总体战略,它采用先进的信息与通信技术来获取客户数据,运用发达的数据分析工具来分析客户数据,挖掘客户的需求特征、偏好变化趋势和行为模式,积累、运用和共享客户知识,通过针对性地为不同客户提供具有优异价值的定制化产品或服务来管理处于不同生命周期的客户关系及其组合,通过有效的客户互动来强化客户忠诚,并最终实现客户价值最大化和企业价值最大化之间的合理平衡。客户关系管理的关键问题是客户细分。XIAO等提出了将GMDH聚类分析方法应用于这一问题中,与现有的理论成果比较,GMDH聚类分析方法扩大了客户细分的适用范围。在旅游业客户关系管理方面,YE等提出了基于机器学习方法的旅游客户评论分类方法,并比较了支持向量机、朴素贝叶斯和基于字符的N-gram模型在进行旅游客户的评论分类的性能差异,发现了训练样本数量对3种模型分类性能的影响机制。2.2.2体现现实意义财务困境预测是风险管理与决策领域的一个重要研究方向。企业的财务困境状态既关系到企业本身的战略制订与调整,还关系到其债权人或投资方的收益。在中国资本市场日益发展的今天,企业财务状况的判断和财务困境预测的研究尤其具有重要的理论意义和现实意义。利用各上市公司的财务报表数据,应用科学的预测与决策方法对各变量进行分析来预测上市公司财务困境,以便揭示风险并及时采取有效的防范、化解风险的措施,已成为上市公司管理当局、投资者、债权人等利益相关者共同关注的问题。SUN等构建了基于滚动时间窗口支持向量机处理概念漂移的财务困境预测动态建模框架,对基于样例选择的财务困境概念漂移处理方法展开了详细设计,包括宽度固定的时间窗口滚动机制、自适应宽度的时间窗口滚动机制以及批选择机制,并设计了财务困境预测动态建模方法的实证验证方案;SUN等还对多分类器组合财务困境预测方法展开研究,提出了遗传算法选择性集成多分类器的企业财务困境预测方法,以及基于多特征子集组合分类器的企业财务困境预测方法。此外,学者们还提出了基于群决策的财务困境预测方法。2.2.3负荷预测的核心问题电力工业是国家在能源领域的重大基础行业,是国民经济的命脉,对于我国经济建设、国家安全、社会稳定、生活质量具有至关重要的作用。随着电力工业的快速发展,对电力负荷预测理论和方法的研究越来越重要,在经济地制定发电计划、电力调配计划、网竞价计划、控制电网经济运营等方面具有直接而重大的经济效益和社会效益。电力负荷预测的核心问题是预测技术方法。由于电力负荷不仅具有拟周期性,而且受到众多不确定因素,如气象、节假日、电价、用电模式以及人口状况、居民收入、消费观念等的影响,因此,电力负荷预测问题具有数据量庞大、种类混杂、多种不确定性并存的特点。同时,电力负荷预测中既包括数值型数据,也包含定性的描述性知识表述。以上这些特点使得传统的数据挖掘方法难以适用于该问题。由此,学者们研究了对于多种类型知识影响的基于协同知识挖掘的电力负荷预测的新理论方法,包括知识文本标准的制定、知识表示、知识清洗、知识集成、知识转换、协同知识挖掘预处理、自动提取具有高度相似性综合知识特征的同类历史数据、神经网络负荷预测模型的自组织和优化、经验推理干预等。比如,对日负荷有影响的各类知识文本的标准、结构和规范化进行描述分析,利用时间序列预测技术ARMA(1,1)对数据中的负荷进行线性因素的拟合建模和校正,得到纠偏的神经网络模型。对于中长期电力负荷预测,NIU等选取单一算法模型,并建立协同粒子群算法自适应权重的中长期组合负荷预测模型。3国内学者在国际专四通道研究领域,其学术基础研究仍在其通过总结近几年来管理科学部对数据挖掘及其在管理中应用的资助研究进展可知:①数据是管理决策的基础,数据挖掘作为分析数据的有效工具将越来越被管理科学界重视。可以预见,在未来较长的一段时间内,此领域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论