中国地质大学武汉成果推介表_第1页
中国地质大学武汉成果推介表_第2页
中国地质大学武汉成果推介表_第3页
中国地质大学武汉成果推介表_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国地质大学(武汉)成果推介表

成果名称不均衡数据学习的理论与方法及其应用负责人郭海湘、顾明潘雯雯、黄媛珥、李诒靖合作单位无所属学院经管学院邮箱技术领域口节能环保口电力系统与新能源口电子与信息因人工智能与大数据口生物医药口高端装备制造口新材料口化学与化工口航天技术M矿产资源口国土资源口农业技术口基础研究口轻工与环保口健康与食品口土木交通口智库口其他(请写明)技术成熟度口实验室口小试回中试口小规模量产口大规模量产技术背景不均衡数据是指在数据集中一类样本的数量迹还超过其他类,其中样本数多的类别称为多数类,样本数相对较少的称为少数类,也称作正类,而称正类所代表的会发生事件为稀有事件。稀有事件,尤其是指那些可能对社会产生潜在负面影响的事件,例如石油储层含油性识别错误、被诊断出患有甲状腺疾病、网络舆情事件等。在面对不均衡分布数据时,少数类样本的信息往往被多数类样本的信息所掩盖,导致来自少数类样本的分类错误率远远高于多数类样本,少数类往往是更受关注的对象,并且少数类的错分代价相对较大。例如癌症的诊断,癌症患者属于少数类,如果癌症病人错诊为健康人,会耽误病人的最佳治疗时机,从而对病人造成生命威胁。因此,不均衡数据分类问题的研究受到越来越多的研究者关注,也在越来越广泛的领域得到重视。不均衡数据因其不均衡比、数据维度和类别数的不同,所具有的数据分布也不同,使用统一的学习模型难以在所有数据集中都能够获得好的效果。因此,有效提高不均衡数据中少数类的分类精度,提高不同领域中不均衡数据的准确率成为了亟待解决的技术性问题。解决方案本研究从数据挖掘和机器学习的角度出发,将稀有事件检测看作是一类不均衡数据的分类问题,收集了500余篇与不均衡学习和稀有事件检测相关的论文,分别从理论和应用两个层面对所有论文进行了整理,并对不均衡数据学习的理论与方法进行了研究,同时对现有的不均衡学习应用领域及其常用方法进行了全面的总结,将其分为了金融、能源、安全、应急、环境、化学、生物和医学工程、信息技术、基础设施、工业制造业、农业等13个类别。同时,结合已有的研究成果,从技术理论创新和实际应用两方面提出了关于未来研究的设想。关于不均衡数据学习的理论与方法及其应用的研究成果主要包括石油储层含油性识别、甲状腺疾病诊断、文本情感分类三个方面的内容:(1)石油储层含油性识别中的不均衡数据分类问题研究。测井数据各类别的样本数量差异较大,且在错分代价上含油层被错分的代价远大于其他层,因此,石油储层含油性识别是一个典型的不均衡数据的多分类问题。针对不同不均衡分布的数据的要求,对数据进行过滤时,研究选取了基于相关性快速关联过滤算法,对数据进行封装时,本研究选择了二进制的粒子群算法,在AMCS中三种集成框架、五种集成规则、五种基分类器和两种特征选择算法组成了备选算法池,并基于差分演化算法生成DE-AMCS模型。结果表明,分类正确率相比传统分类器有了大幅度提高,尤其在最易错分的油层和差油层中有良好的分类效果。(2)甲状腺疾病诊断中的不均衡数据分类问题研究。甲状腺释放甲状腺激素以调节人体的新陈代谢速率,甲状腺激素过多或过少分别会引起甲亢或者甲减,都属于甲状腺疾病。在实际医疗数据中,甲状腺疾病数据属于典型的不均衡数据,传统的分类方法往往忽略了不均衡数据存在的异构现象。针对甲状腺疾病数据的类分布不均衡现象以及异构现象,本研究创新性的提出了自适应的多分类器系统,自适应的对异构不均衡甲状腺疾病数据进行分类来辅助甲状腺疾病的诊断。本研究采用了KEEL和UCL提供的10组异构甲状腺疾病数据进行实验,验证了该集成算法在辅助甲状腺疾病诊断的有效性。(3)文本情感识别中不均衡数据分类问题研究。针对文本情感的分类问题,研究创新性的提出了一种新的情感分类方法,综合了普遍性和领域特异性的知识。与现有的从传统情感词汇生成基于词汇特征的研究不同,本文提出了一种标签传播方法来诱导语料库自适应情感词汇。此外,研究提出了一种新的过采样方法来解决数据不均衡的问题,因为在特定领域的语料库中,情感极性的分布往往是倾斜的,本文提出的过采样方法通过反转和模仿两种文本生成策略直接生成人工文本。结果表明,该方法具有良好的可解释性,能够生成具有良好极性分布的情感词,且能够较好地克服数字空间重采样技术困难,极大程度上缓解了数据分布不均衡的不利影响,提高了文本情感识别的准确性。应用实例(1)目前该研究成果已应用于华北石油局的大牛地气田和大庆油田采油厂,为石油开发的相关部门提供决策参考。该研究通过对数据的处理,信息的获取等挖掘出石油储层含油性的分类知识,将这些简单易懂的分类知识反馈给管理人员,能够为石油开发的相关部门提供决策参考以此降低石油勘探过程中的主观性,降低勘探的风险。从而能帮助管理人员制定更加科学、合理的开发方案。(2)系列研究成果已得到武汉市第一医院等多家单位的采纳。将不均衡数据分类的研究方法应用到甲状腺疾病的诊断,通过自适应的集成学习算法对实际医疗数据的测算证明该算法可以用高精度辅助甲状腺疾病的诊断,为医生的判断提供决策支持。市场前景(1)应用在石油储层含油性识别中,为我国石油勘探管理提供了决策支持,为相关企业提高了经济效益。(2)应用在甲状腺疾病诊断中,为疾病检测提供了新的思路,为医疗决策者提供了决策支持。(3)应用在文本情感分类中,为舆情分析提供了新思路,为舆情管理者提供了有效的舆情识别方法。该研究综合了文本普遍性和领域特异性的知识,提出了一种标签传播方法来诱导语料库自适应情感词汇。此外,研究提出了一种新的过采样方法来解决数据不均衡的问题,通过过采样方法反转和模仿两种文本生成策略直接生成人工文本。同时,此研究为网络舆情分类提供了新的方法。专家介绍郭海湘,中国地质大学(武汉)科学技术发展院副院长、教授、博士生导师,政协湖北省第十二届委员会经济委员会应用型智库专家,武汉市人民政府第八届决策咨询委员会委员。主要从事应急管理系统仿真与决策的相关研究工作,采用智能计算的优化及建模方法解决“数据-信息-知识-决策”链中的数据融合、关键属性提取、关联规则挖掘、不均衡数据分类、文本挖掘、自适应优化等科学问题,并将其应用于灾害应急管理中。入选中宣部宣传思想文化青年英才计划、教育部新世纪优秀人才支持计划、湖

北省青年科技晨光计划、湖北省高等学校优秀中青年科技创新团队计划。主持国家自然科学基金4项,教育部人文社会科学研究项目2项,教育部哲学社会科学研究后期资助项目1项,湖北省青年科技晨光计划项目1项等;出版专著5本,教材3部。共发表论文80余篇,被SCI收录25篇次,EI收录28篇次,SSCI收录5篇次,CSSCI收录20余篇。其中,3篇论文入选ESI高被引论文,1篇入选中国精品科技期刊顶尖学术论文。获得国土资源部科学技术二等奖,第十一届、第十二届湖北省社会科学优秀成果二等奖,湖北省科技进步三等奖,湖北省自然科学优秀学术论文二等奖等。坚持问题导向,强化需求牵引,积极建言献策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论