




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.绪论 21.1图像数据挖掘研究概述 21.1.1图像数据挖掘的背景介绍 21.1.2图像数据挖掘的特点 41.1.3图像数据挖掘的现状及发展趋势 41.2形式概念分析方法的概述 51.2.1形式概念分析方法的背景介绍 51.2.2形式概念分析方法的特点 61.2.3形式概念分析方法的现状及发展趋势 62.图像数据挖掘实验研究 82.1算法比较 82.2卷积神经网络在图像中的应用 92.3相关知识概述 123.形式概念分析方法研究 143.1基本理论 143.1.1形式概念分析方法基本概念 143.1.2形式背景相关概念 153.2概念格的构造 163.2.1形式背景构造过程与分析 163.2.2概念格构造方法与相关知识 183.2.3批生成算法 193.2.4渐进式生成算法 193.3模糊概念格概述 204.形式概念分析理论下的图像数据挖掘 224.1概念格下的图像挖掘知识发现 224.2关联规则 224.3形式概念分析理论下图像数据挖掘的应用 234.3.1图像表示及形式背景构造过程 234.3.2输入表示 254.3.3代码实现过程 264.3.4输出结果及解释 33结论 36参考文献 391.绪论本文将形式概念分析理论应用于图像数据挖掘,绪论部分对图像数据挖掘和形式概念分析理论的概述、现状、发展趋势以及其特点进行了介绍说明。1.1图像数据挖掘研究概述现如今,随着智能化在生活中的发展覆盖多领域,各个领域都出现了越来越多的图片、影像,其中相机、电脑、手机、平板电脑等电子产品起到了制造、传播、修改图像的作用ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[1,2]。在农业、工业、医学、气象、矿产资源勘探等多方面都有着重要的影响。人们生活发展的方方面面都离不开图像。以下内容重点对图像数据挖掘的背景和特点进行概述,并且针对图像数据挖掘的近况和发展趋势进行了详细扩展。1.1.1图像数据挖掘的背景介绍图像中蕴含着丰富的含义,获得这些内涵并且利用这些信息和特征在许多领域中都至关重要。图像中的信息可以应用于企业对于客户需求分析,促进客户消费,有利于公司智能的制定运营决策,有效制定运营计划,优化运营过程,还可以应用于医院病症分析,其中,对于具体病症可以做到更快更准的确诊。同时,在不可再生资源勘察、地下人员搜救、农业、天气以及自然灾害预警等都发挥着关键作用,对我们的社会的兴盛,自己学习和生活发展都有着不可忽视的作用ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[3,4]。随着图像数据量的不断增多,利用图像获取信息并且对信息数据进行研究分析就显得十分迫切,因而图像数据挖掘技术就应用于其中。图像是人们面对世界进行有意义认识的主要工具,人们生活的各个方面已经离不开图像。图像是用于表达和描绘客观事物的工具。图像数据挖掘是基于潜藏在图像中的基础特征提取关系,这些数据与图像中颜色的类型、图中元素的分布、像素和构成图片的结构等都有着直接的联系。而这些规则在更广泛的数据库知识发现过程中进一步转化为支持决策的非平凡事实。图像数据挖掘经过多个步骤,同时也需要多种技术手段和学科研究,是一种集成式技术过程ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[5]。目前,人们对于图片的利用范围也在不断扩大,针对不同领域的图片、影像进行处理、挖掘和分析有着不同的方法与作用。面对不同的发展需求,采用不同有差别的挖掘模型。图像数据挖掘并用于指导分类,常见的分类方法有:贝叶斯、支持向量机、决策树、最大似然法等多种方法。如图1-1中所表示常见的分类方法的普遍过程包含:获取数据集。对数据进行预处理。选择并提取特征。找到恰当的算法。进行数据挖掘。对挖掘后的结果进行剖析。应用所发现的规则和模式。图1-1数据挖掘的步骤图像数据挖掘经过长时期的发展,在信息处理与关联关系发掘方面都有了很大的进步,但面对图像中特征的联系,仍然需要进一步研究。将形式概念分析方式应用于特征之间的联系,用图像表示特征之间的联系不仅要考虑图像构造的问题,同时还要考虑到特征之间关系。1.1.2图像数据挖掘的特点 图像数据挖掘的特点有如下几点:对图像中的信息数据进行挖掘与联系是非常不容易的。图像中的色彩、像素、曝光度等因素都影响着图像信息的提取,对从图像中提取出的数据进行分析也有很大的难度。并当面对有不同参数却有相同内容的图像时,获取信息的难易性以及信息之间联系性都有着很大差异。例如对不同书籍的封面的特征挖掘时,同类书集中会有着许多特征之间的关联,将这些特征之间的关联发掘出来并且可以通过直观的图像表现出来,这个过程是非常有难度的。图像中所隐藏的数据信息范围宽广,信息量巨大ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[6,7]。目前,图像量激增,图像中包含的信息内容多种多样。并且每个人针对图像中的信息有着不一样的理解,不同的人针对不同的信息会有着不同的处理方法,因此也会产生不同的结果。例如,在发现煤矿的图像中,包含着很多不同因素,这些信息过多,对于甄别是否有煤矿都有着很大的迷惑性。不同的结构关系信息都蕴含在图像中,包括空间关系信息ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[8,9]。其中除了上、下、左、右侧的位置以外,还有更为复杂的空间位置。如分离、包围等位置关系。在图像中,处在不同的位置关系中代表了不同的含义。例如在树叶图片中,不同位置的叶片脉络就有着不同的信息表示,可能就是不同种类的树叶。1.1.3图像数据挖掘的现状及发展趋势Fayyad在1993年研究挖掘非标准和多媒体思想,其中主要针对于天体天文学来进行图像数据挖掘研究理论、相关技术和知识发现ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[10,11]。并且对图像中的物体进行归类、分析,能够有效发现星体中的火山。2005年武汉大学博士秦昆应用形式概念分析方法针对不同像素对图像进行数据挖掘,分析概念之间的关系,对图像数据的存储与管理以及相关应用进行研究。2010年,黄成对基于决策树分类的数字图像数据挖掘研究,对其过程和算法进行探究。2019年,陈邦国对他当时所常用的图像处理机器学习算法的相关流程进行总结归纳,看到了深度学习与图像处理的联合发展有着良好发展方向。图像数据的发展与应用会越来越广泛,在接下来的发展中重点在于特征间关系的发掘,应用形式概念分析理论可以在这一过程中体现出巨大的优势,这一理论对于在图像中进行形式背景和概念格的构造都有很强的指导作用。这一研究也会越来越深层次,可以运用的领域也会越来越丰富。1.2形式概念分析方法的概述本小节中对形式概念分析方法进行了背景介绍,并且针对其特点、现状以及发展趋势做了说明介绍。1.2.1形式概念分析方法的背景介绍形式概念分析方法有着优秀的数学分析问题能力,通过泛化和例化的关系进行分类、分析信息。其中,形式概念分析方法通过对设定概念集和设定的属性集之间的关系进行捕获和研究。并且,可以生成两种不同的结果,一种是:通过对子类数据和父类数据进行分层排序,它所代表的是一种抽象的概念,而另一种则是根据有效数据所得到依赖关系。这种方法在许多研究方向中都有着应用,例如在医学领域中,对不同的临床反应以及疾病之间关系进行认识。肠道癌症有着许多症状,而这些症状之间的联系对于发掘病症极为关键。这其中就应用了形式概念分析理论中的思想,在发现症状之间联系的过程中,就可以通过构造形式背景,来生成概念格,通过概念格可以发掘出引起病症的主要症状,减小模糊性和不相关症状。在图像处理中,使用粗糙集理论进行适合的规则挖掘,之后在这些规则中使用形式化的概念探索影响决策更重要的因素,利用这些因素构造关系图。这样的应用还有很多,虽然应用的领域不同,但其中的数学思维和处理模式都有许多相似和借鉴之处。形式概念分析方法提供的构造概念格的数学思想不可或缺,在学习的方方面面都体现出这一数学思想。从这一数学理论出发,可以简化挖掘特征之间联系的过程。有了这一理论基础,大大简化了图像特征挖掘的过程,使应用更加高效。1.2.2形式概念分析方法的特点形式概念分析的特点有如下几点:可以对数据中的概念进行发掘、分析以及推理ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[12]。一个概念是由一组对象和他们所拥有的一组属性组成一对。将形式概念中的概念定义为它的范围和意图,它是基于实际的(或保证的)可能性函数,其中概念中的每个对象都有它意图的所有属性,每个属性都被它的范围的所有对象所拥有。对数据中可以被人们直接发现或间接发现的联系所思考。例如在同一科或同一类别的动物中有很多相同的特点,在哺乳动物中,高度发达的神经系统和器官就属于它们共同的特点。然而发现这些特点并利用它们之间的关系,可以对未知种类的动物进行有效地分类。可以对数据、概念以及依赖关系进行可视化展开或折叠。将特征构造成形式背景,在形式背景可以使用的前提下进一步建造概念格,就可以发觉出特征之间的关联关系并可以加以探究。在概念格中,可以对所得到的特征关系图像中关键的特征进行扩展,并对不明显、关联性低的特征进行折叠。1.2.3形式概念分析方法的现状以及发展趋势德国的R.Wille教授将这一概念于1982年首次发表于世。Ken的主要研究在于两部分,一部分为粗糙集,另一部分为概念格,剖析了粗糙形式概念分析理论;Yao进一步探究了形式概念分析中的粗糙集;康向平主要运用这一思想斟酌了粗糙集的发展方向,重新建造出基于形式概念格的粗糙集模型,为人们提供新的思路去分析粗糙集;Krajci对传统的模糊集进行新的概念理解和分析。李想进行了这一理论知识性的拓展和应用的联系,融合了不确定信息的粗糙集和模糊集理论,还提出一种文本主题分类方法ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[13,14]。2007年,刘利峰在文本聚类中应用概念格理论,并且改进了属性约简效率ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[15]。2017年,A.Castellanos等人认为应用形式概念分析是一种探索性的数据分析和组织技术,扩展出了一种形式概念分析的主题检测方法,该方法将稳定性概念应用于主题选择。此外,还提出了基于形式概念分析的方法能够处理聚类和概率方法所存在的一些的缺点,如出现难以处理具有复杂泛化关系的问题。发展概念和概念类型的数字化分析主要是在运用数学知识。经过长时间的发展,对于这一理论的认识更加清晰,并且可以结合其余学科发挥作用,并与其他思维结合,已经在多个领域应用起来。在软件工程、数据分析、信息搜索等都发挥着重要的作用ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[15]。在与其他领域结合时可以充分发挥对数据集泛化和例化的作用,成为了一种数据推理的有效手段。2.图像数据挖掘实验研究本章节主要介绍了图像数据挖掘发展领域和应用场景,为了更好的理解图像数据挖掘的运行过程,本章节中具体讲解了一个图像识别挖掘的实验,以此为例,清晰的介绍了具体的步骤,并且针对过程中的关键点做了解释。2.1算法比较图像处理在图像挖掘、医学成像、医学图像处理、网络挖掘等领域发挥着重要的作用,其中例如:在医学成像中用于观察患者是否确诊有着至关重要的作用,当医院通过技术手段获得病人癌细胞图像后,在图像数据挖掘技术还没有广泛应用时,大多都是医生通过主观判断,容易出现误判,然而应用图像挖掘技术后就可以做到减少误判,在大量数据的前提下,可以对癌细胞图像做出更加准确的判断。为了更准确的理解数据挖掘,以下比较几种机器学习算法:决策树。优点:便于人们认识,并且计算复杂度比较低,还可以用于对不相关的特征数据进行处理。缺点:有很大概率会产生超额匹配问题,容易发生过拟合。Apriori算法。优点:理解起来比较简单,对于数据的要求不高。缺点:在大型数据集上运行不会很快。卷积神经网络。优点:得到的成果突出,分类识别非常精准,共享卷积核,处理高维数据较为轻松。缺点:需要大量的数据并且需要调整参数。通过具体讲解深度学习算法基于内容的图像中的应用,可以更加深层次的理解这一理论ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[16,17]。如图2-1表示数据处理的一般流程图,为后文中举例说明图像数据挖掘提供支持。图2-1数据处理的一般过程图2.2卷积神经网络在图像中的应用为了达到更好理解运行步骤的目的,以MNIST手写数字数据集识别挖掘为例,具体讲解了图像数据挖掘的步骤。下面通过使用卷积神经网络来实现图像识别处理的过程。通过介绍这个具体的算法,来对图像数据处理过程更加清晰和熟悉。MNIST数据集是手写数字字符的数据集,由多张28×28像素的灰度手写数字图片来构成样本。如图2-2:图2-2MNIST手写数字数据示例在卷积神经网络中,使用卷积作为模型,在邻层之间进行数据交换,功能驱动模型和信息驱动模型共同组成了图像数据挖掘模型ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[18,19]。机器学习技术中的卷积神经网络是用来处理知识。深度学习方法就属于其中,并且更加适合应用于图像数据。相比较传统的分析程序,这个方法会更加仔细检查每个单独的层。图像内容与端到端结构的低层次表示可以通过卷积神经网络来获得。如图2-3所示:图2-3具体模型结构通过图2-3具体模型结构来对图像处理步骤进行简要介绍,并且对关键步骤附上代码解释说明。第一步需要读取数据集,并且读取目录中的数据,定义输入数据,将输入数据重塑为四维数据其中第一位数据代表了图片数量,读取测试集的特征与标签ADDINNE.Ref.{421FECBC-88E4-477D-9BD7-65B3F8E254CD}[20-22]ADDINNE.Ref.{21391D99-A687-477D-B350-16283142C520}。图2-4说明了定义卷积神经网络的结构,滤波器的数量、卷积核的尺寸、步长,最后设置activation,即激活函数设为relu。图2-4代码实现过程图2-5中重新定义卷积神经网络和卷积层的构成参数,利用tf.layers.max_pooling2d函数进行最大池操作,输出可以看出图片尺寸变小。定义第二次卷积结构,改变部分参数。两次卷积和降采样完成后,对每个图打平处理。图2-5表示下面接一个全连接层,使用的是tf.layers.dense函数。图2-5代码实现函数图2-6中使用tf.layers.dense来表示输出层,dropout的输出成果作为输入。这个是一个简单的全连接层,没有采用激活函数,输出十个数值。图2-6代码表示输出层计算交叉熵损失,定义训练操作、模型的性能评价指标为准确率、tensorflow的图,计算在测试集上的准确率。test_accuracy=sess.run(accuracy_op,{input_x:test_x,output_y:test_y})最后将图像带入模型,进行训练操作,计算训练损失。最后将结果分别输出。通过对上述操作的应用,来建立模型结构,来实现了如图2-7的输出结果:图2-7上述结论中输出结果图2-7中表示随着训练数量的增多,训练的损失会越来越低,而测试的准确率会越来越高,并且在这个测试中,当step达到900时,测试准确率在这几项数据中达到最高为0.44,当step为100,测试的准确率为0.10,数值较低。其中预测得到的标签与实际标签进行对比,在众多标签中,大多都预测正确,其中出现了5组与真实标签不符合情况,剩余18组与真实标签是一致的。体现出了这一算法的实现还是比较准确,可以高效的实现实验过程,并且得到较为合理的结果,充分的完成好这一图像处理识别实验。2.3相关知识概述具有重要使用意义的在于使用到了one-hot,是独热编码,也是一种有效编码,是分类变量作为二进制向量的表示。在特征处于离散的情况下,这样会使得到他们之间的距离更有说服力。这样可以使得分类器适合离散数据,并且扩展了特征的作用,对后文中的概念格实验提供了思路。卷积神经网络和多层感知器网络有很多关键的不同之处,卷积神经网络包含了很多卷积层和池化层构成的特征提取器,可以通过这样有效的减弱参数的规模,大大简化了模型的复杂度,减少出现过拟合的情况,增强模型的泛化能力。通过图2-3和代码的理解,可以充分理解了图像处理的一般过程,为之后的在形式概念分析理论下进行图像处理奠定了基础,并且做了很好的铺垫。具有更强的代表性,更加便于理解和认识。
3.形式概念分析方法研究本章节主要对形式概念理论进行研究与分析,对这一理论的基本概念以及形式背景的相关概念作了说明。在概念格构造的过程中,首先剖析了形式背景的构造过程,以及构造原则,并且还介绍了两种概念格构造的方法,一种为批生成算法,另一种渐进式生成算法。根据这两种方法,在这些知识的前提下,做出了概念格中关联关系的理解,最后还针对模糊概念格进行了扩展知识发现。3.1基本理论本小节中主要详尽的介绍了形式概念分析的基本概念和形式背景的相关概念以及知识发现。3.1.1形式概念分析方法基本概念形式概念分析是格理论中的一部分,将对象属性集进行形式分析。它主要是对于概念和概念思维的形式化。对于两组集合A和B,A和B之间的二元关系是一组所有对(A,B),a∈A,b∈B,这是笛卡尔积A×B的子集。如果A上所有元素满足二进制关系。a,b,c∈A,称为部分序关系。概念只能存在于许多其他概念的关系中,在这些关系中,次概念与超概念的关系起着突出的作用。作为超概念的子概念表明子概念的外延包含在超概念的外延中,这就等于子概念的内涵包含超概念的内涵的联系。例如摄影画画类书籍就是书籍的子概念,水仙花就是花的子概念。对于概念和概念层次结构的数学理论,我们显然需要一个数学模型,该模型允许从数学上讲对象、属性和表示对象具有属性的关系。其中,这种模型是由“形式上下文”的概念引入的,而“形式上下文”是应用数学的一个新领域,这也是形式概念分析的基础。形式概念分析的核心是一组从上下文中进行有组织的观察后设计概念层次结构的方法。因此,形式概念分析中的概念形成过程是一个非常优秀的数据库知识发现过程,其中概念集的构建构成了“挖掘”阶段。在这个过程中,成功运用这一理论和思想的场景非常多。格算法的关键区别在于两个方面:格序(优先)关系的计算和构造过程中上下文的演化。介绍一种将新对象插入概念格的通用方案,通过如下图中的介绍,来表示新对象插入概念格中的过程,如下图3-1所示:图3-1将新对象插入概念格的通用方案下图介绍用一对局部概念格组装成为全局概念格的过程,这一过程可以由如下图3-2所示:图3-2将局部概念格组装全局概念格图3-1与图3-2中的参数主要体现了局部概念格和全局概念格,并且使用这样的参数使得组装过程说明起来更加简单。3.1.2形式背景相关概念外延和内涵共同组成了它的概念,其中这一概念的所有对象构成了其外延,内涵包括适用于外延的所有对象的所有属性。通过使用概念和概念层的数据知识,我们可以使用一个数学模型,这个模型可以从数学思维出发来解释对象具有的属性关系。一个形式背景K=(G,M,I),G、M分别表示为集合,I则表示为他们之间的关系,G中包含的元素为对象,M中包括的元素称为属性。通过表示对象和属性的关系,记为(o,m)∈I,称为对象o有属性m。在形式背景中,输入的数据是由对象和描述其中属性和这一关系的表格所构成。缺乏背景知识可能会导致提取过多的形式概念,包括那些不合常理的、低效的概念,另一方面,适当的背景知识处理可能会引起高效的知识提取。最重要的是,这一过程缩小了提取形式概念的规模。此外,由输入数据提供的信息可应用于对应背景知识的不同内容的不同目的。属性之间相比较下的重要性是分类和聚类中的一个约束条件。换句话说,它剔除了与背景知识不相符合的隐藏聚类。3.2概念格的构造构造概念格关键在于形式背景的建造,这一小节中具体化构造了形式背景,并且对每一步骤做出了详尽的说明。同时,介绍说明了概念格中的联系。3.2.1形式背景构造过程与分析生成概念格在形式概念分析理论中非常关键,通过概念格来表示对象之间特征的联系和关系。面对概念格的研究,国内外的研究人员都对不同种类的算法进行诠释和分析。其中有两类方法,一种是批生成算法,另一种是渐进式生成算法。算法主要针对概念格的制作、扩展、简化、规则提取和利用。下面对不同植物进行形式背景分析,如表3-1:a是常见的外观色彩为红色的植物;b是常见的外观色彩为黄色的植物;c是常见的外观色彩为白色的植物;d是成长于地上的植物;e是成长于地下的植物;f是成长于水中的植物。其中“×”指代他们不存在这一属性关系。下表中表示出:lily包括c,d这两个特征,Turnsole包括b,d这两个特征、Rose包括a,d这两个特征,Lotus仅包括f这一个特征,Carrot包括a,e这两个特征。表3-1不同植物领域的形式背景abcdefLily××××Turnsole××××Rose××××Lotus×××××Carrot××××通过上表中的的描述,可以理解在对应行与对应列之间的关系,还可以用1和0的变化方法表示特征的有无。如下表所示:表3-2不同植物领域的形式背景不同表达形式abcdefLily001100Turnsole010100Rose100100Lotus000001Carrot100010因此,输入表由5个不同的认识对象和6种不同的属性组成。这样的表格对于希望使用表格中包含的信息来形成具有共同特性的物种集群的植物学家意义重大,这个图表是进行形式概念分析的一个输入表达。这个概念可以代表了对象中全部白色花朵植物的类别和集群,这样一个范畴的形成是正确的。然而,对于一个生物学家的探究来说,这样的分类似乎是不自然的。因为在很多情况下会考虑其他更加关键的属性,但是这些属性同样是十分重要的。因此,在进行这样的实验分析时,要根据实际情况,结合具体领域实践应用,本文概念针对图像进行形式概念分析研究,具体到一个方面,进一步研究。3.2.2概念格构造方法与相关知识直观的显现出数据中的相关联关系,并通过一个层次结构图(所谓的概念格)可视化形式概念和属性含义。形式概念由一系列应用于该概念的对象和一组蕴藏于该概念的属性组成,因此A是共有B全部属性的所有对象的集合。针对概念(O1,D1)和(O2,D2),其中O和D分别代表对象与属性。倘如出现D2⊆D1的情况,则形式概念(O1,D1)称之为形式概念(O2,D2)的亚概念,记为(O1,D1)≤(O2,D2)。这样我们可以获得一个有序集,这个完全格被称为形式背景的概念格,记为L(K)。下图即为针对表3-2中不同对象的不同的特征之间的关系,而形成的概念格图,如下图所示:图3-3由表3-2形式背景多对应的概念格图3-3中下面的五个圆球代表着表3-2中的五个对象,而中间的联系,代表了他们的特征之间联系的紧密,并且图中的任两个节点之间的联系都代表了有着偏序关系。3.2.3批生成算法批生成方法是在上文中所描述的形式背景的概念下,决定着概念之间的关联与属性的关系。这一算法可以实现对概念格的构造,其中包括对于队列、列表、链接的构造。批生成算法:输入:形式背景。步骤1:对概念格进行初始化。步骤2:初始化队列。步骤3:从队列获取一个概念,根据概念生成子概念。步骤4:如果子概念首次产生,就增加到概念格中并加入队列。步骤5:增多概念与其子概念之间的链接关系。步骤6:重复操作步骤三到五,直至队列为空。输出:概念格。3.2.4渐进式生成算法渐进式生成方法也被称为Godin算法。该算法从空的概念格出发,按顺序将其加入到应用形式背景中的对象,渐进式的构造出概念格。将新加入的对象同生成的概念格中的概念进行对比,通过对比可以发现三种类型的关系:无关概念、更新概念和由新增概念的子概念。渐进式生成方法主要是适用于更新概念和新增概念,转变了概念之间的关系。渐进式生成算法:输入:形式背景。步骤1:对格进行初始化。步骤2:初始化队列。步骤3:从队列中取出一个概念,产生其每个子概念。步骤4:倘若出现了之前没有产生出过的一个子概念,则加入到概念格并加入队列中。步骤5:增多概念和子概念的关联关系数量。步骤6:重复操作步骤三到五,直至队列为空。输出:概念格。3.3模糊概念格概述我们目前得到的信息很多是模糊的,基于模糊背景下的形式概念分析,发展广泛,并且伴随着数据集规模的日益扩大,生成的模糊概念集合变得越来越多。在学习过程中,其中两种方法有着重要的联系。这两种方法分别是模糊概念格理论和模糊图论,都利用模糊图来说明模糊概念格。目前还出现了一种从模糊上下文中构造模糊概念的算法,该算法比现有的算法更易于处理。模糊形式背景是由三元组构成,其中可以用K=(U,A,I)来表示,U是指对象集,A为属性集,I称为隶属度函数。其中U×A→[0,1],o∈U,d∈A,记(a,d)=m,m∈[0,1]。这一背景中隶属度就是在0~1之中。模糊形式背景中存在着许多人们不明确,不明白的数据和属性。形式背景上的所有模糊概念记为CS(K),这一结构是通过泛化与例化的联系而产生的。如同O1⊆O2,则(O1,D1)≤(O2,D2)。这样可以获得一个格有序集,这就是模糊形式背景K的模糊概念格。在渐进式生成模糊概念格时,可以增加用于计算模糊参数等来辅助计算。并输入模糊形式背景来得到模糊概念格。为了精确表示不确定性和不完全性,这一数学理论增加了模糊上下文、异构上下文、区间值模糊上下文、双极模糊上下文、链接模糊上下文、可能性理论和基于粗糙集的形式上下文。模糊属性可能包含一些不明确或不确定部分,这些部分可以由三个独立的区域来表示,这其中包括了真隶属函数、不确定隶属函数和假隶属函数。然而如果在模糊概念格中加入一个新的属性并不需要计算所有的频繁节点和关联规则,只需要在模糊概念格的增量式构造算法中对已经发生变化的新节点进行处理。扩大目前存在的基于属性的精确概念格增量构造算法,这样模糊概念格可以正常发挥作用。使用剪枝技术改造构造算法,产生相适应的关联规则,经过这样的处理,可以减少了很大的计算量和计算时间。模糊控制算法慢慢扩展到模糊环境,这样的扩展可以在上下文中表示不确定和模糊的信息。将上下文中的模糊性转化为模糊形式上下文,提供了面对模糊形式概念分析的新方法。模糊集的运算方法包括子、并、交、补集,伴随着对象的变化,模糊概念格要进行不断地适应变化,模糊概念格中的关联规则也会相应更新。在这个过程中,也并不需要对所有的频繁节点和关联规则进行设置。当缩小模糊形式概念的规模时,可以使用去区间值模糊图和模糊概念格相联系来处理这个过程。
4.形式概念分析理论下的图像数据挖掘本章中介绍了面对图像中的特征进行概念格构造的全过程,包括对形式背景的建立和对关联规则的介绍。这些都对概念格的构造和分析的意义重大。针对实现过程,分析了代码结构,并且对关键代码做出了重要解释。举例说明六本书籍封面作为输入,对获得到的输出结果图像进行分析,并且针对图中的节点和各边之间代表的特征关系进行了总结归纳。4.1概念格下的图像数据挖掘知识发现将图像数据挖掘与形式概念分析理论进行关联应用是极为关键的。可以在图像挖掘的基础上,进行深层次的理解和联系图像之间的关系以及特征。这对于目前发展中的图像数据技术如虎添翼。可以更加容易的发现隐含的信息,并且可以通过对图像中的关键元素的提取,来进行形式背景的建立。对形式背景的认识和理解,可以更快的开发概念格,这个过程也可以叫做形式概念分析。形式背景的构造实现了在概念格下对图像数据挖掘和分析,针对于图像中的特征来进行挖掘。形式背景的表现形式可以作为一种程序输入的范本。只有建立有效、清晰的形式背景才能更好的应用于图像数据,这是有效表达特征之间关系,进行形式概念分析的必要前提。通过举例子来介绍形式背景的建造过程。其中对图像中个别特征的存在与否进行确认,建立出形式背景。4.2关联规则形式概念分析中对于图像特征之间的关联规则发掘是必不可少的。只有对关联规则有了充分的认识,才可以对构造出的概念格进行充分的理解。关联规则主要采用的方法是通过将任务分解为两个小任务,其一是产生频繁项集,用来满足最小支持度阙值,另一个是产生规则,从之前发现的频繁项集中提取出所有高置信度的规则。可以收获频繁项集和并且从频繁项集中产生紧密的关联联系。下图4-1即为Apriori算法的流程图。图4-1Apriori算法的流程图对关联规则算法中常用的Apriori算法进行了说明讲解,可以深入地理解关联规则。目前,关联规则在多领域被广泛使用,在经济领域中,他可以成功推断出客户的需求,针对人们的不同特点推送出有差异的方案。然而,我们应当在生活中的多方面应用关联规则,解决复杂困难的问题。4.3形式概念分析理论下图像数据挖掘的应用这节中重点介绍了通过实例构造形式背景进而完成概念格的构造,对整个构造过程进行说明分析,并且结合代码进行讲解。4.3.1图像表示及形式背景构造过程对六本不同书籍封面进行特征发现,并且构造出形式背景的多种表达方式,采取最合理的一种。实例图像如图4-2:图4-2-1历史的轨迹图4-2-2一生中爱提的99问题图4-2-3大学生生涯规划与发展图4-2-4怪诞心理学2图4-2-5给大忙人解压的书图4-2-6长尾理论图4-2实验中的六本书籍封面表4-1是针对不同书籍封面的特点来进行形式背景分析,其中有符号的表示这个书籍的封面中没有这一元素,没有符号的则代表书籍封面中拥有了这一特征,主要对颜色和图案类型进行形式背景分析,其中颜色对红、绿、黄、黑、白色进行背景分析,而针对图案主要包括圆形、矩形、线性、三角形。表4-1六本书籍封面的形式背景RedGreenYellowBlackSquareLinearCircularTrianglea×××××b××c×××××d×××e×××f××××其中在上述图像中,a中包含红色、黑色、线性图案,b中包含红色、绿色、黄色、黑色、以及正方形和圆形图案。c中包含赤色、黑色和三角图案。d中包含赤色、绿色、黄色、玄色、以及圆形图案。e中包含红色、绿色、黑色、以及线形和圆形图案。f中包含红色、绿色、黑色、以及线形和圆形图案。对图像特点的发现与搜集后,并对其联络和应用。然而在应用过程中可以用1和0来表示其特征的有无。1代表此类特征在图像中存在,而0则代表特征在图像中不存在。表中描述图片内存在特征之间关系,通过做好这些前期工作,才能更好的发掘他们之间的关系。表4-2六本书籍封面的形式背景不同表示RedGreenYellowBlackSquareLinearCircularTrianglea10100100b11111010c10010001d11110010e11010110f11010010通过对上面举出的图片实例,来进行不同的形式背景分析表示,通过1来表示有这个特征,0来表示没有这个特征,来对形式背景的不同表示,上图即对形式背景通过数据0和1的方式表示出来,依次可以作为程序的输入。4.3.2输入表示如图4-3中的输入提示,即将对象和特征表示以及个数输入到程序之中。通过输入上述6个书籍封面对象,再根据提示将8个属性输入,即可完成程序初始化输入。图4-3输入对象和属性提示图4-4代表将图像特征的矩阵输入代码中,即为对表4-2的输入,进而可以实现代码对不同对象特征关系进行挖掘和联系。图4-4输入特征矩阵提示上述图4-3和图4-4介绍了构造概念格过程中,在形式背景构造好的前提下,对对象和特征输入,并且将对象与特征之间的对应关系进行矩阵形输入。4.3.3代码实现过程应用networkx和matplotlib工具,在对图像中的特征进行挖掘分析之后,使其可以通过初始化一些画图的参数来解决图像建立的基本要求。利用这一包,可以对发掘出的关系建立图形,来清楚的表达出来图像特征之间的关系。编写代码来进行数据输入,将形式背景中的信息输入到程序中,其中包括特征的表示以及实验的对象。对其中的关键代码进行说明解释:如图4-5定义并且构造矩阵。图4-5构造矩阵如图4-6定义得到二分的派系,并且可以输出查看。图4-6定义派系并检查如图4-7主要定义稠密列表,并且利用循环语句进行属性与对象之间的匹配。图4-7定义稠密列表如图4-8表示的是生成格,并且使用if语句判断是否为子集,创造概念格图像中最底部和最顶部的节点。图4-8生成格图4-9所示将这些使用if语句所得出的属性关系和对象等添加到图表中,为之后的概念格图像输出做准备。图4-9添加信息到图表图4-10在图表中添加节点之间的边信息,最后都集合到lattice.png这一图像文件中,打开这一图像就可以获得他们所有特征之间的联系。图4-10将特征关系集合到图像文件如图4-11按照格式输入对象和属性,并且建立矩阵,得到俩个派系。图4-11建立对象与属性的矩阵如图4-12所示使用while语句压缩两个派系直到没有变化。图4-12压缩派系建立对象与属性的矩阵如图4-13是解释过滤器概念的过程,这个过程是不可或缺的,它解决了过滤器运行的要求。图4-13定制滤波器如4-14以下代码是对在形式概念上的图像特征数据进行排序,并且生成概念格的图像文件。图4-14生成图像文件图4-15表示查询并且返回输出结果,对输出是否规范,返回提示信息。图4-15输出并返回通过上个图中代码的编写和实现,可以构造出对象与属性之间关系的图像,并且在代码实现过程中,具体讲解了每一部分,其中包括定义矩阵、滤波器和属性关联构造,将这些都直观清晰的体现在输出图像中,以此达到实现目的。4.3.4输出结果及解释通过将形式背景的输入,经过上述代码的编写和运行,可以将图像数据以及特征进行泛化和例化。将形式概念应用于其中,体现出了不同对象中的特征关联。图像中的节点和边以及边和边之间都有着相密切的关联。图4-16表示的是概念格的节点。通过对概念格节点的认识可以理解图像数据特征之间的关系,在输出结果中,可以通过节点的提示来更好的理解输出结果,体现各个对象之间特征的关系,充分体现了概念格应用于图像数据挖掘的历程。图4-16即为输出图像中节点表示,这样更有利于对于输出关系的理解。图4-16概念格节点表现图4-16中表示图4-17中的节点,是根据不同对象之间的特征关系所决定,并且在对节点有了清晰的认识后,才能更好的理解输出的结果图像,把图像中的特征关系显现出来。图4-17其中(a,136)代表着是a封面有1、3、6这三个属性,分别代表红色、黑色、线性图案。(b,123457)代表着是b封面有1、2、3、4、5、7这六个属性,分别代表红色、绿色、黄色、黑色、以及正方形和圆形图案。(c,148)代表着是c封面有1、4、8这三个属性,分别代表红色、黑色、三角图案。(e,12467)代表着是e封面有1、2、4、6、7这五个属性,分别代表红色、绿色、黑色、以及线形和圆形图案。经过这样的过程确定节点,可以更好的利用属性之间联系。经过概念格的构造来带入程序分析,利用过滤器等发掘出相关联系。为了更好的理解输出图像,根据输出结果表示出不同对象中特征的关系,可以清晰的从输出图像中反映出来。如图4-17所示:图4-17输出结果通过图4-17可以对输出结果起到很好的解释与说明的作用,可以通过输出结果的图像来表现出以上六本书籍封面特征的关联关系,在这六本书籍的封面特征中,都有着紧密的联系,并且共同特征占据大多数,所有他们各自之间都有着不可忽视的联系。正如图4-17所表示的一样,这个概念格输出结果完美的体现了基于形式概念分析对上文中不同书籍封面的图像数据挖掘所得到的直观表现,对六本书籍封面之间的特征关系进行了清晰呈现。这一应用为形式概念分析理论在图像数据挖掘中的发展提供很好的案例,对进一步联系和发现提供了很优化的方法。结论本论文对基于形式概念分析下的图像数据挖掘进行深入认识与扩展,文中将形式概念分析理论和图形数据挖掘建立联系,丰富了这一领域的研究。为了能够有直观的说明介绍,要通过具体应用来实现这一目的。本文的主要内容如下:本文介绍了图像数据挖掘和形式概念分析理论知识概述。从形式概念分析与图像挖掘的研究现状和发展趋势入手。总结了他们各自的特点,使特点呈现出条理化、清晰化、实例化。通过这种方法,这为本文后续分析奠定了坚实的基础,应用的方向更加明确。文中提出了从例化和泛化的关系中入手分析图像,使概念格理论的思想可以充分体现出来,展现出其独特的长处,为之后的应用提供了充分的理论依据。对图像挖掘研究进行实例化分析。本文将理论应用于首要进一步撰写,首要将二者有机联系。要达到这一目的,就要对二者都有很深刻的认识和发展。本文通过举例图像数据的实验,可以让学习者更加清晰地认识到论文的研究过程,并对多种算法的优缺点进行比较。本文通过对大量图像数据进行卷积神经网络应用,改变参数值来得到不同的准确率,并且通过这一实验实现对图像的分类,得到了识别准确率,这其中也应用到例化与泛化的思想。因此,可以在这个实践操作过程中,深入体会到了形式概念分析思想。对概念格的构造。本文详细讲解了概念的常用构造算法,并且介绍了其具体过程。通过具体的应用实践,针对不同花的品种,对其特征进行了分析总结,用图表的形式清晰简洁的构造出了形式背景,为下文中实验的输入做准备。同之前的研究中对于形式背景做出了更细致的讲解与分析。对图像数据挖掘与形式概念分析理论进行整合利用。其中概念格在图像数据中的应用主要体现在图像的特征中,针对图像中最具有代表性的特征进行了形式背景构造。通过对六本书籍封面的形式背景构造,可以清楚地体现出不同封面特征之间的关系,实现了对于图像数据进行概念分析的准备工作。经过本文的研究,本文重点构造了概念格。通过具体实例,寻找六本不同书籍封面的特征,构造出概念格并分析书籍之间的特征关系,实现了本次论文的研究目的。具体代码实现过程中应用绘制图的一些工具包,对图像的输出做准备。在研究中,通过解释过滤器概念等,编写程序,将上述图像的形式背景作为输入,经过1或0作为特征有无输入的表示,来比较和联系各个特征之间的关系从而生成图像来表示特征之间的关系,对图像的节点和边之间的关系都做出了研究并且使其在概念格图像中显现出来。这一阶段中概念格的构造是本论文的关键,但如果没有文中其余部分的研究发展,也不能完美构造出概念格,也不能如此高效的体现出他们特征之间的关联关系。因此,在本文中每一章节都是环环相扣,紧密联系,必不可少,只希望能够呈现出完整又清晰的研究链条。在这样的研究过程中,收获了一些应用成果,但还需要更深的研究和探讨,对于形式概念分析理论研究仍然是研究的重点。针对与图像数据的联系,以及进一步对特征概念格的构造也是关键之处,如何广泛的应用于图像和其他领域仍然是我们需要多多关注的。
参考文献[1]KavithaD,RaoBVM,KishoreBV.ASurveyonAssortedApproachestoGraphDataMining[J].InternationalJournalofComputerApplications,2011,14(1):43-46.[2]李新友.图像数据挖掘的预处理技术[J].河北旅游职业学院学报,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 雕塑材料创新与环境可持续性-深度研究
- 面向对象数据库优化-深度研究
- 黑白影像在数字交互艺术中的表现手法-深度研究
- 农业大数据挖掘与分析-第2篇-深度研究
- 智能照明控制系统设计-深度研究
- 代打属于合同范例
- 儿童社交技能培养策略-深度研究
- 业绩对赌协议合同范本
- 国际信息技术服务合同范本
- 加工车床租售合同范本
- 报价单完整版本
- JT-T-794-2019道路运输车辆卫星定位系统车载终端技术要求
- 【课件】勃兰登堡协奏曲Ⅱ+课件高一上学期音乐人音版(2019)必修音乐鉴赏
- G -B- 5009.11-2024 食品安全国家标准 食品中总砷及无机砷的测定(正式版)
- 小学四年级小数单位换算练习题100道
- ISO9001:2015供应商审核检查表英文版
- 2024年湖南生物机电职业技术学院单招职业技能测试题库及答案解析
- 苗木供货服务计划方案
- GB/T 28210-2024热敏纸
- 《谏逐客书》课后练习 统编版高中语文必修下册
- 煤矿机电设备培训课件
评论
0/150
提交评论