决策树算法在商标分类中的应用_第1页
决策树算法在商标分类中的应用_第2页
决策树算法在商标分类中的应用_第3页
决策树算法在商标分类中的应用_第4页
决策树算法在商标分类中的应用_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人工智能原理姓名:成成军学好:551000618813论文题目目:决策策树算法法在商标标分类中中的应用用中文摘要要:决策树一一般都是是自上而而下的来来生成的的。每个个决策或或事件(即自然然状态)都可能能引出两两个或多多个事件件,导致致不同的的结果,把这种种决策分分支画成成图形很很像一棵棵树的枝枝干。本本文将使使用决策策树算法法对给定定的商标标进行分分类。其其中有三三大类商商标数据据,每大大类使用用五分之之三的数数据进行行训练,使用五五分之二二的数据据进行测测试。我我们应用用Javva和MMySQQl数据据库进行行测试。用c44.5算算法构造造决策树树。最终终对数据据进行准准确率计计算。关键词:

2、 决决策树 分类类 商商标 测试Titlle: Deecissionn trree alggoriithmm off thhe aappllicaatioon ffor traademmarkk cllasssifiicattionn Absttracct:The deccisiion treee iis ccommmonlly ttop-dowwn tto ggeneeratte. Eacch ddeciisioon oor eevennts (naamelly nnatuurall sttatee) aare likkelyy too elliciit ttwo or morre eeve

3、nnts, leead to diffferrentt reesullts, puut tthiss deecissionn brrancch lloseer ggrapphiccs iis llikee a treee bbrannchees. Thiis aartiiclee wiill usee thhe ddeciisioon ttreee allgorrithhm ffor givven thee trradeemarrk oof cclasssifficaatioon. Theere aree thhreee kiindss off trradeemarrk ddataa, eea

4、chh off thhe ggrouups usiing thrree fiffthss off thhe ddataa too trrainn, uuse twoo fiifthhs oof tthe expperiimenntall daata. Wee usse JJavaa annd MMySQQL ddataabasse ttesttingg. UUse c4.5 ddeciisioon ttreee allgorrithhmss coonsttrucctioon. Finnallly, callcullatee thhe ddataa acccurracyy. Keywwordds

5、: Deecissionn trree cllasssifiicattionn bbrannd tesst引言:机器学习习一般分分为3种类型型:有监监督的、无监督督的以及及强化学学习【11】。有监督学学习问题题涉及从从它的输输入和输输出的实实例中学学习一个个函数。对于完完全可观观察的环环境,智智能体总总能够观观察到它它的行动动所带来来的影响响,因此此有监督督学习是是可行的的,否则则会困难难一些。无监督学学习问题题涉及在在未提供供明确的的输出值值的情况况下,学学习输入入的模式式。纯粹的的无监督督学习智智能体无无法学习习要做什什么,因因为它没没有信息息说明什什么能构构成正确确的行动动或者所所期望的

6、的状态。强化学习习问题,是三类类问题中中最普遍遍的一个个。强化化学习是是从强化化物(起起加强作作用的事事物)中中进行学学习,而而不是根根据教师师所说的的应该做做什么进进行学习习。正文:决策树方方法是挖挖掘分类类规则的的有效方方法,通通常包括括两个部部分:树的生生成,开开始时所所有的数数据都在在根节点点,然后后根据设设定的标标准选择择测试属属性,用不同的的测试属属性递归归进行数数据分割割。树的修修剪,就就是除去去一些可可能是噪噪音或异异常的数数据。基基于信息息熵的IID3算算法、CC45算法都都能有效效地生成成决策树树,建决决策树的的关键在在于建立立分支时时对记录录字段不不同取值值的选择择。选择

7、择不同的的字段值值使划分分出来的的记录子子集不同同影响决决策树生生长的快快慢及决决策树的的结构,从而可可寻找到到规则信信息的优优劣。可可见,决决策树算算法的技技术难点点就是选选择一个个好的分分支取值值。利用用好的取取值产生生分支可可加快决决策树的的生长,更重要要是产生生好结构构的决策策树,并并可得到到较好的的规则信信息。相相反,若若根据一一个差的的取值产产生分支支,不但但减慢决决策树的的生长速速度,而而且使产产生的决决策树分分支过细细、结构构差,从从而难以以发现有有用的规规则信息息。随着着训练样样本集中中样本个个数的不不断增多多(即样本本集规模模不断扩扩大),训练练样本集集在主存存中换进进换出

8、就就耗费了了大量的的时间,严重影影响了算算法效率率。因此此使算法法能有效效处理大大规模的的训练样样本集已已成为决决策树算算法研究究的一个个重要问问题,也也是目前前国内对对决策树树算法研研究的热热点。本本文利用用决策树树C4.5算法法来解决决图像的的分类问问题。现在我们们引用下下c4.5算法法的实例例【2】。C4 .5 算算法是构构造决策策树分类类规则的的一种算算法,它它是IDD3算法法的扩展展。IDD3算法法只能处处理离散散型的描描述性属属性而C4.5算法法还能够够处理描描述属性性取值为为连续型型的情况况。选取取节点的的标准是是最大信信息增益益率,具具体的算算法步骤骤如下:Steppl:数据源

9、源进行数数据预处处理,将将连续型型的属性性变量进进行离散散化处理理形成决决策树的的训练集集(如果连续续取值的的属性则则忽略);(1)根根据原始始数据,找到该该连续型型属性的的最小取取值a0大取值值an+11;(2) 在区间a ,b插插人n数数值等分分为n+l个小小区间;(3 )分别以以ai ,ii=1,2, ,n。为分分段点,将区间间a0,an+1划分为为两个子子区间:a0,aj, (ai+11,an+1)对应该该连续型型的属性性变量的的两类取取值,有有n种划分分方式;Ste p2 :计算每每个属性性的信息息增益和和信息增增益率;(1 )计算属属性A的信息息增益GGainn(A)信息增增益 G

10、Gainn(A)的计算算和IDD3算法法中的完完全一致致;(2 )计算属性A的信息息增益率率Gainn一Rattio( A)Gaiin一Rattio(A)=Gain(A)/I(AA )对于取值值连续的的属性而而言,分分别计算算以ai(i=1,2,n)为分分割点,对应分分类的信信息增益益率,选选择最大大信息增增益率对对应的aai,作为为该属性性分类的的分割点点。选择择信息增增益率最最大的属属性,作作为当前前的属性性节点,得到决决策树的的根节点点。Stepp3:根节点点属性每每一个可可能的取取值对应应一个子子集,对对样本子子集递归归地执行行以上SStepp2过程程,直到到划分的的每个子子集中的的观

11、测数数据在分分类属性性上取值值都相同同,生成成决策树树。Stepp4:根据构构造的决决策树提提取分类类规则,对新的的数据集集进行分分类。类似算法法的主要要思想都都是,逐逐步找出出能够为为各个层层次的分分类提供供最大信信息量的的变量,由此可可以确定定决策树树从根到到枝,再再从枝到到叶的结结构。决决策树生生成的过过程也就就是对训训练数据据集迸行行分类的的过程。现在分析析给出的的商标,建立数数据库。并建立立表:其中idd是主键键。属性性包括:cirrclee、reectaanglle、ttriaanglle、cconnnectt、obbjecct。分别是圆圆、长方方形、三三角形、组合行行、所属属分类

12、。接着用33/5的的数据作作为训练练集,22/5的的数据集集作为测测试集。对所有有商标进进行定义义属性,并保存存到数据据库中。如下:由于数据据量比较较大,这这里就不不全部列列出,接接着用ssql语语句对数数据查询询,比如如要查询询从idd1id1100中中cirrclee属性都都是1的的个数是是多少:Seleect summ(ciirclle)Fromm brranddWherre iid0 andd ciirclle=11接着根据据c4.5算法法计算得得到:GainnRatticiirclle(AA)=00.23321221311GainnRattiReectaangee(A)=6.4411

13、231121GainnRattitrriannglee(A)=2.91189228377GainnRattiocconnnectt(A)=5.3244123321结论:根据c44.5算法法,增益益率高的的作为分分界点,则我们们可以得得到决策策树的结结构:Rectangle R=0 R=1Object2connectC=1 C=0Object3Object1最后对训训练集和和测试测测试集进进行准确确率计算算:在数据库库中使用用查询:Seleect *Fromm brranddWherre rrecttanggle=0 aand objjectt=2用球的值值除以测测试集的的60,就是正正确率。最终的的结果是是:类第一类第二类第三类正确率71.776%78.665%86.66%训练集接着用同同样的方方法对测测试集进进行测试试,得:类第一类第二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论