数据挖掘data mining DMQL_第1页
数据挖掘data mining DMQL_第2页
数据挖掘data mining DMQL_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘data mining DMQL一. 任务相关数据说明的语法 定义数据挖掘任务的第一步是说明任务相关的数据.这涉及包含相关数据的数据库和表或数据仓库,选择相关数据的条件,探查的相关属性或维,以及关于检索数据的排序和分组的指令.DMQL提供一些子句来说明这些信息,如下所述: 1. use database <database_name> or use data warehouse<data_warehouse_name>/use子句将数据挖掘任务指向说明的数据库或数据仓库. 2. from<relation(s)/cube(s)>where<co

2、ndition>/from 和where子句分别指定所涉及的表或数据立方体和定义检索数据的条件 3. in relevance to <attribute_or_dimension_list>:该子句列出要探查的属性和维 4. order by <order_list>:order by 子句说明任务相关的数据排序的次序 5. group by<grouping_list>: group by 子句说明数据分组的标准 6. having <condition>:having 子句说明相关数据分组条件这些子句形成一个SQL查询,收集任务相关的

3、数据二指定挖掘知识类型的语法<Mine_Knowledge_Specification>语句用语说明挖掘知识的类型也就是说,他指定用于执行的挖掘函数1.特征化 <Mine_Knowledge_Specification>:= mine characteristicsas<pattern_name> analyze<measure(s)> 这说明挖掘的特征描述当用于特征化时,analyze字句指定聚集度量,如count,sum ,or count%(百分比技术,即指定的特征在相关数据元组中的百分比)这些度量将对每个找到的数据特征进行计算2.区分&l

4、t;Mine_Knowledge_Specification>:= mine comparison as <pattern_name> for <target_class> where <target_condition> versus <contrast_class_i> where<contrast-condition_i> analyze<measure(s)>这说明挖局区分描述区分给定的目标类的对象与一个或多哥对比类的对象进行比较因此,这类知识也称为比较与特征化一样,analyze子句指定聚集度量,如coun

5、t,sum ,or count%,将对每个描述进行计算和显示3.关联<Mine_Knowledge_Specification>:=mine associationsas<pattern name> matching<met pattern> 这说明关联模式的挖掘在说明关联挖掘时,用户可以选用matching子句,提供模板(又称元模式或元规则)元模式可以用来将发现集中于与给定元模式匹配的模式,从而强化了对挖掘任务的句法限制除提供了用户有兴趣探查的数据束或假定元模式对于关联规则的挖掘最有用,因为产生的潜在规则树木太大4.分类<Mine_Knowledge

6、_Specification>:=mine classificationas<pattern_name> analyze <classifying_attribute_or_dimension> 这说明挖掘数据分类模式analyze字句说明根据 <classifying_attribute_or_dimension>的值进行分类对于分类属性或维,每个值代表一个类对于数值属性或维,每个类可以用一个值区间定义分类提供了一个简明的框架,它最好的描述了每个类并将他们与其他类相区别三、用于挖掘过程的背景知识:概念分层语句use hierarchy < hi

7、 > for < attributeor.dimension > 说明概念分层的使用。语句define hierarchy < > on < relation.or.cube.or.hierarchy > as < hierarchy.description > 说明概念分层的定义。Eg:define hierarchy location_hierarchy on location as street ,city, province, countrydefine hierarchy ag

8、e_hierarchy for age on customer as levl1:young, middle_age, senior < level0:alllevel2:2039<level:younglevel2:4059<level:middle_agelevel2:6089<level:senior四、评估模式的兴趣度度量和阈值语句with < interest_measure_name > = threshod 说明模式的兴趣度度量及其阈值。置信度、支持度、噪声、新颖度with support threshold = 5%with confiden

9、ce threshold = 70%五、可视化发现模式的期望表示语句display as < result form > 说明挖掘模式的期望表示。规则、表、饼图、立方体、曲线六、为了方便用户在不同的角度或者不同的概念层观察发现的模式,用户可以使用上卷、下钻、添加或丢弃属性或维等操作。Multilevel_Maniplution : = roll up on attribute_or_dimension| drill down on attribute_or_dimension| add attribute_or_dimension|drop attribute_or_dimensi

10、on一个完整的例子:数据库AllElectronics.db表customer (cust.ID , name , address , age , income , ,.)表item(item.ID , name , brand ,.)表employee(empl.ID , name , category ,.)表purchase ( trans.ID , cust.ID , empl.ID , .)表branch ( branch.ID , name , address)表items.sold ( ( trans.ID , item.ID , qty)表works.a

11、t ( empl.ID ,branch.ID )use database AllElectronics.dbuse hierarchy location_hierarchy for B_addressmine characteristics as customerPurchasinganalyze count %in relevance to C.age, I.type, I.place.madefrom customer C, item I, purchases P, items.sold S, works.at W, branch Bwhere I.item.ID = S.item.ID

12、and S.trans.ID = P.trans.ID and P.cust.ID = C.cust.ID and P.method.paid =“AmEx”and P.empl.ID = W.empl.ID and I.price > = 100 and W.branch.ID = B.branch.ID and B.address =“Canada”with noise threshold = 5%display as table数据聚焦:In relevance to Eg:Use Big_Universyty_DBMine characterics as “Science_Stuedets” /特征化In relevance to name, gender,major, birth

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论