数据挖掘知识点430_第1页
数据挖掘知识点430_第2页
数据挖掘知识点430_第3页
数据挖掘知识点430_第4页
数据挖掘知识点430_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘知识点:一、数据挖掘是从大量的数据中挖掘那些令人感兴趣的有用的隐含的先前未知的和不可能有用的模式和知识。数据库DB系统最主要的功能:数据存储、查询处理、事物处理。数据挖掘的主要功能:关联分析、时序模式、聚类分析、分类、偏差检测、预测数据预处理:是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度。数据预处理功能:数据集成,数据清理,数据变换,数据简化。二、数据挖掘的基本算法:1、分类:分类的目的是构造一个分类函数或分类模型(分类器) ,该模型能把数据库中的数据项映射到某一个给定类别。分类定义:给定数据库 D={t1,t2,⋯,tn},元组ti D,类的集合C=C1,⋯⋯,Cm},分类问题定义为从数据库到类集合的映射f:DC,即数据库中的元组ti分配到某个类Cj中,有Cj={ti|f(ti)=Cj,1≤i≤n,且ti∈D}。ID3算法:ID3算法是国际上最具影响和最早的决策树算法。首先通过检验数据库中的所有字段,找出具有最大信息增益 Gian(A)的字段作为决策树碑的一个结点,再根据字段的不同取值建立树的分支,对每个子集分支重复建立下层结点和分支,直到某一子集的结果属于同一类。信息量计算公式:I(s1,s2,⋯⋯,sm)=-∑Pilog2(pi)(i=1,⋯,m)(S是s个数据样本的集合。类别属性具有 m个不同值Ci。si是类Ci中的样本数。pi是任意样本属于类别 Ci的概率,并用si/s估计。)由非类别属性A划分为子集的熵(也叫做信息熵)计算公式为:E(A)=∑(s1j+⋯⋯+smj)/s*I(s1j,⋯⋯,smj)(非类别属性A具有v个不同值{a1,a2,⋯,av}。利用属性A将集合S划分为v个子集{S1,S2,⋯,Sv};其中Sj包含S集合中在属性A上具有值aj的数据样本。Sij是子集Sj中类Ci的样本数(Sij是子集Sj中类Ci的样本数)。)信息增益:Gain(A)=I(s1,s2,⋯⋯,sm)-E(A)例题:DayoutlookTemperatuHumidityWindPlayballre1晴HotHighWeakNo2晴HotHighStrongNo3多云HotHighWeakYes4有雨mildHighWeakYes5有雨CoolNormalWeakYes6有雨CoolNormalStrongNo7多云CoolNormalStrongYes8晴mildHighWeakNo9晴CoolNormalWeakYes10有雨mildNormalWeakYes11晴mildNormalStrongYes12多云mildHighStrongYes13多云hotNormalWeakYes14有雨mildHighStrongNo类C1运动=“适合”,类C2对运动=“不适合”I(s1,s2)=I(9,5)=0.940计算属性天气的熵::E(天气)5I(2,3)4I(4,0)14145I(3,2)0.97114Gain(天气) I(s1,s2) E(天气)0.246天气C1C2I(pi,ni)晴朗230.971多云400有雨320.971

Gain(温度) 0.029Gain(湿度) 0.151Gain(风况) 0.048贝叶斯分类方法:贝叶斯分类方法是一种基于统计的学习方法,利用概率统计进行学习分类,如预测一个数据对象属于某个类别的概率。贝叶斯定理:P(H|X)

P(X|H)P(H)P(X)主要算法:朴素贝叶斯分类、贝叶斯信念网络分类算法等。朴素贝叶斯分类:朴素贝叶斯分类算法利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别。原理:(1)设样本有n个属性(A1,A2,...,An),每个样本可看作是 n维空间的一个点X=(x1,x2,...,xn)。(2)假定有m个不同的类别,C1,C2,....Cm。X是一个未知类别的样本。预测X的类别为后验概率最大的那个类别,即算法将未知类别的样本 X归到类Ci,当且仅当P(Ci|X)>P(Cj|X),对于所有的j成立(1≤j≤m,j≠i)即P(Ci|X)最大。3)根据贝叶斯定理得知P(Ci|X)=P(X|Ci)P(Ci)/P(X)。P(X)对于所有类为常数,因此只需 P(X|Ci)P(Ci)取最大即可类的先验概率P(Ci)由P(Ci)=si/s估算Si训练样本中属于类 Ci的样本数,s全部训练样本的样本数。(4)给定具有多属性的数据集,计算 P(x|Ci)的开销可能非常大,为降低计算P(x|Ci)的开销,朴素贝叶斯做了类条件独立假设,即假定一个属性值对给定类的影响独立于其他属性值,属性之间不存在依赖关系,则:P(X|Ci)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)5)对未知样本X分类,对每个类Ci,分别计算P(X|Ci)P(Ci)。样本X被指派到类Ci,当且仅当P(X|Ci)P(Ci)>P(X|Cj)P(Cj), (1≤j≤m,j≠i)即X被指派到其P(X|Ci)P(Ci)最大的类Ci。算法描述:函数名:NaiveBayes输入:类别号未知的样本 X={x1,x2,⋯xn}输出:未知的样本 X所属类别号forj=1tom计算X属于每个类别Cj的概率P(X|Cj)=P(x1|Cj)P(x2|Cj)...P(xn|Cj);(3)计算训练集中每个类别Cj的概率P(Cj);(4)计算概率值Q=P(X|Cj)*P(Cj);endfor选择计算概率值Q最大的Ci(1<=i<=m)作为类别输出。例题:DayoutlookTemperatuHumidityWindPlayballre1晴HotHighWeakNo2晴HotHighStrongNo3多云HotHighWeakYes4有雨mildHighWeakYes5有雨CoolNormalWeakYes6有雨CoolNormalStrongNo7多云CoolNormalStrongYes8晴mildHighWeakNo9晴CoolNormalWeakYes10有雨mildNormalWeakYes11晴mildNormalStrongYes12多云mildHighStrongYes13多云hotNormalWeakYes14有雨mildHighStrongNo使用朴素贝叶斯算法预测未知样本:x={rainy,hot,normal,weak,?}属性play为yes还是no的概率。1、P(play=yes|x)=P(x|play=yes)*P(play=yes)=P(x1|play=yes)*P(x2|play=yes)*...*P(x4|play=yes)*P(play=yes)P(x1|play=yes)=P(outlook=rainy|play=yes)=3/9P(x2|play=yes)=P(tem=hot|play=yes)=2/9P(x3|play=yes)=P(humidity=normal|play=yes)=6/9P(x4|play=yes)=P(wind=weak|play=yes)=6/9所以,P(play=yes|x)=3/9*2/9*6/9*6/9*9/14=0.0212、P(play=no|x)=P(x|play=no)*P(play=no)=P(x1|play=no)*P(x2|play=no)*⋯*P(x4|play=no)*P(play=no)P(x1|play=no)=P(outlook=rainy|play=no)=2/5P(x2|play=no)=P(tem=hot|play=no)=2/5P(x3|play=no)=P(humidity=normal|play=no)=1/5P(x4|play=no)=P(wind=weak|play=no)=2/5所以,P(play=no|x)=2/5*2/5*1/5*2/5*5/14=0.0045拉普拉斯 (Laplace):朴素贝叶斯分类算法在计算概率的时候存在概率 =0,及概率值可能很小的情况,所以,在某些情况下,需要考虑条件概率的 Laplace估计和解决小概率相乘溢出问题。条件概率=0,用条件概率的Laplace估计。Laplace估计定义:P(Xi|Yj)=(nc+l*p)/(n+l)N是类Yj中的实例总数,nc是类Yj的训练样例中取值为 Xi的样例数,l p例题:序号 是否有房 婚姻状况 年收入 拖欠贷款1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes当条件概率为0时,用Laplace估计求X=(yes,single,80k,?)拖欠贷款的属性为yes还是no的概率。设是否有房为x1,婚姻状况为x2,年收入为x3.1)P(拖欠贷款=yes|x)=P(x|拖欠贷款=yes)×P(拖欠贷款=yes)=P(x1|拖欠贷款=yes)× P(x2|拖欠贷款=yes)×P(x3|拖欠贷款=yes)×P(拖欠贷款=yes)P(x1|拖欠贷款=yes)=(0+3×1/3)/3+3=1/6P(x2|拖欠贷款=yes)=2/3P(x3|拖欠贷款=yes)=180-90=0.5892yes22cix3(平均)=(95k+85k+90k)/3=90k2)P(拖欠贷款=no|x)=P(x|拖欠贷款=no)×P(拖欠贷款=no)=P(x1|拖欠贷款=no)×P(x2|拖欠贷款=no)×P(x3|拖欠贷款=no)P(拖欠贷款=no)P(x1|拖欠贷款=no)=3/7P(x2|拖欠贷款=no)=2/7180-110P(x3|拖欠贷款=no)=2no2=2ciX3(平均)=(125k+100k+70k+120k+60k+220k+75k)=110k2、聚类a)聚类(Clustering)是一个将数据集划分为若干组( class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。b)有关的聚类方法(类型)主要有:划分类方法、分层类方法、基于密度类方法、基于网格类方法和基于模型类方法。c)聚类和分类的相同点和不同点分析:一是按照定义区分;二是聚类不依赖于预先定义好的类,它要划分的是未知的;是无指导学习,聚类是观察式学习,而不是示例式学习。(聚类又称分段,是一种对具有共同趋势和模式的数据元组进行分组的方法。)d)无论如何最大程度的实现类中对象相似度最大,类间相似度最小是聚类分析的指导思想。e)数据挖掘对聚类算法的典型要求如下:可伸缩性处理不同类型属性的能力发现任意形状的聚类需要(由用户)决定的输入参数最少处理噪声数据的能力对输入记录顺序不敏感高维问题基于约束的聚类可解释性和可用区间标度变量计算方法:数据标准化:计算绝对偏差的平均值sf1(|xmf||xmf|...|xmf|)n1f2fnfmf1(xx...x).n1f2fnf计算标准度量值(z-score):zifxifmfsf二元变量计算方法:一个二元变量只有两个状态0或1,0表示该变量为空,1表示该变量存在。两个变量0和1没有优先权,则二元变量为对称,相反,如果两个状态输出不是同等重要,那么该二元变量是不对称的。对称的二元变量计算其相异度公式d(i,j)=(r+s)/(q+r+s+t)非对称的二元变量:d(i,j)=(r+s)/(q+r+s )其中q表示对象i和j都为1的变量数目,r是对象i为1而对象j为0的变量数目。s是对象i为0对象j为1的变量数目,t是对象i和j都为0的变量数目。变量的总数是p=q+r+s+t。例题:计算相异度:Name是对象标识,gender是对称的二元变量,其余的属性都是非对称的二元变量。(计算非对称二元变量)d(Jack,Mary)=(0+1)/(2+0+1)=0.33d(Jack,Jim)=(1+1)/(1+1+1)=0.67d(Jim,Mary)=(1+2)/(1+1+2)=0.75上面的值显示Jim和Mary不可能有相似的疾病,因为他们有着最高的相似度。在这三人中,Jack和Mary最有可能有类似的疾病。相对于对称的二元变量,不对称的二元变量基于不对称的二元变量的相似度称为非恒定的相似度,且变量的两个状态的重要性不同,可用 d(i,j)=(b+c)/(a+b+c)当我被上帝造出来时,上帝问我想在人间当一个怎样的人,我不假思索的说,我要做一个伟大的世人皆知的人。于是,我降临在了人间。我出生在一个官僚知识分子之家,父亲在朝中做官,精读诗书,母亲知书答礼,温柔体贴,父母给我去了一个好听的名字:李清照。小时侯,受父母影响的我饱读诗书,聪明伶俐,在朝中享有 “神童”的称号。小时候的我天真活泼,才思敏捷,小河畔,花丛边撒满了我的诗我的笑,无可置疑,小时侯的我快乐无虑。“兴尽晚回舟,误入藕花深处。争渡,争渡,惊起一滩鸥鹭。 ”青春的我如同一只小鸟,自由自在,没有约束,少女纯净的心灵常在朝阳小,流水也被自然洗礼,纤细的手指拈一束花,轻抛入水,随波荡漾,发髻上沾着晶莹的露水,双脚任水流轻抚。身影轻飘而过,留下一阵清风。可是晚年的我却生活在一片黑暗之中,家庭的衰败,社会的改变,消磨着我那柔弱的心。我几乎对生活绝望,每天在痛苦中消磨时光,一切都好象是灰暗的。“寻寻觅觅冷冷清清凄凄惨惨戚戚 ”这千古叠词句就是我当时心情的写照。最后,香消玉殒,我在痛苦和哀怨中凄凉的死去。在天堂里,我又见到了上帝。上帝问我过的怎么样,我摇摇头又点点头,我的一生有欢乐也有坎坷,有笑声也有泪水,有鼎盛也有衰落。我始终无法客观的评价我的一生。我原以为做一个着名的人,一生应该是被欢乐荣誉所包围,可我发现我错了。于是在下一轮回中,我选择做一个平凡的人。我来到人间,我是一个平凡的人,我既不着名也不出众,但我拥有一切的幸福:我有温馨的家,我有可亲可爱的同学和老师,我每天平凡而快乐的活着,这就够了。天儿蓝蓝风儿轻轻,暖和的春风带着春的气息吹进明亮的教室,我坐在教室的窗前,望着我拥有的一切,我甜甜的笑了。我拿起手中的笔,不禁想起曾经作诗的李清照,我虽然没有横溢的才华,但我还是拿起手中的笔,用最朴实的语言,写下了一时的感受:人生并不总是完美的,每个人都会有不如意的地方。这就需要我们静下心来阅读自己的人生,体会其中无尽的快乐和与众不同。“富不读书富不久,穷不读书终究穷。 ”为什么从古到今都那么看重有学识之人?那是因为有学识之人可以为社会做出更大的贡献。那时因为读书能给人带来快乐。自从看了《丑小鸭》这篇童话之后,我变了,变得开朗起来,变得乐意同别人交往,变得自信了⋯⋯因为我知道:即使现在我是只 “丑小鸭”,但只要有自信,总有一天我会变成 “白天鹅”的,而且会是一只世界上最美丽的 “白天鹅”⋯⋯我读完了这篇美丽的童话故事,深深被丑小鸭的自信和乐观所折服,并把故事讲给了外婆听,外婆也对童话带给我们的深刻道理而惊讶不已。还吵着闹着多看几本名着。于是我给外婆又买了几本名着故事,她起先自己读,读到不认识的字我就告诉她,如果这一面生字较多,我就读给她听整个一面。渐渐的,自己的语文阅读能力也提高了不少,与此同时我也发现一个人读书的乐趣远不及两个人读的乐趣大,而两个人读书的乐趣远不及全家一起读的乐趣大。于是,我便发展“业务”带动全家一起读书⋯⋯现在,每每遇到好书大家也不分男女老少都一拥而上,争先恐后 “抢书”,当我说起我最小应该让我的时候,却没有人搭理我。最后还把书给撕坏了,我生气地哭了,妈妈一边安慰我一边对外婆说:“孩子小,应该让着点。”外婆却不服气的说:“我这一把年纪的了,怎么没人让我呀? ”大家人你一言我一语,谁也不肯相让 ⋯⋯读书让我明白了善恶美丑、悲欢离合,读一本好书,犹如同智者谈心、谈理想,教你辨别善恶,教你弘扬正义。读一本好书,如品一杯香茶,余香缭绕。读一本好书,能使人心灵得到净化。书是我的老师,把知识传递给了我;书是我的伙伴,跟我诉说心里话;书是一把钥匙,给我敞开了知识的大门;书更是一艘不会沉的船,引领我航行在人生的长河中。其实读书的真真乐趣也就在于此处,不是一个人闷头苦读书;也不是读到好处不与他人分享,独自品位;更不是一个人如痴如醉地沉浸在书的海洋中不能自拔。而是懂得与朋友,家人一起分享其中的乐趣。这才是读书真正之乐趣呢!这所有的一切,不正是我从书中受到的教益吗?我阅读,故我美丽;我思考,故我存在。我从内心深处真切地感到:我从读书中受到了教益。当看见有些同学宁可买玩具亦不肯买书时,我便想到培根所说的话:“世界上最庸俗的人是不读书的人,最吝啬的人是不买书的人,最可怜的人是与书无缘的人。 ”许许多多的作家、伟人都十分喜欢看书,例如毛泽东主席,他半边床上都是书,一读起书来便进入忘我的境界。书是我生活中的好朋友,是我人生道路上的航标,读书,读好书,是我无怨无悔的追求。下午13:00—17:00度。全体员工都必须自觉遵守工作时间,实行不定时工作制的员工不必打卡。打卡次数:一日两次,即早上上班打卡一次,下午下班打卡一次。打卡时间:打卡时间为上班到岗时间和下班离岗时间;因公外出不能打卡:因公外出不能打卡应填写《外勤登记表》 ,注明外出日期、事由、外勤起止时间。因公外出需事先申请,如因特殊情况不能事先申请,应在事毕到岗当日完成申请、审批手续,否则按旷工处理。因停电、卡钟(工卡)故障未打卡的员工,上班前、下班后要及时到部门考勤员处填写《未打卡补签申请表》 ,由直接主管签字证明当日的出勤状况,报部门经理、人力资源部批准后,月底由部门考勤员据此上报考勤。上述情况考勤由各部门或分公司和项目文员协助人力资源部进行管理。3.1.2.5手工考勤制度3.1.2.6手工考勤制申请:由于工作性质,员工无法正常打卡(如外围人员、出差),可由各部门提出人员名单,经主管副总批准后,报人力资源部审批备案。3.1.2.7参与手工考勤的员工,需由其主管部门的部门考勤员(文员)或部门指定人员进行考勤管理,并于每月26日前向人力资源部递交考勤报表。3.1.2.8参与手工考勤的员工如有请假情况发生,应遵守相关请、休假制度,如实填报相关表单。3.1.2.9外派员工在外派工作期间的考勤,需在外派公司打卡记录;如遇中途出差,持出差证明,出差期间的考勤在出差地所在公司打卡记录;3.2加班管理定义加班是指员工在节假日或公司规定的休息日仍照常工作的情况。.现场管理人员和劳务人员的加班应严格控制,各部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论