




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多媒体数据挖掘WEB挖掘一.多媒体数据挖掘的概念 多媒体数据挖掘是:将数据挖掘技术和多媒体信息处理技术有机地结合起来形成的在多媒体数据中进行知识发现的信息处理方法。从大量的多媒体数据集中,通过综合分析视听特性和语义,发现隐含的、有效的、有价值的、可理解的模式,得出事件的趋向和关联,为用户提供问题求解层次的决策支持能力。 基于多媒体数据的内容特性C,以及这些特性的相关语义,从大型多媒体集M中,发现和分析出隐含的、有效的、有价值的、可理解的模式P。可以抽象地把挖掘用多维特征空间的一种映射f来表示: f(M|C)P 图像挖掘图像挖掘 (视觉特性(视觉特性, ,空间特性)空间特性) 视频挖掘(时间特性
2、视频挖掘(时间特性, ,视频对象特性视频对象特性, ,运动特性)运动特性) 音频挖掘音频挖掘 WEB WEB挖掘(内容挖掘挖掘(内容挖掘, ,结构挖掘结构挖掘, ,日志挖掘)日志挖掘) 多媒体综合挖掘多媒体综合挖掘( (挖掘过程的各阶段,综合利用多媒挖掘过程的各阶段,综合利用多媒 体的特性进行知识发现。使有机的复合效果大体的特性进行知识发现。使有机的复合效果大 于效果之和于效果之和) )二二. .多媒体挖掘的内容多媒体挖掘的内容1.Web1.Web数据挖掘数据挖掘 Web Mining (Web挖掘)这个术语是由Etzioni于1996年首先提出来的。Web数据挖掘是数据挖掘技术在Web上的应
3、用,它利用数据挖掘技术从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。2. Web2. Web数据挖掘的分类数据挖掘的分类 作为Web的对象,Web数据包含了内容数据(content data)、结构数据(structure data)和日志数据(usage data)三种类型。因此,根据Web数据源类型的不同,Web挖掘可以分为:Web内容挖掘(Web Content Mining), Web结构挖掘(Web Structure Mining)和Web日志挖掘(Web UsageMining).Web数
4、据挖掘如图所示:2.1 Web内容挖掘 是对Web页面数据(包括文本、图像、音频、视频、多媒体和其他各种类型的数据)的挖掘。Internet有各种类型的服务和数据源,如:WWW, FTP, Telnet等,现在有更多的内容如:政府信息服务、数字图书馆、电子商务数据及其他各种通过Web形式访问的数据库。 Web内容挖掘一般从两个角度进行研究:从用户的角度,研究怎样提高信息质量和帮助用户过滤信息;从DB的角度,研究怎样对Web上的数据进行集成、建模,以支持对Web数据的复杂查询。 Web内容挖掘是从Web资源中发现信息或知识的过程。在创建个性化服务系统时,人们通常应用Web内容挖掘对网页内容进行分
5、析,其中网页的自动分类技术在搜索引擎、数字化图书馆等领域得到了广泛的应用。2.2 Web结构挖掘 Web结构挖掘的对象是Web本身的超连接,包括页面内部的结构以及页面之间的结构。对于给定的Web文档集合,运用引用分析方法找到同一网站内部以及不同网站之间的连接关系,通过算法发现他们之间连接情况的有用信息。挖掘Web结构信息对于导航用户浏览行为、改进站点设计评价页面的重要性等都非常重要。Web结构挖掘通常需要整个Web的全局数据,因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。如一个站点的入链数目远大于出链数目,那么这个站点可能是服务器;如果一个页面经常被引用,那么可以反映该页面的流行
6、程度和重要性等。2.3 Web日志挖掘(Web usage Mining) Web日志挖掘的对象是Web使用记录数据,除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录,因此Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。通过挖掘相关的Web日志记录,从中发现用户访问Web页面的模式;通过分析日志记录中的规律,来识别用户的忠实度、喜好、满意度,从中发现潜在用户,增强站点的服务竞争力。 Web日志挖掘对源数据的处理方法可以分为两类,一种是将Web使用记录数据转换并传递
7、进传统的关系表里,再使用数据挖掘算法进行常规挖掘;另一种是将Web使用记录数据直接预处理再进行挖掘。 Web日志挖掘技术通常可以应用到两个领域:当用来分析Web服务器的访问日志时,可以利用挖掘得到的服务模型来设计适应性Web站点;当应用到单个用户时,通过分析用户的访问历史来发现有用的用户访问模式。Web日志挖掘由于处理数据对象通常为用户的访问历史或服务器的访问日志,无法得知数据对象代表的内容,得到的结果一般比较粗糙,但是由于该方法比较成熟而且实现起来也较内容挖掘简单,在个性化系统中也得到了较广泛的应用。3.WEB数据挖掘的流程 数据采集 数据预处理 模式挖掘 模式评估 3.1数据采集 Web挖
8、掘的数据源来自于Web页面上的信息、Web访问形式的数据库、Web页面内部的结构以及页面之间的结构信息以及Web服务器上的使用记录数据,如服务器日志、用户会话信息、交易信息等。Web数据挖掘,针对不同的采集对象,需要应用不同的数据采集技术。3.2数据预处理 一般收集的数据都具有不一致性、冗余性、模糊性及不完整性,需要对收集的数据进行必要的预处理,清除“脏”数据,准备正确、完整、干净的数据源,通过挖掘算法,获得真实有效的挖掘模式。数据预处理主要包括: (1)数据清理:填充遗漏值,平滑噪声数据,识别离群点和删除噪声数据,修正不一致数据; (2)数据集成:将多个数据库或文件,整合成语义完整的数据集,
9、监测和消除数值冲突,消除重复和冗余的数据; (3)数据转换:从数据中删除噪声,给特定的属性构造新的属性; (4)数据离散化:针对数值型数据,将一个连续的范围划分成多个区间。3.3模式挖掘 应用不同的Web挖掘算法或机器学习技术发现用户访问模式。常用的挖掘技术主要有以下几种: (1)回归分析:主要用于了解自变量(independent variable)与因变量(dependent variable)间的数量关系。主要目的:1)了解自变量与因变量关系方向及强度。2)以自变量建立模型对因变量作预测。 (2)关联规则:分析发现数据库中不同变量或个体之间的关系程度(概率大小),用这些规则找出行为模型。
10、关联规则中的两个重要参数是:支持度(Support)和可信度(Confidence)。Apriori算法,利用循序渐进的方式,找出数据库中项目的关系,以形成规则,是最具代表性的算法之一。 (3)聚类分析:统计学家通常应用聚类分析法来对数据做简化的工作及分类,从而把相似的个体(观测物)归于一类。 (4)决策树分析:利用概率论的原理,并且利用树形图作为分析工具(用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果),经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。 (5)时间序列分析:从大量的时间数据序列中提取人们不知道的,但潜在有用的、与
11、时间相关的信息,用于揭示其内在规律(如波动的周期、振幅、趋势的种类等),进而完成预测行为,指导未来决策。3.4模式评估 对挖掘得出的所有模式进行分析、评价、解释,并将有趣模式转化为可直观表示的形式。4.Web数据挖掘的主要应用 目前,Web数据挖掘的研究重点已从理论转向实际应用。4.1Web数据挖掘的理论研究方向: 动态更新; Web知识库维护;内在机制研究;专注多媒体挖掘,研发出高效算法;图像、文本对应的挖掘算法(结构、半结构下) 搭建自组织网站时,对序列模式、关联规则进行细致研究。4.2 Web数据挖掘技术应用于电子商务中 对电子商务中的Web日志和访问内容进行挖掘,可以针对不同的客户提供个性化的产品、挽留老客户、发现潜在的新客户、改进站点设计方便客户浏览、向顾客推荐商品和引导客户购买商品。4.3 Web数据挖掘技术应用于搜索引擎中 利用Web数据挖掘技术,提高Web检索的速度和准确率,更好的满足用户的个性化需求,如:页面文本自动分类提高检索速度;对页面的权威度进行计算和排序,使用户优先看到权威度高的页面;通过分析用户历史浏览信息发现用户兴趣偏好。4.4应用于知识服务中 利用Web挖掘技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年高中语文 第2单元 置身诗境缘景明情 10 登岳阳楼教学设计 新人教版选修《中国古代诗歌散文欣赏》
- 九年级物理上册 第一章 分子动理论与内能 2 内能和热量教学设计 (新版)教科版
- 九年级化学上册 第七单元 燃料及其利用 课题1 燃烧和灭火示范教学设计 (新版)新人教版
- 6 徽 章(教学设计)苏教版二年级下册综合实践活动
- 2024-2025学年高中生物 专题2 课题3 分解纤维素的微生物的分离教学设计 新人教版选修1
- 16《宇宙的另一边》教学设计-2023-2024学年三年级下册语文统编版
- 2023三年级英语上册 Module 3 Places and activities Unit 9 In my room教学设计 牛津沪教版(三起)
- Unit 5 China and the World. Topic 3 Now it is a symbol of England Section D 教学设计 2024-2025学年仁爱科普版英语九年级下册
- 一年级语文上册 第六单元 课文2 语文园地六教学设计 新人教版
- 《活动6 我的鞋子真干净》(教案)-2024-2025学年三年级上册劳动北师大版
- 公文写作与处理课件
- 2025届高三部分重点中学3月联合测评(T8联考)地理试卷(河北版含答案)
- 第5.2课《飞向太空的航程》(教学课件)-【中职专用】高一语文同步课堂
- 2024安全与韧性术语
- 工程结算表单模板
- DB65∕T 4492-2022 和田玉(白玉)分级
- 超星尔雅学习通《大学生职业发展与就业指导(仁能达教育科技公司)》2020章节测试含答案(下)
- 2019外研社高中英语必修二课文翻译
- 八年级(上)生物实验通知单
- 一年级上册科学课件-1.3 观察叶(3) l 教科版 (共14张PPT)
- 40万吨年NaCl蒸发工段设计——毕业设计
评论
0/150
提交评论