




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Web挖掘基础提纲Web挖掘的概念Web内容挖掘Web结构挖掘Web日志挖掘知识WWWWeb 挖掘的挑战Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level CollectionWeb数据的复杂性高于传统的文本文档Web是一个动态性极强的信息源Web面对的是一个广泛的用户群体Web上的信息只有很小的一部分是相关的或有用的Web挖掘与IRWeb上的IR是Web挖掘的一个方面,仅是对信息有序化。Web挖掘是智能化的IR,IR出现早,技术成熟。Web挖掘概念Web挖掘是从大量Web文档的集合C中发现隐含的、有用的
2、模式P的过程:CP 。Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等 。Web挖掘分类 Web挖掘类项目Web内容挖掘Web结构挖掘Web日志挖掘处理数据类型IR方法:无结构数据、半结构数据Web结构数据用户访问Web数据主要数据自由化文本、HTML标记的超文本Web文档内及文档间的超链Serverlog,Proxy serverlog,Client log表示方法词集、段落、概念、IR的三种经典模型图关系表、图处理方法统计、机器学习、自然语言理解机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发
3、现页面权重分类聚类模式发现Web站点重建,商业决策Web内容挖掘 基于网页内容或其描述中抽取知识的过程。Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。日志的预处理IP AddressTime/DateMethod/URIReferrerAgent15:30:01/2-Jan-01GET Index.htm/link.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET 1.htm/index.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET A.htm/ind
4、ex.htmMozilla/4.0(IE5.0W98)15:37:09/2-Jan-01GET E.htm/C.htmMozilla/4.0(IE5.0W98)15:33:04/2-Jan-01GET Index.htm/res.phpMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET 1.htm/index.htmMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET A.htm/index.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GET B.htm/A.htmMozilla/4.0(IE4.0N
5、T)15:35:11/2-Jan-01GET C.htm/A.htmMozilla/4.0(IE5.0W98)Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。Web文本挖掘的方法 文本概括:从文本(集)中抽取关键信息,用简洁的形式总结文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。文本分类 :把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。 文本聚类:根据文本的不同特
6、征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。 Web文本挖掘的应用 搜索引擎领域:利用Web文本挖掘可以更合理地组织搜索结果:按照页面之间的相似程度分为若干簇。自然语言理解领域:结合自然语言处理技术和Web文本挖掘技术。文本挖掘在垃圾邮件过滤中的应用TF-IDF(1)TF-IDF(term frequencyinverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术,用以评估一字词对于一个文件集的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数增加,但同时会随着它在语料库中出现的频率成反比下降。如果
7、某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。TF-IDF(2)Web多媒体挖掘 Web多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义,发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。 多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。多媒体挖掘系统的结构多媒体挖掘的典型应用 视频挖掘:从电影、监控录像等视频数据中
8、提取视频场景内容和其中运动对象的特征及其时空位置变化,并在此基础上发现场景的内容特征,运动对象的行为模式和事件模式等。在线诊疗系统:对新产生的医学图像进行分类,从而对病人进行疾病的诊断。Web结构挖掘 有用的知识不仅存在于Web页面间的链接结构和Web页面内部结构,而且也存在于URL中的目录路径结构(页面之间的目录结构关系)。Web结构挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。Web结构挖掘主要方法PageRank算法HITS算法WebLogIndexSESpiderSpamFreshnessQuality results20M querie
9、s/dayBrowser800M pages?24x7SESEPageRank算法PRi :the PageRank value of page iPRj : the PageRank value of page jkj :number of the pages j refer tod:a parameter ranging 0,1.Web结构挖掘的应用 信息检索 社区识别 网站优化 Web日志挖掘 Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息,即通过分析Web日志数据,发现访问者存取Web页面的模式。理解用户的行为,改进站点结构,发现潜在用户,为用户提供个性化的服务
10、,增强网站的竞争力。 Web日志挖掘的应用 获取用户访问模式信息,理解用户的意图和行为分析用户的存取模式,为用户提供个性化的服务确定网站的潜在客户群,合理制订网络广告策略等改进Web站点的结构,使网站点随时间、用户需求的变化而不断调整对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等利用关联规则确定相关Web查询(查询修正)隐私保护数据挖掘数据挖掘可能会违反用户的隐私在原始数据库中,类似于标识符、姓名、地址和喜好等数据作为用户的隐私应该被保护。对用户的敏感的原始数据进行变换,以便数据的使用者不能对用户的原始数据进行查看,以此保护用户的私有数据。病人原始病历编号姓名性别年龄是否发热呼吸困难淋巴细胞数(109/L)1张三男40是是1.22李四男25否是0.63王五女29是是0.8转换后的病历信息0086504692021245979200711648800153471795024892906000165286910000000012026762574400000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 交通安全承台施工协议
- 音乐版权企业股权登记
- 园林绿化锅炉房改造合同
- 教育信息化服务外债登记管理规范
- 电子商务合规法律事务办法
- 2025工厂生产承包合同范本
- 码头防病毒装卸规定
- 地震监测桩机租赁合同
- 有色金属公司财务人员聘用协议
- 餐饮配送服务承诺书模板
- 山东省滨州市2023-2024学年高一上学期1月期末考试 政治 含答案
- 电力行业电力调度培训
- 【MOOC】气排球-东北大学 中国大学慕课MOOC答案
- 全力以赴备战期末-2024-2025学年上学期备战期末考试主题班会课件
- 《庆澳门回归盼祖国统一》主题班会教案
- 物流公司自然灾害、突发性事件应急预案(2篇)
- 《视频拍摄与制作:短视频 商品视频 直播视频(第2版)》-课程标准
- 公司战略与风险管理战略实施
- 2024年-2025年《农作物生产技术》综合知识考试题库及答案
- 洗衣房工作人员岗位职责培训
- 广东省深圳市光明区2022-2023学年五年级上学期数学期末试卷(含答案)
评论
0/150
提交评论