下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、web 数据挖掘技术分析与研究 数据库环境。要对这些数据进行挖掘,首先,要解决各个站点之间 的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需 元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述 半结构化的数据,因此在网络数据集成、发送、处理和显示的方 建文档类型定义的多层次互相关联的系统、元数据、数据树、样式 通过自定义性及可扩展性来标识各种数据,从而描述从各站点到的 取的信息进行裁减和以适应不同用户的需求。以不同的浏览形式提 数据挖掘系统的整体性能。工作流程如下:系统根据用户要求Web 用户根据自己的满意度,获得需要的挖掘结果,调整挖掘要求进入 新一轮数据挖掘。通过系统的维
2、护我们可以参加新的挖掘算法,实 数据。把用户访问网站留下原始日志数据进行清洗、过滤和转换处 模型,抽取其特征的元数据,用结构化的形式保存,为挖掘模块提 不同的挖掘算法有不同适用情况,挖掘综合器根据具体的需求和挖 掘方法的不同选择策略到挖掘算法库中去选择挖掘算法或种组合算 法执行挖掘任务。随着应用的深入,知识库中的算法和规那么不断 的丰富。挖掘算法库是挖掘分析方法的综合库,以插拔的形式组织 果,便于用户的评估。通过模式分析和兴趣度度量,假设结果使得 用户满意,数据挖掘结束,输出用户感兴趣的内容;否那么可以在 数据的收集也涉及数据挖掘的技术,其过程是:通过人工输入方 数据集提炼,利用提炼出的数据模
3、式,进行更大范围的 (1)文本分类:文本分类是指按预先定义的主题类别,把集合 中的每个文档确定一个所属类别。这样,用户能够方便地浏览文 档,并限制搜索范围来使查找更为容易。利用文本分类技术对大量 (2)文本聚类:文本聚类与分类的不同之处在于,聚类不需要 预先定义好的主题类别,它是将把文档集合分成假设干个簇,要求 人研究说明聚类假设,即与用户查询相关的文档通常会聚类比拟靠 近,而远离与用户查询不相关文档。可以利用文本聚类技术把搜索 引擎检索结果分成假设干个簇,用户只要考虑那些相关的簇,就能 量。目前,常用的文本聚类算法,分为两 (3)关联分析:关联分析是指从文档集合中发现不同词语之间 n (4)模式评价: Web 数据挖掘中十分重要的过程就是模式评 价。常用的方法有预留法和穿插实验法,将数据分成训练集和测试 集两局部,学习和测试反复进行,最后用一个平均质量模型来确定 (5)预留法:从数据集合随机抽取预定大小一个子集作为测试 (6)穿插
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版珠海仪器设备租赁合同2篇
- 2024年建筑工程分包合同及管理协议
- 2024年度个人场地租赁甲方乙方的权利义务合同2篇
- 2024年员工工资委托发放协议3篇
- 二零二四年体育馆暖通设备安装合同2篇
- 设备检测委托合同三篇
- 2024年拆迁补偿安置协议3篇
- 二零二四年度光伏发电项目建设与运营承包合同3篇
- 2024年度巨星葡萄批发合同的运输规定3篇
- 2024年建筑安装工程标准协议模板
- 国企领导表态发言
- GB/T 8539-2000齿轮材料及热处理质量检验的一般规定
- GA/T 1556-2019道路交通执法人体血液采集技术规范
- CB/T 465-1995法兰铸铁闸阀
- 《江苏省建筑与装饰工程计价定额》(2014版)勘误
- 中秀康迪克 交流双速电梯控制器ZXK-1000B VER1.0使用手册
- 五官科实习出科考试测试卷附答案
- 学校后勤管理工作课件
- 院内物流管理系统功能需求
- 个人车位租赁合同电子版
- 某某市射击飞碟靶场项目可行性研究报告
评论
0/150
提交评论