《网络数据挖掘》实验四_第1页
《网络数据挖掘》实验四_第2页
《网络数据挖掘》实验四_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络数据挖掘实验四一、实验目的 学习如何为关联规则挖掘准备数据,学习关联规则挖掘二、实验内容实验内容目录下的movies目录中的3个EXCEL文件分别为:customers.xls, movies.xls, movietype.xls,阅读其中的数据,理解3个文件之间的关系。将这3个EXCEL文件导入以自己学号命名的数据库。由于顾客看的电影片名繁多,具体电影之间的关联规则比较小,因此我们将 分析顾客所看电影类型的频繁项集和它们之间的关联规则。因此我们首先需 要将每个顾客所看的具体电影名称转换成电影的类型,然后在此基础上进行 数据挖掘。首先创建一个视图view_movietype,从moviet

2、ype表中找出所有不重复的电影类型。字段如下:字段名称字段类型说明电影类型Varchar(50)具体字段名称为movietype 中的值,注意不能重复。5.根据视图所列出的电影类型,创建一个客户观看电影类型表CusMovieType。 字段如下:字段名称字段类型说明customerlDInt(主键,不能重复,不能为 空)电影类型1Varchar(1)具体字段名称为 view movietype 中的值。电影类型2Varchar(1)O O O O。在这张表中,customerlD为客户表中的ID 号,作为本表的主键值,后面的列为第4步所创建视图的所有行,类型为字符型,长度为1,当某个custo

3、merlD 看过该类型的电影,则值为T。通过以下步骤填充表的行:创建一个视图view_customerID,从movies表中找出所有的customerlD (不能重复)。将视图 view_customerID 中的所有 customerID 插入至表 CusMovieType 中。创建一个视图view_custom_movietype,显示所有客户ID所购买电影的 类型。对视图 view_custom_movietype 表逐行搜索,寻找每个客户看过的每部电 影属于哪个类型,并将 CusMovieType 表中对应的 customerID 行的电影 类型字段值修改为 T。6.对cusMovi

4、eType表进行单维布尔关联规则挖掘,找出和“惊悚片”相关的关 联规则,挖掘结构如下:主键: CustomerID输入列:所有电影类型预测列:惊悚片挖掘算法:关联规则分析挖掘结果,内容包括a)列出所有项集大于等于 3的频繁项集(截图),并简单说明 5 种项集。b)列出包含有“惊悚片”的 3项集(5 种),并简单说明。c)列出顾客选择惊悚片的关联规则(截图),并简单说明 5 个关联规则。在第 6 步创建的挖掘结构上新建一个挖掘模型,将“喜剧片”作为预测列, 进行挖掘,写出挖掘结果。内容包括:a)列出所有项集大于等于 3的频繁项集(截图),并简单说明 5 种项集。b)列出包含有“喜剧片”的 3项集

5、(5 种),并简单说明。c)列出顾客选择喜剧片的关联规则(截图),并简单说明 5 个关联规则。下面我们将分析顾客的年龄和性别与观看电影类别的关系。首先 用 CusMovieType 表 和 customers 表 创 建 一 个 关 联 查 询 视 图 view_cus_age_movietype,里面的列包括:customerID,age,Gender(性别),以及 所有电影类型。字段名称字段类型说明customerIDInt(主键,不能重复,不能为 空)AgeIntGenderVarchar(50)电影类型1Varchar(1)具体字段名称为 view movietype 中的值。电影类型

6、2Varchar(1)O O O O。将上面的视图中的age列离散化,按年龄从低到高,分成4组或者5组(自 己根据所有客户的年龄排序后分组,注意年龄字段中有些行为空值),生成一 个新的列:年龄区间。对 view_cus_age_movietype 视图进行关联规则挖掘,找出顾客年龄、性别和 观看电影类型之间的关联规则,挖掘结构如下:a)主键: CustomerIDb)输入列:年龄区间,Gender,所有电影类型c)预测列:惊悚片,喜剧片d)挖掘算法:关联规则分析挖掘结果,内容包括a)列出所有项集大于等于3的频繁项集,并简单说明5种项集。b)列出包含有“年龄区间”、“性别”、“ 惊悚片”的项集(

7、3 个以上),作 简单说明c)列出包含有“年龄区间”、“性别”、“ 喜剧片”的项集(3 个以上),作 简单说明d)列出顾客的年龄区间、性别、电影类型选择“惊悚片”的关联规则,并 简单说明。e)列出顾客的年龄区间、性别、电影类型选择“喜剧片”的关联规则,并 简单说明。从 12 步可以看到由于电影类型众多,影响了关于顾客年龄、性别与我们要分 析的“惊悚片,喜剧片”(也就是说,这些结果被淹没了),因此我们需要将 挖掘模型中的输入列进行删减,不选择所有的电影类型,而只选择在第 6 步 和第 8 步挖掘出来的和“惊悚片,喜剧片”这两种类型相关的电影类型(5 种),分析挖掘结果,内容包括a)列出所有项集大于等于 3的频繁项集,并简单说明 5 种项集。b)列出包含有“年龄区间”、“性别”、“ 惊悚片”的项集(3 个以上),作 简单说明c)列出包含有“年龄区间”、“性别”、“ 喜剧片”的项集(3 个以上),作 简单说明d) 列出顾客的年龄区间、性别、电影类型选择“惊悚片”的关联规则,并 简

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论