




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于日志挖掘的页面兴趣度量方基于日志挖掘的页面兴趣度量方法研究法研究 崔江彦马静摘要:本文主要针对电子商务网站的 web 日志进行分析和挖掘,提出一种更好的度量页面兴趣度的方法,并在此基础上对页面实现模糊聚类,找到用户感兴趣的页面类,为用户提供个性化服务同时也为电子商务网站结构设计提供依据。关键词:电子商务 页面兴趣度 模糊聚类一、引言互联网的发展催生了全新的商业模式电子商务,电子商务改变了厂商和顾客的关系,也使得经济模式发生了变化,由于电子商务企业的竞争往往只在鼠标的一点之间,因此如何获取并维护更多的网络用户成为了各电子商务企业之间竞争的焦点。通过对电子商务网站的 web 日志进行挖掘可以
2、找到用户感兴趣的内容从而为用户提供个性化服务,同时根据对网站商品关联分析找出潜在的有关联的商品,从而进行“捆绑式”销售,还可以根据页面之间的关联关系为网站的结构调整提供依据。二、web 日志挖掘web 日志指的是用户在访问网站时在 web 服务在里留下的“脚印”,里面包含了用户的大量信息,如用户的 ip 地址、用户访问的页面、浏览的时间等。典型的web 服务器日志包含以下信息:date:用户请求页面的日期time:用户请求页面的时间client ip address:通过身份验证的访问服务器的用户名不包括匿名server ip address:服务器端的 ip 地址method:用户执行的方法
3、,如 get 等uri stem:被访问的资源bytes sent:接受数据的字节数bytes received:接受数据的字节数time taken:浏览消耗的时间(以毫秒为单位)referral page:用户浏览的前一个网址,当前网址是从该网址链接过来的下面的某电子商务网站的 web 日志片段:2008-10-08 00:00:14 6 97 80 get http/1.1 200 0 3328 58974 250 0 /buy/results.asp akeyword=礼品工艺品&bodytype;=buy37&nowpage
4、;=6 -2008-10-08 00:00:14 37 97 80 get http/1.1 200 0 4140 76867 358 0 /userpic/tianlantian/200773112204011569.jpg - -2008-10-08 00:00:15 6 97 80 get http/1.1 200 0 1781 58424 248 0 /buy/results.asp akeyword=个人保养&bodytype;=buy5&nowpage;=11 -2008-10-0
5、8 00:00:15 6 97 80 get http/1.1 200 0 1812 61659 244 0 /buy/results.asp akeyword=肩章&bodytype;=buy24&nowpage;=3 -我们看到原始的 web 日志中包含了很多我们不需要的信息,预处理过的 web 日志才能进行下一步的数据挖掘。三、页面兴趣度量的新方法夏敏捷和张锦歌1构造了 userid-url 关联矩阵其中矩阵元素为是 i 用户在一段时间内访问第 j 个页面(url)的次数;并且认为行向量即反映了用户类型,也勾勒出用户的个性化访问
6、。而列向量则代表站点的结构,也蕴含有用户共同的访问模式。褚红丹、焦素云和马威2定义了一个四元组表示用户对页面 i 的兴趣,表示浏览该页面的次数,则兴趣度定义为:i 值(平均阅读时间)越大表示用户对该页面单位信息量阅读时间越长,则用户对该页面越感兴趣,相反,值越小表示当访问到该页时,用户平均阅读的时间短,则对此页面不感兴趣。李珊、袁方3做了页面改进兴趣度的计算,用户兴趣度:用户 i 在第 j 个页面上花费的时间;:用户 i 浏览第 j 个页面的频度;:用户 i 浏览第 j 个页面发送的字节数。在页面兴趣度的度量最常用的方法就是用用点击次数反映用户的兴趣,这种方法简单且易于实现,同时 web 日志
7、中还有其他因素也能反映用户的兴趣,所以应该综合考虑各种影响因素。后两篇论文中都提到了三种因素可以反映页面兴趣,下面我们对这些因素进行分析。通过查询电子商务网站的日志分析,找出用户对页面的访问时间、服务器发送字节数和接收字节数的数据记录,因为从总取出 75169 条数据用 spss 软件做数据相关性分析,通过 pearson correlation 分析得出如下分析结果计算结果现实用户在网页上的浏览时间和服务器发送字节数的 pearson 相关系数为 0.225,而和服务器接收字节数的 pearson 相关系数为-0.041。通过对比 pearson 相关系数对比,我们发现浏览时间和服务器发送字
8、节数以及浏览时间服务器接收字节数都是微弱相关,所以我们在考虑用户兴趣度量因素的时候可以不再考虑发送字节数和接收字节数的对页面兴趣的影响。因此定义页面兴趣矩阵:因为是用户 i 浏览页面 j 的总时间,为用户 i 点击页面 j 的次数, 表示用户 i 浏览页面 j 的平均时间,这样计算的用户兴趣度更能反映用户对页面的兴趣。四、基于页面兴趣度的网页聚类页面进行聚类分析,可以找到对于所有用户访问情况相同或相似的网页,把这样的页面放在一起可以找到不同页面之间的联系进而调整整体网站拓扑结构,迎合用户的访问偏好。(1)将数据集转化成页面兴趣矩阵,如下所示:(2)对于页面兴趣矩阵通过模糊距离公式 计算页面与页
9、面的之间的相似程度,得到一个对角线为 1 的对称方阵 我们只考虑它的下三角部分(不包括 1),设置阈值,我们令为如果模糊相似矩阵比大那么就将页面 i 和页面 j 聚在一起。随着互联网的发展,web 服务的个性化趋势已成必然。本文提出了一个新的页面兴趣方法,虽然日志数据能体现用户的真实信息,但所包含的信息有限。在以后的研究中应考虑利用用户的背景信息,这样挖掘出来的用户兴趣模型会更准确。参考文献:1夏敏捷、张锦歌,web 日志挖掘中应用聚类改进网站结构的研究j.中原工学院学报,2005,16(6):39-41.2褚红丹、焦素云、马威,用户访问兴趣路径挖掘方法j.计算机工程与应用, 2008,44(35):135-137.3李珊、袁方,基于 web 日志挖掘的页面兴趣度方法的改进j.计算机时代,2007,3:29-31.4李桂英、李吉桂,基于模糊聚类的 web 日志挖掘j.计算机科学,2004,31(12):130-131.5吴福保、李奇、宋文忠,模糊聚类分析的传递方法j.东南大学学报.199
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业科技园区用地购置居间
- 项目立项和可行性研究报告顺序
- 新能源汽车充电桩的公司
- 公司日常行为规范及管理办法
- 心电监护仪的使用与维护指南
- 游戏开发引擎跨平台移植指南
- 智能仓储物流项目
- 雨水如何收集系统
- MES系统:制造业智能化管理与流程优化的关键
- 美容师中级考试复习测试卷附答案
- 湖北省七市2025届高三第二次调研物理试卷含解析
- 第十三章-印花税
- 让你文思泉涌的公文写作方法
- 2024机器人分类及型号编制方法
- 轴对称图形(课件)-2023-2024学年二年级下册数学人教版-1
- 预包装食品食品安全管理制度
- 2024年4月全国自学考试高级财务会计真题试题及答案
- DL∕T 5362-2018 水工沥青混凝土试验规程
- 中国产科麻醉现状及产科麻醉指南解读专家讲座
- 二年级上册心理健康教学设计-第四课 找朋友|辽大版
- JTG-D82-2009公路交通标志和标线设置规范
评论
0/150
提交评论