(计算机应用技术专业论文)web访问行为分析及其在搜索引擎精准营销中的应用.pdf_第1页
(计算机应用技术专业论文)web访问行为分析及其在搜索引擎精准营销中的应用.pdf_第2页
(计算机应用技术专业论文)web访问行为分析及其在搜索引擎精准营销中的应用.pdf_第3页
(计算机应用技术专业论文)web访问行为分析及其在搜索引擎精准营销中的应用.pdf_第4页
(计算机应用技术专业论文)web访问行为分析及其在搜索引擎精准营销中的应用.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)web访问行为分析及其在搜索引擎精准营销中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文 摘要 摘要 搜索引擎精准营销业已成为互联网营销中的新贵,其应用广泛、成本低廉、 效果良好,深受企业商家尤其是中小企业的喜爱。w e b 访问行为分析是伴随着 互联网发展起来的新兴i t 研究方向,其通过运用数据挖掘的相关知识和技术方 法,从数以亿计的大量w e b 访问日志中提取到有用信息和知识。将上述两者相 结合,把w e b 访问行为分析应用到搜索引擎精准营销领域并推广,是本文研究 的目标。 本文在查阅国内外最新文献和研究成果的基础上,在把w e b 访问行为分析 应用于搜索引擎精准营销领域做了一些有益的尝试研究。文章首先概述了搜索引 擎营销的产生背景和发展现状并引出了搜索引擎优化的概念,论述了w e b 访问 行为分析的基本情况和研究现状,提出了其在搜索引擎精准营销中应用的可行 性。从w e b 访问行为分析的三个阶段出发,讨论了数据预处理的基本过程和关 键技术解决方案,阐述了w e b 访问行为分析的模式发现的几种方法,着重研究 关联规则算法,提出一种改进的a p r i o r i 算法并予以实验效果验证。为理论与实 践相结合,设计开发了基于搜索引擎精准营销应用的w e b 访问行为分析软件平 台,达到可看性和实用性。最后以某企业网站为研究实例,根据w e b 访问行为 分析结果提出一些切实可行的网站搜索引擎优化的意见和建议。 关键词:w e b 访问,搜索引擎,精准营销,行为分析,搜索引擎优化 浙江大学硕士学位论文 a b s t r a c t p r e c i s i o nm a r k e t i n go fs e a r c he n g i n eh a sb e c o m ea nu p s t a r ti nt h ei n t e m e ts a l e s i te n j o y sag r e a tp o p u l a r i t yi nt h ee n t e r p r i s e s ,e s p e c i a l l ys m a l la n dm e d i u m s i z e do n e s , f o ri t sw i d ea p p l i c a t i o n , l o wc o s ta n ds o u n de f f e c t s a n dw i t ht h ed e v e l o p m e n to f i n t e r n e t ,w e ba c c e s sb e h a v i o r a la n a l y s i sh a sc o m ei nv o g u ei ni tr e s e a r c hf i e l d i tc a n p r o c e s s e sa n da n a l y s e st h ew e bl o gd a t aw h i c hi sg e n e r a l l yr e d u n d a n c yf o ra v a i l a b l e i n f o r m a t i o nb yw e b - b a s e dd a t am i n i n gt e c h n o l o g yr e l a t e d t h ep u r p o s eo ft h i sp a p e r i st oa p p l ya n ds p r e a dw e ba c c e s sb e h a v i o r a la n a l y s i st e c h n o l o g yt o p r e c i s i o n m a r k e t i n go fs e a r c he n g i n e t h r o u g hr e v i e w i n gl i t e r a t u r ea n da n a l y z i n g ,t h ea u t h o rf o c u s e sh i sa t t e n t i o no n t h ea p p l i c a t i o no fw e ba c c e s sb e h a v i o r a la n a l y s i st e c h n o l o g yt op r e c i s i o nm a r k e t i n g o fs e a r c he n g i n ea n dt r i e st om a k eap r o f i t a b l er e s e a r c ho nt h ef i e l d f i r s t l y , t h i sp a p e r o u t l i n e st h ee m e r g i n gb a c k g r o u n da n dd e v e l o p m e n ts i t u a t i o no fp r e c i s i o nm a r k e t i n g o fs e a r c he n g i n e ,a sw e l la st h eg e n e r a ls i t u a t i o no fw e ba c c e s sb e h a v i o r a la n a l y s i s i t p r o v e st h ef e a s i b i l i t yo ft h i sa p p l i c a t i o nb yi n t r o d u c i n gt h ec o n c e p to fs e a r c he n g i n e o p t i m i z a t i o n b a s e do nt h et h r e es t e p so fw e ba c c e s sb e h a v i o r a la n a l y s i s ,t h ep a p e r a r g u e st h eb a s i cp r o c e s sa n dk e yt e c h n o l o g ys o l u t i o n so fd a t ap r e t r e a t m e n t i te x p l a i n s s e v e r a lw a y sd e v e l o p e df r o mt h ep a t t e r no fw e bv i s i tb e h a v i o ra n a l y s i sa n df o c u s e s o na s s o c i a t i o nr u l e sa l g o r i t h m a ni m p r o v e da p r i o r ia l g o r i t h mh a sb e e nw o r k e do u t a n dv e r i f i e db ye x p e r i m e n te f f e c t s i no r d e rt oa p p l yt h e o r yt op r a c t i c e ,t h ea u t h o r d e s i g n sas o f t w a r ep l a t f o r mf o rw e ba c c e s sb e h a v i o r a la n a l y s i sb a s e do np r e c i s i o n s e a r c he n g i n em a r k e t i n gt os h o wt h ea c c e s s i b i l i t ya n dp r a c t i c a l i t y a tt h ee n do fp a p e r , a n e n t e r p r i s e s i t ee x a m p l eh a sb e e na d o p t e dt of i g u r eo u ts o m ec o m m e n t sa n d s u g g e s t i o n sf o rt h ew e b s i t ee n g i n eo p t i m i z a t i o na c c o r d i n gt ot h er e s u l to fw e ba c c e s s b e h a v i o r a la n a l y s i s k e y w o r d s :w e ba c c e s s ,s e a r c he n g i n e s ,p r e c i s i o nm a r k e t i n g ,b e h a v i o r a l a n a l y s i s ,s e a r c he n g i n eo p t i m i z a t i o n 浙江大学硕士学位论文图目录 图目录 图1 1 中国网民获知新网站的主要途径2 图1 2 搜索引擎营销的目标层次图3 图1 3 多种营销方式成本比较图4 图1 4w e b 访问行为分析流程图1 1 图2 2w e b 访问行为分析的数据预处理流程图1 8 图2 3 某二手车经营企业的部分网络拓扑图2 2 图3 1 改进的a p r i o d 算法流程图3 5 图3 2 改进算法的候选项集产生图解3 6 图3 3 改进算法的候选项集剪枝图解3 7 图3 4 改进算法演算实例1 一3 9 图3 5 改进算法演算实例2 一3 9 图3 6 不同算法在不同支持度下的运算效果比较一4 0 图3 7 不同算法在不同事务数下的运算效果比较4 1 图4 1w e b 访问行为分析软件体系结构框架图4 4 图4 2 分析软件( 第一版) 截图4 5 图4 3 网站访问情况分析图4 6 图4 42 0 0 8 年2 月2 2 日网站访问情况折线图4 7 图4 5 访客来源分布图4 8 图4 6 搜索引擎流量来源分布图5 0 图5 1 关键词在站点中的金字塔模式布局建议图5 9 v i 浙江大学硕士学位论文 表目录 表目录 表1 1 网络应用使用率2 表2 1w e b 访问日志主要信息表1 7 表2 2 某二手车经营网站部分日志记录。2 2 表2 2 数据预处理后的某二手车经营网站部分日志2 6 表3 1 数据项集示例表3 0 表4 1 网站访问情况数据表4 6 表4 2 访问页面统计表4 7 表4 3 用户回访天数分析表4 8 表4 4 浙江访客按所在城市分布表4 9 表4 5 访客使用搜索关键词分布表5 0 表4 6 访客访问页面排行表5 1 浙江大学硕士学位论文独创性声明与版权使用授权书 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得迸姿盘堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名:字e t 期:年月e t 学位论文版权使用授权书 本学位论文作者完全了解逝婆盘鲎有权保留并向国家有关部门或机 构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝鎏盘堂 可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:7 簿旁包 签字日期:0 帕名年月6 e t 导师签名: 黼飙彬夕日 浙江大学硕士学位论文第1 章绪论 第1 章绪论 在当今信息时代,互联网的雪崩式发展改变了人们的生活方式、工作方式、 学习方式乃至思维方式,而这其中w e b ( w o r l d - w i d e - w e b ,简称w w w 或w e b ) 起到了关键性作用。w e b 是为广大互联网用户进行信息交换和信息共享而发展 起来的一种i n t e r n e t 应用,它采用超文本、超媒体的方式把各种信息资源有机结 合起来进行广泛传播,打破了信息流通和共享的时间限制与地域限制,实现了“时 空压缩 ,从而使人类真正进入一个双向互动、平衡交换的理想状态。 据中国互联网信息中心c n n i c 发布的第2 1 次中国互联网发展状况统计 报告显示1 1 1 ,截至2 0 0 7 年底,仅在我国,网站数量突破1 5 0 万个,年增长率 7 8 4 ,网页总数达到8 4 7 亿个,年增长率高达8 9 4 。网络信息的爆炸式增 长,人们面对这么多信息,如何找到自己所需? 于是搜索引擎诞生了。 本章从搜索引擎精准营销发展的背景、现状、方法以及趋势的概述入手,简 述论文研究的w e b 站点背景,由搜索引擎优化引出w e b 访问行为分析,着重概 述w e b 访问行为分析的基本情况、基本过程及用途。在概述分析的基础上,提 出本文的研究内容及组织结构。 1 1 研究背景 1 1 1 搜索引擎 搜索引擎是指自动从互联网搜集信息,经过一定整理以后,提供给用户进行 查询的系统。搜索引擎与i n t e r n e t 信息的关系可以做如下比喻:i n t e m e t 上的信 息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这 些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图, 供你随时查阅。 作为互联网应用的新贵,搜索引擎一经推出就深受网民喜爱。c n n i c 第 2 1 次中国互联网发展状况统计报告显示【1 】,搜索引擎、电子邮件和即时通信是 我国互联网的三大基础应用,其中网民使用搜索引擎的比例是7 2 4 ,即在我国 浙江大学硕士学位论文第1 章绪论 现有2 1 亿网民中,已有1 5 2 亿人从搜索引擎获益,半年净增加3 0 8 6 万人。网 络应用使用率如表1 1 所示。 表1 1 网络应用使用掣1 l 网络应用使用率用户规模( 万人) 搜索引擎 7 2 4 1 5 2 0 4 互联网基础应用电子邮件5 6 5 1 1 8 6 5 即时通信8 1 4 1 7 0 9 4 互联网上,每天都有众多新网页新网站诞生,那么新网站如何才能让众网民 轻松的及时找到它呢? c n n i c 有调查显示【2 1 ,中国网民获知新网站的主要途径 中,搜索引擎占了8 6 6 ,高于网站链接、电子邮件等。详见图1 1 示。 搜索引擎 其它网站上的链接 朋友同学同事的介绍 电子邮件 网友介绍 报刊杂志 网址大全之类的书籍 广播电视 户外广告 黄页 其它 图1 5 中国网民获知新网站的主要途径 1 1 2 搜索引擎营销s e m 互联网商机无限。当众网民都关注于搜索引擎并广泛使用之,而搜索引擎又 是网民获知新网站和信息的最主要途径,通过搜索引擎而来的访客,都是“新的 潜在客户 ,可能直接为企业创造商业价值。因此,搜索引擎日渐成为一种营销 模式。 搜索引擎营销是一种新的网络营销形式。它是网络营销中的一个新分支,随 着搜索产业的发展,日益备受企业的关注和推崇。根据国内网络营销专家冯英健 2 浙江大学硕士学位论文 第1 章绪论 的网络营销基础与实践一书中的相关内容,所谓搜索引擎营销( s e a r c he n g i n e m a r k e t i n g ,s e m ) ,就是根据用户使用搜索引擎的方式,利用用户检索信息的机 会尽可能将营销信息传递给目标用户【3 】。也就是说,搜索引擎营销就是根据用户 使用搜索引擎的习惯,采用付费形式或者技术手段使网页在关键词搜索结果中排 名靠前,引导用户点击,从而达到品牌展示和促进销售的目的。 搜索引擎营销追求最高的性价比,以最小的投入,获最大的来自搜索引擎的 访问量,并产生商业价值。具体来说,就是搜索引擎工具,实现4 个层次的营销 目标:被搜索引擎收录、在搜索结果中排名靠前、增加用户的点击( 点进) 率、 将浏览者转化为顾客【3 l 。图1 2 直观地描述了这四个目标“下宽上窄类似于金字 塔 关系,也就是说,最基本的目标能够实现的人很多,但是要真正实现让浏览 者成为顾客这样的最高目标,就不是每个人都能达到的了。 图1 6 搜索引擎营销的目标层次图 搜索引擎营销之所以应用之广泛,除了因为大家都在使用搜索引擎之外,其 自身特点也是重要原因: ( 1 ) 低成本,高回报 在所有营销手段中,搜索引擎营销产生的每个有效反馈的成本最低。它所需 要投入的资金并不大,即使是中小企业也能够承受得起,至少是可以尝试的。在 3 浙江大学硕上学位论文 第1 章绪论 几种常见营销方式包括搜索引擎营销、e m a i l 营销、电子黄页营销、广告条营销 和直邮营销等当中,搜索营销的平均机会成本是最低的,如图1 3 所示。搜索引 擎营销的回报率远远超过其他的营销方式。付出相同的价值,搜索引擎营销能够 取得最大的效果。 _一 一一一 _1一 十 一儒l ( 2 ) 针对性强 图1 - 7 多种营销方式成本比较图 营销广告的针对性非常重要,打比方来说:你可以在、限h o o 、新浪等的首 页的显著位置投放n i k e 篮球鞋广告,这可能会有不止1 亿人看到,但却不代表 这1 亿人都有可能购买,因为其中大部分人对篮球鞋并不感兴趣。而搜索引擎营 销则不一样,其用户是主动使用关键词进行查询的,搜索结果信息和搜索关键词 有很大的关联。因此,搜索引擎营销的针对性是非常强的,信息浏览者就是潜在 客户群,搜索n i k e 篮球鞋信息的人基本都是对其感兴趣、可能要购买的人。 ( 3 ) 公平竞争、准入门槛低 搜索引擎并不会因为你的公司小就不收录你的网站,也不会因为你公司的网 站做的粗糙就不收录。因此,不论你的企业是大是小,花少量资金制作自己的网 站,在搜索引擎平台都是公平的,即使是行业巨头,你的网站也一样可以在排名 4 浙江大学硕士学位论文第1 章绪论 展示名次上超越它。这就意味着你可以得到或者更多的商业机会。 ( 4 ) 自主性强 如果你有新的产品信息资讯想要展示给你的顾客,只要你在网站管理后台对 你的广告做出更新,搜索者就能在第一时间看到最新的广告资讯。 1 1 3 搜索引擎优化s e o 现在,不少企业都意识到了搜索引擎营销的价值,制作了自己企业的网站, 也能在几大搜索引擎上搜索到自己的网站,但是营销效果不佳,究其原因,还在 于自己的网站在搜索结果排名中太落后,基本都在十几页甚至几十上百页之后。 有调查统计显示,使用搜索引擎查找信息的网民,9 0 以上者只看搜索结果的第 一页,而看到第五页之后者只有不到5 。也就是说排名在前五页尤其是第一页 的网站,占了9 0 以上的访问量,他们的营销效果之好也就是水到渠成的事了。 那样的话,搜索引擎的排名之争成了公司网络营销的焦点,谁都想排在前面,抢 占商机。但提供同类产品的网站那么多,有的在先、有的在后是必然的,那么谁 在前谁在后? 这到底是怎么决定的昵? 这就有了付费搜索引擎营销和搜索引擎 优化。 1 付费搜索引擎 付费搜索引擎营销是指通过向搜索引擎服务提供商支付一定的费用,以取得 一定时间内自己的网站在某些关键字搜索的结果排名中靠前,从而提高自己网站 的访问量,以期达到良好营销效果。国内外几大搜索引擎服务提供商大都提供了 付费搜索引擎营销业务,如百度竞价排名、g o o g l e 关键字广告、y a h o o 竞价 排名等等。 付费搜索营销的见效是很快的,可以说是立竿见影。因为你付费给搜索引擎 服务提供商了,由他们通过人为修改搜索结果排名来保证你的网站排名在第一页 内,因此为网站带来大访问量,也带来了无限的商机。但是付费搜索引擎营销成 本相对较高,以百度竞价排名为例,单个关键词付费搜索,每月花费都在15 0 0 8 0 0 0 元左右,这个费用对于广大中小企业来说还是不菲的,而且一旦付费期满, 你的网站重新进入自然排名,那么仍旧回到十几页几十页之后,客户还是无法找 5 浙江大学硕士学位论文 第1 章绪论 到你。 2 搜索引擎优化 那么有没有低投入又一劳永逸的办法呢? 有,这就是搜索引擎优化s e o 。 搜索引擎优化s e o ,是指通过一定的技术对网站网页从用户、网络环境( 包 括搜索引擎) 、网站运营维护三方面进行优化,使企业网站在展示功能上、搜索 引擎的可见度和识别度上、方便实用性上都达到较好的效果,并迎合排名规则, 使企业网站在搜索引擎自然排名中获取好名次,进而提高网站展示率,让营销效 果得到显著提高。 搜索引擎优化不等于搜索引擎作弊,其目的是对搜索引擎的配合和服务,使 搜索引擎可以更容易地获得企业网站的信息,并且把这些信息展示给搜索用户。 搜索引擎优化行为是被搜索引擎所接受的,g o o g l e 和百度都发表过官方声明表 示理解和支持合理的搜索引擎优化。一些国际知名的大企业如柯达、富士等都曾 对它们的网站进行过优化,并且取得不错的效果。 1 1 4 某二手车经营公司的网络营销简况 本文的w e b 访问行为分析研究,以杭州市某二手车经营公司的网站为实际 研究对象。该公司成立已有近1 0 年,主要从事二手机动车的中介经纪及配套服 务,公司拥有比较稳定的充足二手车货源,但二手车销售业绩一直平平,公司在 杭州二手车市场的知名度也不高。 从2 0 0 7 年下半年,公司意识到互联网带来的无线商机,全力打造网络营销 体系,制作营销网站,积极参与搜索引擎营销。现公司正利用百度付费搜索引擎 排名开展网络营销,以期取得第一手用户w e b 访问日志,再通过访问行为分析, 找出网站的不足和缺点,对症下药予以优化,并最终走搜索引擎自然排名的精准 营销之路。 1 2w e b 访问行为分析概述 对于企业来说,如何判断自己的网站是否需要做搜索引擎优化? 哪部分需要 做优化? 又需要如何做优化? 优化后的效果如何,是否达到优化标准? 俗话说: 6 浙江大学硕士学位论文第1 章绪论 “总结过去方能展望未来。 这句话在互联网中同样适用,这就是w e b 访问行为 分析,通过分析以前访客访问自己企业网站留下的日志数据,从中总结出规律, 并依据规律做相应的网站优化。这就引出了本文的研究重点。 1 2 1w e b 数据挖掘 随着i n t e r n e t 和w w w 技术的快速普及和迅猛发展,使得各种信息可以以 非常低廉的成本在网络上获取,但是海量互联网数据的铺天盖地,如何从中发现 有用信息已成为数据挖掘研究的新热点。 w e b 数据挖掘就是利用数据挖掘技术,自动从w e b 文档和w e b 活动中抽 取感兴趣的、潜在的有用模式和隐藏信息的过程,它主要实现对w e b 存取模式、 w e b 结构和规则以及w e b 内容的查找。w e b 挖掘可以在很多方面发挥重要作 用,包括对搜索引擎的结构进行挖掘,确定权威页面,w e b 文档分类,智能查 询等等【4 】。一般的,根据挖掘对象的不同,w e b 数据挖掘分为三种: ( 1 ) w e b 内容挖掘 w e b 内容挖掘是从文档内容或其描述中抽取知识的过程。网络信息内容是 由文本、图像、音频、视频、元数据等形式的数据组成,网络内容挖掘就是从网 络信息内容中发现有用信息的过程。 ( 2 ) w e b 结构挖掘 w e b 结构挖掘就是推出网络的拓扑信息网页之间的链接信息。利用这 些信息,可以对页面进行排序,发现重要页面,通过分析一个网页连接和被连接 数量以及对象,来建立w e b 自身的连接结构模式。 ( 3 ) w e b 使用挖掘 它的主要目标是从用户和网络交互的过程产生的访问记录中抽取出来的第 二手数据( 包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、 用户简介注册信息、用户对话或交易信息、用户提问方式等) 嘲。通过网络使用 挖掘,可以了解用户的网络行为,改进站点结构,或为用户提供个性化的服务。 其主要包括一般的访问模式发现和个性化的使用发现两个方面。前者是通过分析 使用记录来了解用户的访问模式和倾向,以改进站点的组织结构。而后者则倾向 7 浙江大学硕士学位论文第1 章绪论 于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供个 性化的定制站点。 1 2 2w e b 访问行为的概念、特点及分类 1 w e b 访问行为的概念 每个网民的访问行为完全取决于其兴趣爱好,看似毫无规律,但“近朱者赤, 近墨者黑”,多个用户对网络的使用存在许多共性,它表现为网络上的一种群体 行为。w e b 访问行为的研究与心理学、社会学、社会心理学、人类学以及一切 与互联网行为的学科密切相关,它研究网民上网行为的规律性,并借以控制并预 测网民下一步行为,从而为实现政治的、经济的和文化的目的服务【6 l 。 从广义上来讲,w e b 访问行为就是运用多学科知识研究和分析w e b 用户的 构成、特点及其在w e b 应用过程中行为活动上所表现出来的规律。从狭义上来 讲,w e b 访问行为是由用户访问w e b 站点过程中所点击的一组页面来描述,即 一组页面超链序列访问路径组成。若不同用户访问w e b 时有共同的页面超链序 列时,则表明用户群访问w e b 行为所呈现出的访问规律。它是对用户群访问行 为的一种抽象,可以看成是知识1 7 1 。 2 w e b 访问行为的特点 w e b 访问行为与现实用户行为的最大区别在于行为的环境不同,虚拟空间 和现实空间的区别。w e b 访问行为发生在互联网这个不同于物理空间的虚拟空 间中,注定了它有其自身特点1 8 1 : ( 1 ) 用户群体高素质高知识。w e b 访问行为的主体一网民,必然具备一 定的计算机知识和网络技术,接受过相关培训。 ( 2 ) 高隐蔽性。一方面,访问w e b 的任何人都可以通过任意一台联网的计 算机调阅互联网中的任何信息,无须署名更无须实名登记,所以网上存在大量的 匿名行为。另一方面,互联网信息完全数字化,数据传输过程中可能被人为改动 而无痕迹。 ( 3 ) 时空灵活性。w e b 访问行为完全突破空间时间限制,网民可以随时随 地获取信息,充分体现其主观性。 b 浙江大学硕士学位论文 第1 章绪论 ( 4 ) 复杂性。互联网尽管是虚拟空问,但其形式多样和复杂性丝毫不亚于 现实空间; ( 5 ) 利益性。互联网是没有国界和地域界限的,但是其依托的技术、标准 和硬件设备是有国界的,所以w e b 访问行为又势必要牵涉到国家和地区间的利 益。 3 w e b 访问行为的形式化表述嘲 w e b 访问行为的形式化表示:w e b 站点结构可形式上表示成一个有向图 g = ( y ,e ) ,其中v 是页面集, y = v ,if 表示层数,j 表示层内编号) ,e 是页面 间的超链接集合。用户访问站点的有关信息记录在w e b 站点日志文件中,日志 文件格式遵循w 3 c 标准。根据w e b 站点结构和w e b 日志文件,我们可以给出 用户访问行为描述。 定义1 ( w e b 访同日志文件) : 设l 为用户访问日志文件记为l = ( ,护,u i d ,z 。训,t i m e ) l l ,刀) ,其中 ,每一条记录表示用户,对站点中某一个页面的访问标识信息,咖表示用户l p 地址,u i d 表示用户标识符,u r l 表示被访问的页面的u r l 地址,t i m e 表 示用户访问该页面的时间。 定义2 ( 用户访问事务) : t = ( i p , ,u i 4 , ( 巧u r l ,巧,i ,、一。t u r l ,瑶f f 聊p ) ,( 巴u r l ,艺t i m e ) ) , ,七历,m 其中为最大页面序号。髭l ,瑶i p = i p , ,髭u r l = u i d t , 巧t i m e - l ;t i m e c ,c 是一个固定的时间窗,用于区分同一用户在不同时段中 的不同访问行为,凡j m 。这个用户访问行为可简记为:f = 髭- u r l i l k m ) 。 定义3 ( 用户访问子事务) : 设用户访问事务为,= 髭u r l i k 【,聊d ,其子事务可描述为,中页面序列中 任一个长度不超原子事务长度的子序列,记为 9 浙江大学硕士学位论文第1 章绪论 诂= u r i p ,卵) 埘0i 七e t ,册】) = f 。 在一段时间间隔内,每一个用户访问事务相当一条页面超链序列,该时间段 内所有用户访问事务构成对该w e b 站点的访问路径集合。寻找事务集问路径的 相似性,就可以发现用户访问模式,形成我们所需的发现用户群的访问行为。 4 w e b 访问行为的分类 w e b 访问行为因为其自身的复杂性而造成分类的模糊和多样性。 ( 1 ) 从浏览行为反应用户兴趣的方式分,w e b 访问行为分为直接行为和间 接行为。所谓直接行为是指可以直接反应用户兴趣的浏览行为,主要包括保存页 面,打印页面,将页面存于收藏夹中和对同一页面的频繁访问。直接行为可以明 确确定用户对页面是感兴趣的,而且感兴趣程度很高。所谓间接行为是指间接反 映用户兴趣的浏览行为,主要包括用户在页面上停留的时间,点击超链接等,间 接行为的发生并不能确定用户是否对页面存在兴趣,但间接行为发生的频率次数 和持续的时间可以在一定程度上反映用户的兴趣度。 ( 2 ) 根据行为是否具有危害的角度来分,w e b 访问行为可分为正常行为和 异常行为,这个尤其体现在网络信息安全方面; ( 3 ) 根据行为主体对象是否唯一的角度,w e b 访问行为分为个性行为和共 性行为,本文主要研究后者。 1 2 3w e b 访问行为分析的基本过程 w e b 访问行为分析,主要运用人工智能、数据挖掘、信息论和数据库等领 域的相关技术和知识,从w e b 日志中挖掘只是,来探索和分析w e b 使用记录数 据中的规律和用户访问模式。w e b 访问行为分析一般分为w e b 数据预处理( w e b d a t ap r e p r o c e s s i n g ) ,模式发现( p a t t e r nd i s c o v e r y ) 和模式分析( p a t t e r a n a l y s i s ) 3 个主要阶斟1 0 1 。详细分析过程如图1 4 所示。 1 0 浙江大学硕士学位论文第1 章绪论 i 一j 黎 图1 8w e b 访问行为分析流程图 w e b 访问行为分析过程中前提就是w e b 数据的准确性,必须有准确的数据 才能每次都正确地反映使用者的意图,从而可以使分析沿着正确的方向进行。但 是由于本地缓存、代理服务器、防火墙等的存在,使得直接在庞杂的w e b 日志 数据上进行分析变得十分困难和不准确。因此在实施数据挖掘之前,必须对w e b 日志文件进行预先处理。实现这个功能的阶段就是数据的预处理阶段【1 1 l 。 数据预处理主要任务是把各种不同的w e b 使用记录数据抽取和映射为模式 发现所需的数据形式,它是模式发现阶段和模式分析阶段的数据准备。数据预处 理阶段通常分为以下几个部分:数据清洗、用户识别、会话识别、路径补充、事 务识别、格式化数据等【10 l 。 模式发现阶段旨在使用各种数据挖掘技术发掘隐藏在一大堆杂乱无章的数 据背后的规律和模式。可以使用统计、数据挖掘、机器学习和模式识别等各领域 中已开发的方法和算法,但把这些方法和算法应用到w e b 行为分析时,要考虑 w e b 数据的特殊性。常用的技术有统计分析、关联规则、序列模式、聚类分析、 分类分析等。 模式分析是w e b 访问行为分析过程的最后一步,其作用旨在根据实际应用, 过滤掉模式发现的无用规则,抽取出用户最感兴趣的规则和模式并转换成为知 识,应用到具体领域中,因此模式分析和应用密不可分。 浙江大学硕士学位论文第1 章绪论 1 2 4w e b 访问行为分析的用途 w e b 访问行为分析可以客观的反应w e b 的组成、内容和访问频度、访问关 联等重要信息,能快速理解用户的网上访问行为,找出共性,发现异常。其典型 应用包括: ( 1 ) 信息安全方面,即网络监控。这属于w e b 访问行为异常行为的分析应 用。当匿名用户登录w e b 服务器请求第一个页面后,分析系统即进入正常行为 轮廓分析阶段,通过比对用户轮廓库的异同,来发现入侵行为如木马等,并及时 报警。 ( 2 ) w e b 个性化推荐服务。w e b 的信息资源和信息服务的数量和复杂度 都在以惊人的速度增长,一个w e b 网站能否吸引网民访问,能否成功地引导访 问者第一时间获得有价值的信息,成为这个站点能否最后成功的关键。w e b 个 性化推荐服务应运而生。w e b 个性化推荐服务,是指网站应用w e b 访问分析系 统,分析某个老客户之前所有访问该站点的历史数据并推测出该客户的兴趣爱 好,并及时在客户正在访问的页面上个性化显示,推荐给这个客户。w e b 个性 化服务是目前w e b 访问行为分析应用最广的领域,主要包括搜索引擎、电子图 书馆、数字媒体、数字医疗、远程教育等方面。 ( 3 ) 系统优化。用户对w e b 是否满意取决于w e b 的性能和服务质量,包 括操作系统性能、数据库性能和网络性能等。w e b 访问行为分析提供了准确了 解w e b 使用的访问情况提供了途径,其分析结果将有助于优化w e b 缓存,网络 通信、负载均衡和数据分布等策略。 ( 4 ) w e b 站点设计。w e b 站点设计和管理的最终目的就是使得站点的拓 扑结构最大程度的方便用户浏览,与用户浏览行为一致,这一点是非常有难度的, 尤其是当页面达到一定数量时。w e b 访问行为分析则为站点设计者提供了详细 的用户反馈,帮助其根据过去实际用户的访问情况,调整站点的页面拓扑结构和 内容,对站点进行系统优化,从而满足访问者的需求,提高服务质量。 ( 5 ) 营销智能。在电子商务领域,w e b 访问行为分析有着广阔的应用空间。 消费者如何使用电子商务站点,其曾经买过什么,对什么感兴趣,通过其行为分 析都可以得出结果并推测出他下一步可能的消费行为,然后以此为基础,对所识 1 2 浙江大学硕士学位论文第1 章绪论 别出来的消费群体、消费预测进行精准定向营销,这与传统的不区分消费者对象 特征的大规模营销手段相比,大大节约成本,提高营销效率,最终带来更多的利 润。 1 3 本文的研究内容及组织结构 1 3 1 研究内容 本论文参考各类文献和国内外研究成果,拟从用户访问行为分析的三个阶段 出发,以某企业网站为研究实例,紧紧围绕搜索引擎营销应用这一主线,开展研 究基于搜索引擎精准营销应用的w e b 访问行为分析: 讨论数据的收集和预处理过程以及包括用户识别、会话识别、事务识别 等在内的几种有效的数据预处理方法,着重论述技术难点的突破,算法 的改进上。 - 对模式发现的过程及实现技术进行分析和研究,关联规则是研究和发现 数据项之间的相关性的方法,论文在深刻理解a p r i o r i 算法及其不足和 缺点的基础上提出一种改进算法,并予以实验验证; 设计制作基于搜索引擎营销应用的w e b 访问行为分析软件平台,力争 分析数据达到可看性、直观性和对比性,并以某企业营销网站为例,演 示软件的使用和分析。 _ 根据w e b 访问行为分析的结果,提出某企业网站在搜索引擎营销中存 在的不足和缺点,提出搜索引擎优化建议。 1 3 2 组织结构 论文共分为六章,后续章节的组织结构安排如下: 第二章:从数据源的组成、获取和预处理及结果等方面阐述数据源由粗到细、 由糙到精的加工过程,重点论述预处理中涉及的技术难点、算法理论及改进; 第三章:在讨论和比较模式发现一般方法的基础上,选择关联规则方法用于 本项目课题,创新性的提出一种改进的a p r i o r i 算法并通过实验结果验证; 1 3 浙江大学硕士学位论文第1 章绪论 第四章:介绍了基于搜索引擎精准营销应用的,采用前述算法的w e b 访问 行为分析软件平台的设计思路、组成模块及应用,着重体现可看性实用性,并以 实例演示说明; 第五章:阐述w e b 访问行为分析的应用,包括搜索引擎优化和个性化搜索 引擎精准营销,着重在前者:依据w e b 访问行为分析结果,以某二手车经营网 站为实例,从网站自身优化和关键词优化两方面提出搜索引擎优化的具体内容。 第六章:对目前的研究工作予以总结,并指出需要进一步完善的部分以及今 后的研究发展方向。 1 4 浙江大学硕士学位论文第2 章w e b 日志数据的来源及预处理 第2 章w e b 日志数据的来源及预处理 互联网充斥着海量数据,因为它本身就是个数字的世界,这些数据往往又是 不完整的、含噪声的和不一致的。w e b 日志文件记录了网络用户访问站点的原 始记录,但是这些记录往往并不能完全真实的反应用户浏览站点时的情况,如果 直接在这些数据上做分析,得到的结果往往不是我们想要的,所以高质量的数据 对于w e b 访问行为分析来说至关重要。原始数据经过一系列加工到可用数据的 过程,就是数据预处理,它是w e b 访问行为分析结果质量好坏的前提。 本章论述w e b 访问行为分析所需的数据源的组成,以及由收集到抽取到预 处理到可以模式识别的半成品的加工过程。着重在预处理的过程,尤其是部分技 术难点的分析以及算法的设计实现。 2 1w e b 日志数据源的收集 w e b 访问行为分析用数据,主要来自于日志文件,包括w e b 服务器数据、 w e b 代理服务器数据、客户端数据、搜索服务器数据等。 ( 1 ) w e b 服务器端数据收集。w e b 服务器的日志显式地记录了所有w e b 用户对该服务器站点的访问行为,是w e b 访问行为分析的主要数据源。服务器 日志包括服务器日志( s e r v e rl o g s ) 、出错日志( e r r o rl o g s ) 、c o o k i e 日志( c o o k i e l o g s ) 等三种。日志数据包括客户端i p 地址,用户j d ,访问时间,请求方法, 状态,传送的字节,引用和客户使用的a g e n t 等等。但客户端日志在记录用户 信息方面也有一定的限制和不准确性,具体体现在:用户缓存、浏览器缓存、代 理服务器、局域网防火墙等,为此需要其他日志的补充。 ( 2 ) 客户端数据收集。与前者相比,客户端数据的收集有许多优势尤其是 可以解决缓存和会话识别的问题。客户端数据的收集可以使用如j a v a s c r i p t 、 j a v aa p p l e t 等远程代理的办法,可以通过修改用户浏览器软件( 例如m o s a i c 和m o z i l l a ) ,但这两种办法都需要用户的配合。并且,j a v aa p p l e t s 仍然不能精 确决定用户实际的页面浏览时间,程序下载到主机的速度会比较慢。对于页面重 新加载和“倒退按钮”的等动作,j a v a s c r i p t 不能准确捕获所有的点击。上述这 1 5 浙江大学硕士学位论文 第2 章w e b 日志数据的来源及预处理 些办法收集了单用户、单站点的浏览行为。浏览器软件的修改通用性更大,允许 收集单用户对多个站点的浏览数据,但大多数用户因为安全性的考虑,并不愿意 配合。 ( 3 ) w e b 代理服务器数据收集。通过w e b 代理服务器链接到互联网,是 很多局域网用户最常用的形式,代理服务器是网络用户和w e b 站点服务器之间 的连接纽带。它用来缓存最近访问的页面,以减少网络负载和用户的等待时间, 缓存的性能依赖于对用户下一步请求预测的准确程度。代理服务器日志数据用来 分析连接到同一代理服务器上的多用户对多站点的浏览行为。w e b 代理服务器 的存在,对于服务器端数据的可靠性是个挑战。 ( 4 ) 搜索服务器端的数据收集。w e b 访问行为分析应用于搜索引擎精准营 销,需要对网站的被搜索引擎搜索的相关数据进行分析。因此从搜索引擎服务提 供商处收集搜索相关的数据,比如使用的搜索关键词,频率等等,这些数据对 于网站的搜索营销来说,至关重要。 2 2w e b 日志数据源的组成与抽取 2 2 1 网站自身相关数据及抽取 w e b 访问行为分析的数据源分为四种类型川: - 内容数据:w e b 页面的真实数据,包括w e b 页面上用户能直接感官到 的数据,如文本、图像和视频音频等; 结构数据:描述内容的组织结构的数据,列入一个页面到另一个页面的 超链接信息等; _ 用户使用记录数据:描述w e b 页面的使用模式的数据,例如i p 地址, 访问的页面及访问日期和具体时间等; 一用户轮廓:提供用户访问站点的统计信息。 w e b 访问行为分析的数据来源和数据结构的异构性,部分数据的不完全相 关性、冗余性和概念上的模糊性以及海量数据中可能存在的无意义信息等问题使 得数据源的数据中还需要进一步去构建和辨认。 1 6 浙江大学硕士学位论文第2 章w e b 日志数据的来源及预处理 w e b 访问日志记录的格式主要有通用日志格式c l f ( c o m m o nl o gf o r m a t ) 和扩展型日志格式( e 斌e n d e dl o gf o r m a t ) ,其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论