高级数据挖掘_第1页
高级数据挖掘_第2页
高级数据挖掘_第3页
高级数据挖掘_第4页
高级数据挖掘_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高级数据挖掘第一部分文本挖掘第二部分电子商务和WEB挖掘第三部分大数据简介第一部分文本挖掘文本挖掘概述1文本数据分析和信息检索2文本的维度归约3文本挖掘方法4文本挖掘的背景数据挖掘大部分研究主要针对结构化数据,如关系的、事务的和数据仓库数据。现实中大部分数据存储在文本数据库中,如新闻文章、研究论文、书籍、WEB页面等。存放在文本数据库中的数据是半结构化数据,文档中可能包含结构化字段,如标题、作者、出版社、出版日期等,也包含大量非结构化数据,如摘要和内容等。1、文本挖掘概述1、文本挖掘概述传统的自然语言理解是对文本进行较低层次的理解,主要进行基于词、语法和语义信息的分析,并通过词在句子中出现的次序发现有意义的信息。文本高层次理解的对象可以是仅包含简单句子的单个文本也可以是多个文本组成的文本集,但是现有的技术手段虽然基本上解决了单个句子的分析问题,但是还很难覆盖所有的语言现象,特别是对整个段落或篇章的理解还无从下手。将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(TextMining)或文本知识发现(KnowledgeDiscoveryinText).文本检索应用实例文本检索过程文档检索基本步骤文本挖掘与数据挖掘的区别:文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识因此,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。文本挖掘与数据挖掘的区别数据挖掘文本挖掘研究对象用数字表示的、结构化的数据无结构或者半结构化的文本对象结构关系数据库自由开放的文本目标获取知识,预测以后的状态提取概念和知识方法归纳学习、决策树、神经网络、粗糙集、遗传算法等提取短语、形成概念、关联分析、聚类、分类成熟度从1994年开始得到广泛应用从2000年开始得到广泛应用文本挖掘概念文本挖掘旨在通过识别和检索令人感兴趣的模式,进而从数据源中抽取有用的信息。文本挖掘的数据源是文本集合,令人感兴趣的模式不是从形式化的数据库记录里发现,而是从非结构化的数据中发现。文本挖掘处理过程特征的建立特征集的缩减学习与知识模式的提取知识模式模式质量的评价文档集文本挖掘的一般处理过程2、文本数据分析和信息检索信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,人们借助某种检索工具,运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息。1.文本检索的基本度量2.文本检索方法3.文本索引技术4.查询处理技术2、文本数据分析和信息检索信息检索研究的是大量基于文本的文档信息的组织和检索,如联机图书馆系统、联机文档管理系统和WEB搜索引擎。数据库系统关注结构化数据段查询和事务处理。

信息检索研究的典型问题是根据用户查询(描述所需信息的关键词),在文档中定位相关文档。2.1文本检索的基本度量查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性信息检索的度量方式{relevant}:与某查询相关的文档的集合{retrieved}:系统检索到的文档的集合。{relevant}∩{retrieved}:既相关又被检索到的实际文档的集合。查准率(precision):既相关又被检索到的实际文档与检索到的文档的百分比。查全率(recall):既相关又被检索到的实际文档与查询相关的文档的百分比。模型质量的评价实例{relevant}={A,B,C,D,E,F,G,H,I,J}=10{retrieved}={B,D,F,W,Y}=5{relevant}∩{retrieved}={B,D,F}=3查准率:precision=3/5=60%查全率:recall=3/10=30%B,D,F相关并被检索到的文档所有文档A,C,E,G,H,I,J相关的文档

W,Y被检索到的文档2.2文档检索方法文档选择查询是对选择相关文档指定约束条件,典型方法是布尔检索模型。文档秩评定查询是按相关的次序评定所有文档的秩。即将查询中的关键词与文档中的关键词进行匹配,根据匹配查询的程度给每个文档打分。基于模型的检索布尔模型:将用户提问表示成布尔表达式,查询式是由用户提问和操作符and、or、not组成的表达式向量空间模型:有一特征表示集,特征通常为字或词。用户提问与文本表示成高维空间向量,其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q,可以将所有文档d分为两类,一类与查询相关(集合R),另一类与查询不相关(集合N,是R的补集)文本符号化符号化:为表示文档而标识关键词。停用词表:看上去“不相关的”词的集合。例如:a,the,of,for,with等都是停用词。词根:文本检索系统需要识别互为句法变体的一组词,并且只收集每组词的公共词根。例如:一组词drug,drugged,和drugs具有公共词根drug,可以看做同一个词的不同出现。文档建模向量空间模型:从d个文档的集合和t个词的集合开始,可以把每个文档用t维空间Rt的向量v建模。词频:指词t在文档d中出现的次数,即freq(d,t).(加权的)词频矩阵TF(d,t):用来度量词t与给定文档d之间的关联度。逆文档频率IDF:表示词t的缩放因子或重要性。如果词t出现在许多文档中,由于其区分能力减弱,所以它的重要性也降低。如果|dt|<<|d|,词t将有很大的IDF缩放因子,反之亦然。文档建模词频矩阵行对应关键词t,列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度表示文档词频的词频矩阵d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t430140702011635向量空间模型维度权值计算方法

目前广泛采用TF/IDF权值计算方法,

TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF词频(TermFrequency)指的是某一个给定的词语在该文件中出现的次数。

IDF逆文档频率(InverseDocumentFrequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。在完整的向量空间模型中,将TF和IDF组合在一起,形成TF-IDF度量:TF-IDF(d,t)=TF(d,t)*IDF(t)基于相似性的检索根据一个文档集合d和一个项集合t,可以将每个文档表示为在t维空间R中的一个文档特征向量v。向量v中第j个数值就是相应文档中第j个项的量度。计算两个文档相似性可以使用上面的公式余弦计算法(cosinemeasure)文档间相似性计算举例文档向量化查询:相关度文档间相似度(余弦定理)2.3文本索引技术倒排索引(invertedindex)一种索引结构,包含两个哈希表索引表或两个B+树索引表文档表(document_table)词表(term_table)doc_IDposting_listterm_IDposting_listDoc_1t1_1,...,t1_nTerm_1doc_1,...,doc_iDoc_2t2_1,...,t2_nTerm_2doc_1,...,doc_j┇

Doc_ntn_1,...,tn_nTerm_ndoc_1,...,doc_n找出与给定词集相关的所有文档找出与指定文档相关的所有词易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大倒排表倒排表例子倒排表存储结构特征文件(signaturefile)定义:是一个存储数据库中每一个文档的特征记录的文件方法:每一个特征对应一个固定长度的位串,一个比特位对应一个词汇,若某一位对应的词出现在文档中,则该位置1,否则置0。S1S2按位操作进行匹配,确定文档的相似形可以多词对应一个比特位,来减少位串的长度,但增加搜素开销,存在多对一映射的缺点。111…1110…12.4查询处理技术创建倒排索引,查找包含关键词的文档,检索系统可以迅速回答关键词查询。相关反馈:在获得相关文档的实例后,系统可以从实例学习提高检索的性能。伪反馈(盲目反馈):当没有这些相关实例时,系统可以假设在初始的检索结果中的前几个检索的文档是相关的,并提取更多相关的关键词来扩展查询。关键词检索存在的问题同义词问题:具有相同或相近含义的两个词具有很不相同的外在形式。例如:用户的查询使用词“automobile”,而相关文档用的不是“automobile”,而是“vehicle”。多义词问题:相同的关键词,如“mining”或“java”在不同的上下文中可能意味着不同的事物。3.文本的维度规约对于任何一个非平凡的文档数据库,词的数目T和文档数目D通常都很大,如此高的维度将导致低效的计算,因为结果频度表大小为T*D。高维还会导致非常稀疏的向量,增加监测和探查词之间联系的难度。维度归约使用数据编码或变换,以便得到原数据的归约或“压缩”表示。如果原数据可以由压缩数据重新构造而不丢失任何信息,则该数据归约是无损的。如果我们只能重新构造原数据的近似表示,则该数据归约是有损的。3.1潜在语义索引(LSI)潜在语义索引(LSI)——最流行的文档维度归约算法,基于SVD(奇异值分解)LSI基本思想:提取最具代表性的特征,同时最小化同构错误。SVD分解词-文档矩阵:X=U∑V’∑是X的奇异值,U、V为左右奇异向量LSI目标函数:约束为

奇异值分解(SingularValueDecomposition)是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵对角化的推广。奇异值分解在某些方面与对称矩阵或Hermite矩阵(共轭矩阵)基于特征向量的对角化类似。然而这两种矩阵分解尽管有其相关性,但还是有明显的不同。对称阵特征向量分解的基础是谱分析,而奇异值分解则是谱分析理论在任意矩阵上的推广。潜在语义标引(latentsemanticindexing)方法潜在语义标引方法基本步骤:1.建立词频矩阵,frequencymatrix2.计算frequencymatrix的奇异值分解分解frequencymatrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K)3.对于每一个文档d,用排除了SVD中消除后的词的新的向量替换原有的向量4.保存所有向量集合,用高级多维索引技术为其创建索引5.用转换后的文档向量进行相似度计算3.2局部保留标引(LPI)局部保留标引(LPI):提取最有判别力的特征LPI基本思想:保留局部信息(相邻文档可能涉及相邻主题,LPI的映射能够使设计相同语义的文档尽可能靠近)LPI目标函数:约束为3.3概率潜在语义标引(PLSI)概率潜在语义标引(PLSI):类似于LSI,通过混合概率模型实现维度归约。PLSI基本思想:文档中有k个潜在的公共主题,使用文档的混合权重,得到k个新的语义维。4.文本挖掘方法文本挖掘功能层次

关键词相似检索词语关联分析自然语言处理文本聚类文本分类文本挖掘功能层次(1)关键词检索关键词建立倒排文件索引,与传统的信息检索使用的技术类似。(2)相似检索找到相似内容的文本。(3)词语关联分析聚焦在词语(包括关键词)之间的关联信息分析上。(4)文本聚类和文本分类实现文本的聚类和分类。(5)自然语言处理揭示自然语言处理技术的语义,进行文本语义挖掘。4.1关联分析挖掘在文本数据库中,每一文本被视为一个事务,文本中的关键词组可视为事务中的一组事务项。即文本数据库可表示为:{文本编号,关键词集}文本数据库中关键词关联挖掘的问题就变成事务数据库中事务项的关联挖掘。

关联分析挖掘可以用于找出词或关键词间的关联。

4.1关联分析挖掘输入语义信息,如事件、事实或信息提取发现的实体输入是标记的集合输入是文档中关键词或词的集合基于关键词的方法标记方法信息提取方法4.1关联分析挖掘关联分析过程:对文本数据进行分析、词根处理、去除停词等预处理,再调用关联挖掘算法基于关键词的关联技术:收集频繁出现的关键词或词汇,找出其关联或相互关系关联挖掘关联挖掘有助于找出符合关联,即领域相关的术语或短语4.1关联分析挖掘基于关键字的关联分析基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合,然后发现其中所存在的关联性关联分析对文本数据库进行预处理,生成关键字向量,根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果,然后调用关联挖掘算法4.2文档分类分析4.2文档分类分析自动文档分类是指利用计算机将一篇文章自动地分派到一个或多个预定义的类别中文档分类的关键问题是获得一个分类模式,利用此分类模式也可以用于其他文档的分类有了一个模式之后,需要进行人工标记和训练,以确定这个模式的参数,然后才能进行自动的文档分类4.2文档分类分析应用领域门户网站(网页)图书馆(电子资料)…自动分类优点:减小人工分类的繁杂工作提高信息处理的效率

减小人工分类的主观性4.2文档分类分析步骤定义分类体系将预先分类过的文档作为训练集从训练集中得出分类模型(需要测试过程,不断细化)用训练获得出的分类模型对其它文档加以分类4.2文档分类分析文本分类基本步骤4.2文档分类分析文本分类过程特征选择

方法贝叶斯分类最近邻分类相似文档具有相似文档向量,将每个文档关联到相应的类标号将文档分类看做计算文档在特定类中的统计分布文档分类支持向量机使用数表示类,构建从词空间到类变量的直接映射函数(在高维空间中运行良好,最小二乘线性回归方法区分能力较强)基于关联的、频繁出现的文本模式集对文档分类基于关联的

分类删除文档中与与类标号统计不相关的非特征词4.2文档分类分析4.3文档聚类分析文本聚类是根据文本数据的不同特征,将其划分为不同数据类的过程其目的是要使同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能的大文档自动聚类的步骤(1)获取结构化的文本集(2)执行聚类算法,获得聚类谱系图。聚类算法的目的是获取能够反映特征空间样本点之间的“抱团”性质(3)选取合适的聚类IA值。在得到聚类谱系图后,领域专家凭借经验,并结合具体的应用场合确定阈值(4)执行聚类算法,获得聚类结果4.3文档聚类分析混合模型聚类使用潜在语义标引聚类(LSI)光谱聚类对原始数据进行维度归约,运用传统的聚类方法(如k均值,缺点是计算昂贵)对文本数据和先验知识估计模型参数,基于参数推断聚类最小化全局重构误差下,找到原文档空间的最佳子空间近似文档聚类

分析使用保持局部性标引聚类(LPI)发现局部几何结构,具有更强的区分能力4.3文档聚类分析文档自动聚类的类型平面划分法:对包含n个样本的样本集构造样本集的k个划分,每个划分表示一个聚簇层次聚类法:层次聚类法对给定的样本集进行层次分解。根据层次分解方向的不同可分为凝聚层次聚类和分裂层次聚类基于密度的方法:根据样本点临近区域的密度进行聚类,使在给定区域内至少包含一定数据的样本点基于网格的方法:采用多分辨率的网格数据结构,将样本空间量化为数量有限的网格单元,所有聚类操作都在网格上进行基于模型的方法:为每个簇假定一个模型,然后通过寻找样本对给定模型的最佳拟合进行聚类4.3文档聚类分析平面划分法将文档集D={d1,…,di,…,dn}水平地分割为的若干类,具体过程:1.确定要生成的类的数目k;2.按照某种原则生成k个聚类中心作为聚类的种子S={s1,…,sj,…,sk};3.对D中的每一个文档di,依次计算它与各个种子sj的相似度sim(di,sj

);4.选取具有最大的相似度的种子argmaxsim(di,sj

),将di归入以sj为聚类中心的类Cj,从而得到D的一个聚类C={c1,…,ck};5.重复步骤2~4若干次,以得到较为稳定的聚类结果。该方法速度快,但k要预先确定,种子选取难4.3文档聚类分析层次聚类法具体过程将文档集D={d1,…,di,…,dn}中的每一个文档di看作是一个具有单个成员的类Ci={di},这些类构成了D的一个聚类C={c1,…,ci,…,cn};计算C中每对类(ci,cj

)之间的相似度sim(ci,cj

);选取具有最大相似度的类对argmaxsim(ci,cj

),并将ci和cj合并为一个新的类ck=ci∪cj

,从而构成D的一个新的类C={c1,…,cn-1};重复上述步骤,直到C中只剩下一个类为止。……4.3文档聚类分析电子商务与数据挖掘基于WEB日志的用户访问模式挖掘第二部分电子商务与数据挖掘——完美结合在电子商务中进行成功的数据挖掘得益于:电子商务提供海量的数据丰富的记录信息良好的WEB站点设计将有助于获得丰富的信息干净的数据从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合研究成果容易转化在电子商务中,很多知识发现都可以进行直接应用投资收益容易衡量电子商务为数据挖掘提供海量数据“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据Yahoo!在2000年每天被访问的页面数是10亿,如此大的访问量将会产生巨大的Web日志(记载页面访问的情况),每个小时产生的Web日志量就达到10GB!即便是一个小的电子商务站点,也会在断时间内产生进行数据挖掘所需的大量数据丰富的记录信息如果你的电子商务站点设计的好,你将可以获得各种商务的或者是用户访问的信息:商品和商品的属性商品的归类信息(当同时展示多种商品是,归类信息是非常有用的)促销信息关于访问的信息(比如:访问计数)关于客户额信息(可以通过登陆/注册来获得)“干净的数据”信息直接从网站上提取无需从历史系统中集成,避免很多错误可以通过良好的站点设计,直接获得跟数据挖掘有关的数据而不是再来分析、计算、预处理要用的数据直接收集的电子数据——可靠无需人工数据输入,避免了很多错误可以通过良好的站点设计,良好的控制数据采样的颗粒度颗粒度控制在客户级别或者是session级别,而不是页面级别研究成果容易转化历史上的数据挖掘研究有过许多的知识发现,但是这些知识发现却很少在实际的商业应用中产生什么效果要应用这些发现的知识可能意味着要进行复杂的系统更改、流程更改或是改变人们的办事习惯,这在现实中是非常困难的。在电子商务中,很多知识发现都可以进行直接应用改变站点的设计(改变布局,进行个性化设计等)开始有目标的促销根据对广告效果的统计数据改变广告策略可以很容易的提供捆绑销售投资收益容易衡量使用数据挖掘成果的革新带来的收益如何衡量?在传统的商业中衡量投资收益需要长期的测量和观察,PacoUnderhill在《购物的科学》一书中提及,一个超市为了衡量他们的促销策略带来的投资收益,每年要花14,000个小时查看录像带。在电子商务中,衡量革新的投资收益是非常容易的销售变化的报表可以自动产生客户对电子邮件和电子调查的反馈都可以在几天内得到,而不必等个几个月电子商务乃至整个互联网都是传统商业的理想试验室。对电子商务网站的Web数据挖掘通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。我们可以在一个电子商务网站挖掘些什么东西?内容挖掘(WebContentMining)结构挖掘(WebStructureMining)使用挖掘(WebUsageMining)WebContentMining对Web页面内容进行挖掘,从Web数据中发现信息。自动地从数以百万计的Web站点和在线数据库中搜索和获取信息和资料;尽管人们可以直接从网上通过抓取建立索引,实现检索服务来获得资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。PageRank算法概述

PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。

是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。PageRank算法概述在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。从入链数量到PageRank

在PageRank提出之前,已经有研究者提出利用网页的入链数量来进行链接分析计算,这种入链方法假设一个网页的入链越多,则该网页越重要。早期的很多搜索引擎也采纳了入链数量作为链接分析方法,对于搜索引擎效果提升也有较明显的效果。PageRank除了考虑到入链数量的影响,还参考了网页质量因素,两者相结合获得了更好的网页重要性评价标准。

从入链数量到PageRank对于某个互联网网页A来说,该网页PageRank的计算基于以下两个基本假设:

数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。

质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要从入链数量到PageRank利用以上两个假设,PageRank算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的PageRank得分,直到得分稳定为止。

PageRank计算得出的结果是网页的重要性评价,这和用户输入的查询是没有任何关系的,即算法是主题无关的。PageRank算法原理PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下:

1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。

2)在一轮中更新页面PageRank得分的计算方法:在一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值,就完成了一轮PageRank计算。

基本思想

如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/L(T)

其中PR(T)为T的PageRank值,L(T)为T的出链数

则A的PageRank值为一系列类似于T的页面重要性得分值的累加。

即一个页面的得票数由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。WebStructureMiningWebStructureMining是对Web页面之间的结构进行挖掘。在整个Web空间,有用的知识不仅包含在页面的内容中,而且也包含在页面的结构中。Web结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可用来改进搜索路径等。WebUsageMining与WebContentMining和WebStructureMining不同的是,WebUsageMining的挖掘对象是用户和网络交互过程中抽取出来的二手数据,这些数据主要是用户在访问Web时在Web日志里留下的信息,以及其它一些交互信息,日志信息包括访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等。WebUsageMining就是对系统日志信息,以及用户的注册数据等进行挖掘,以发现有用的模式和知识。WebUsageMining的作用通过对电子商务网站应用WebUsageMining数据挖掘技术,可以提高站点的质量改善WEB缓存,缓解网络交通,提高性能在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能Web日志(1)典型的日志文件片断--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"20085295--[01/Aug/1995:00:01:39-0400]"GET/shuttle/missions/sts-72/mission-sts-72.htmlHTTP/1.0"200380480--[01/Aug/1995:00:01:48-0400]"GET/persons/nasa-cm/jmd.htmlHTTP/1.0"2004067WEB日志通常包含7个字段:第一项:远程主机的地址,即它表明访问网站的究竟是谁。第二项:浏览者的email地址或者其他唯一标识符。到了今天,我们在日志记录的第二项看到email地址的机会已经微乎其微,所以上面用-,标志字段为空Web日志(2)典型的日志文件片断--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"2008529第三项:记录浏览者进行身份验证时提供的名字;对于不需要用户身份验证的网站,这个字段都是空白-;第四项:请求的时间;第五项:告诉我们服务器收到的是一个什么样的请求。该项信息的典型格式是“METHODRESOURCEPROTOCOL”,即“方法资源协议”;这是Web日志中最有用的信息,在上面的示例中METHOD是GETRESOURCE是指浏览者向服务器请求的文档,或URLPROTOCOL通常是HTTP,后面再加上版本号。Web日志(3)典型的日志文件片断--[01/Aug/1995:00:01:38-0400]"GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.0"2008529第六项:状态代码。它告诉我们请求是否成功,或者遇到了什么样的错误。大多数时候,这项值是200,它表示服务器已经成功地响应浏览器的请求,一切正常。第七项:发送给客户端的总字节数。WebUsageMining的基本过程进行WebUsageMining主要是通过对系统日志信息的数据挖掘Web服务器日志ErrorLogsCookiesWebUsageMining的基本实现过程预处理模式发现模式分析预处理通过预处理,使挖掘过程更有效、更容易数据清洗其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉;比如:剔除用户请求方法中不是GET的记录;用户识别日志文件只是记录了主机或代理服务器的IP地址,要识别用户,需要Cookie技术和用一些启发规则来帮助识别;路径补充确认Web日志中是否有重要的页面访问记录被遗漏;事件识别事件识别是与要挖掘什么样的知识有关,将用户会话针对挖掘活动的特定需要进行事件定义。模式发现在经过预处理后的数据上应用各种数据挖掘的功能和算法,挖掘出有用的模式和规则的过程。WebUsageMining中用到的Web日志分析及用户行为模式的挖掘方法包括:关联分析分类和预测聚类分析序列模式统计分析WebUsageMining——关联分析(1)通过分析用户访问网页间的潜在联系而归纳出的一种规则;如80%的用户访问Web页面/company/product1时,也访问了/company/product2;常用算法Apriori算法或其变形算法,频繁模式树(FP-树)算法等等,挖掘出访问页面中频繁的在一起被访问的页面集比如可以通过A=>B=>CA=>B=>DA=>BA=>B=>E=>FWebUsageMining——关联分析(2)可以使用通过关联分析挖掘出来的频繁项集(页面集)来预取可能请求的页面,以减少等待时间,对于频繁项集(页面集){A,B},在用户访问A时,将页面B调入缓存中,从而改善Web缓存,缓解网络交通,提高性能促进网上商务对于频繁项集{A,B},如果分别代表两个产品的页面,则说明这两个产品间存在相关性,可以利用这点在电子商务的实践中给出更有效的促销策略或广告策略WebUsageMining——分类和预测分类和预测功能可以用来提取描述重要数据类的模型,并使用模型预测来判定未知数据的类标号,从而预测未来的数据趋势。常用算法:判定归纳树、贝叶斯分类、k-最近邻分类等应用:可以根据用户的个人资料或者其特定的访问模式,将其归入某一特定的类可以根据用户对某类产品的访问情况,或者时根据其购物情况,或者根据其购物车的情况,来决定用户的分类(e.g.对电子产品感兴趣的用户),并对相应的分类使用相应的促销策略。WebUsageMining——聚类分析(1)聚类:将对象的集合分组成为由类似的对象组成的多个类的过程。(与分类的区别?)常用聚类算法:划分方法、层次的方法、基于密度的方法等等。在WebUsageMining应用中包含着两种聚类。页聚类将内容相关的页面归在一个网页组,对网上搜索引擎及提供上网帮助很有用用户聚类将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用WebUsageMining——聚类分析(2)聚类分析可以喜好类似的用户,从而动态地为用户定制观看的内容或提供浏览建议。比如:购买推荐系统或动态促销系统作用:1)方便用户查询和浏览2)增强广告的作用3)促进网上销售4)提高用户忠诚度WebUsageMining——统计分析(1)

统计分析通过求出现率、求平均、求中值等,统计最常访问的网页,每页平均访问的时间,浏览路径的平均长度等,以获得用户访问站点的基本信息。还能提供有限的低层次的错误分析,比如检测未授权入口点,找出最常见不变的URL等。可以用来计算客户对某页面的访问次数,停留时间等,得到访问次数最多的页面(或产品、URL等)WebUsageMining——统计分析(1)常用的电子商务网站用户访问数据统计(节选)平均一个用户访问8-10个页面在站点上花5分钟每个页面上花35秒平均一个购物的用户访问50个页面在站点上花30分钟这是经过大量的数据统计得出的结果,具有高度一致性。WebUsageMining——序列模式序列模式试图找出页面依照时间顺序出现的内在模式序列模式可以用来做用户的浏览趋势分析,即一组数据项之后出现另一组数据项,从而形成一组按时间排序的会话,以预测未来的访问模式,这将有助于针对特别用户群安排特定内容。趋势分析访问模式的相似性分析模式分析在挖掘出一系列用户访问模式和规则后,还需要进一步观察发现的规则、模式和统计值。确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型。经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。第三部分大数据简介2023/5/996BIGDATA微博为新浪带来巨大价值马云的判断来自于数据分析“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。什麼才是大數據?指数型增长的海量数据海量數據就是大數據嗎?

大數據就是雲計算嗎?

大数据的4V特性体量V

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论