第三章电子商务信息搜集10-09_第1页
第三章电子商务信息搜集10-09_第2页
第三章电子商务信息搜集10-09_第3页
第三章电子商务信息搜集10-09_第4页
第三章电子商务信息搜集10-09_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章电子商务信息搜集主要内容3.1、电子商务信息搜集途径3.2、Web2.0环境下电子商务信息搜集3.3、关键绩效指标信息3.4、电子商务信息数据挖掘2023/2/513.1.1搜索引擎搜索引擎采用“机器人”、“蜘蛛”、“爬虫”等软件不间断地在网上抓取网页信息,并建立相应索引数据库,从而实现对用户提出的各种查询做出响应。

美国:google、雅虎等

中国:百度、搜狗等2023/2/523.1电子商务信息搜集途径搜索引擎基本结构数据采集:Robot定期对Web站点的网页进行遍历,将搜集的页面信息存入到“网页数据库”标注索引:对搜集数据的内容分析和分词,构建倒排索引表数据检索:根据用户查询请求,在索引库中查询匹配2023/2/532023/2/54Robot搜集数据库Indexer索引数据库UserProfile检索器用户接口数据挖掘Web1)标注索引2023/2/55例:0号文件内容:itiswhatitis1号文件内容:whatitis2号文件内容:itisabanana倒排序列表如作图所示:

2023/2/56分词文件序号a2banana2is0,1,2it0,1,2what0,1若检索条件是:

“what”*“is”*“it”{0,1}∩{0,1,2}{0,1,2}={0,1}2023/2/57例:0号文件内容:重庆南方翻译学院1号文件内容:重庆南方集团2号文件内容:渝北回兴南方翻译学院则其倒排列表为:2023/2/58分词结果文件序号

重庆0,1

南方0,1,2

翻译0,2

学院0,2

集团1渝北2回兴2

检索条件检索结果

“南方”*“学院”{0,1,2}∩{0,2}={0,2}“重庆”*“集团”{0,1}∩{1}={1}“回兴”+“重庆”{2}∪{0,1}={0,1,2}2023/2/592)检索表达式构造方法(i)布尔逻辑检索策略检索符:*,+,-(ii)截词检索策略检索符:*(任意多个字符),

?(任意一个字符)比如:张*,张?(iii)限制检索策略“Title”,

”keywords”,”mp3”,”author”2023/2/510(iv)位置逻辑检索策略

常用检索符:W,N,FWith(W):A(nW)B表示词A与词B之间最多可以插入n个其他词,词A与词B前后顺序不变;Near(N):A(nN)B表示词A与词B之间最多可以插入n个其他词,词A与词B不必保持前后顺序;2023/2/511

Field(F):A(F)B表示词A与词B必须同时出现在一个字段中,如同时出现在摘要,关键字,篇名中;各词之间可以插入任意个其他词,词序任意变化;2023/2/5123.1.2目录检索雅虎,galaxy,搜狐,美国虚拟图书馆等,按类别提供相应的网络资源地址3.1.3网络站点3.1.4网络数据库知网,万方,维普等3.1.5隐形网络2023/2/5133.2、Web2.0环境下电子商务信息搜集Web2.0环境下搜集方式1)blog:网络日志,以网络作为载体,用户对相关话题发表自己的观点,及时与他人交流的个性化平台。主要通过企业和公司的博客获得有价值商务信息。2023/2/5142)Tag:是更为有趣、灵活的分类方式,通过对文档日志添加不同的标签实现多种分类。比如:您写了一篇北京旅游的日志,原先都放到自己的“游记”分类下,但是有了Tag之后,您可以给这篇日志同时加上“旅游”,“北京”,“天安门”,“长城”等几个Tag,当浏览者点击任意一个Tag时,都会看到您的日志。2023/2/515RSS(RichSiteSummary):丰富的站点摘要2023/2/516

常用的RSS阅读器Googlereader新浪点点通阅读器AbotNewsReader2023/2/5173.3、关键绩效指标信息2023/2/518网站类型

网站经营内容关键绩效指标

电子交易网站网络购物成交数量平均单笔成交额平均单笔成交品种注册登录分布业务统计离线交易频率新老访客比

品牌推介网站吸引客户认识、接纳特定品牌的商品平均逗留时间访问深度访问间隔访问频率访客与非访客平均单笔交易额之比客户满意度调查品牌形象变化调查2023/2/519网站类型

网站经营内容关键绩效指标

信息产品内容服务网站以游戏、文献资料、多媒体、证书认证等与客户交易每周访客数量广告点击率新老客户比访问间隔访问频率访客黏度3.4、电子商务信息数据挖掘数据挖掘:从大量的、不完全的、有噪声的数据中提取有用知识的过程。数据挖掘主要方法有:统计分析(相关分析、因子分析、回归分析)、分类(贝叶斯、决策树、人工神经网络,支持向量机等)、聚类(k-means聚类、密度聚类)、关联规则分析(APRIORI)2023/2/5203.4.1Bayes分类以概率论为依据,由先验概率推导出后验概率托马斯·贝叶斯(1701-1761)英国牧师和数学家。为了证明上帝的存在,他提出了概率统计学原理。遗憾的是,他的美好愿望至今未能实现。贝叶斯理论广泛应用于人工智能,统计决策等领域。2023/2/5211)条件概率定义设A,B两个随机事件,且P(A)>0.称

为A事件发生的条件下B事件发生的概率2023/2/522例:将一枚硬币抛掷两次,观察正反面的情况,设A为“至少有一次为H”,事件B为“两次掷出同一面”,求已知事件A已经发生的条件下事件B发生的概率。样本空间(随机试验所有可能结果组成的集合)为S={HH,HT,TH,TT};事件A={HH,HT,TH},事件B={HH,TT}

2023/2/5232)划分的定义设S为随机试验E的样本空间,B1,B2,…,Bn为E的一组事件(样本空间的子集),若(i)Bi∩Bj=Ø,i≠j,i,j=1,2,…,n(积事件)(ii)B1,∪B2∪,…,∪Bn

=S(和事件)则称B1,B2,…,Bn为E的一个划分。

2023/2/524例:设随机试验E为“掷一颗骰子观察其点数”,其样本空间为S={1,2,3,4,5,6},则E的一组事件B1={1,2,3},B2={4,5},B3={6}是S的一个划分;C1={1,2,3},C2={3,4},C3={5,6}不是S的一个划分。2023/2/5253)全概率公式设S为随机试验E的样本空间,B1,B2,…,Bn为E的一个划分,且P(Bi)>0(i=1,2,…,n),则称P(A)=P(AB1)+P(AB2)+…..+P(ABn)=P(A|B1)P(B1)+P(A|B2)P(B2)+…..+P(A|Bn)P(Bn)为全概率公式。2023/2/526在许多实际问题中,P(A)不容易直接求得,但却容易找到S的一个划分B1,B2,…,Bn并且P(Bi)和P(A|Bi)容易得到,此时就可用全概率。2023/2/527例:某一个电子设备制造厂所用的元件由三家元件制造厂提供,以往记录有以下数据,设这三家工厂产品在仓库均匀混合,且无区别标志在仓库中随机取一只元件,求它是次品的概率2023/2/528元件制造厂

次品率份额10.020.1520.010.8030.030.05设A表示“取到的是一只次品”,Bi(i=1,2,3)表示“取到的产品是由第i家工厂提供”,则B1

,

B2

,B3是样本空间的一个划分。P(B1)=0.15,P(B2)=0.80,P(B3)=0.05P(A|B1)=0.02,P(A|B2)=0.01,P(A|B3)=0.03由全概率公式可知P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)=0.0125

2023/2/5294)贝叶斯公式设S为随机试验E的样本空间,A为E的事件,B1,B2,…,Bn为E的一个划分,且P(A)>0P(Bi)>0(i=1,2,…,n),则称为贝叶斯公式2023/2/530依上例,在仓库中随机取一只元件,若它是次品,求此次品有那家工厂生产的概率最大由贝叶斯公式得:2023/2/5313.4.2决策树分类算法决策树的基本思想:(1)在数据集的所有非类别属性中找出一个最具有分辨能力(提供信息量最大)的属性作为树根节点,并用其将数据集分成若干子集,对每一个子集重复上述操作,直到所有的子集都只含有同类型数据。(2)用得到的决策树新样本分类2023/2/532广泛使用的决策树算法有:ID3(重点讲解)、C4.5等ID3引入信息论中的互信息(信息增益),作为判断非类别属性分辨能力的度量,即计算各个非类别属性与类别属性的互信息,找出最大者作为决策树的根节点,直到所有的子集都只含有同类型数据。2023/2/5332023/2/534NoOutlookTemperatureWindyHumidityPlay1sunnyhotfalsehighno2sunnyhottruehighno3overcasthotfalsehighyes4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno7overcastcooltruenormalyes8sunnymildfalsehighno9sunnycoolfalsenormalyes10rainmildfalsenormalyes11sunnymildtruenormalyes12overcastmildtruehighyes13overcasthotfalsenormalyes14rainmildtruehighno2023/2/535特点:每一个非叶子节点代表一个属性;每一个弧代表一个属性的取值;每个叶子节代表一个类别;2023/2/536相关公式:设类别属性U的属性取值为{u1,u2,…,un}非类别属性V的属性取值为{v1,v2,…,vm}则,类别属性U的先验熵(平均信息量)为其中,为属性值ui出现的概率2023/2/537属性V的不同取值相对于U的后验熵为U相对于V的条件熵U相对于V的信息增益2023/2/5382023/2/539NoOutlookTemperatureWindyHumidityPlay1sunnyhotFalsehighno2sunnyhottruehighno3overcasthotfalsehighyes4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno7overcastcooltruenormalyes8sunnymildfalsehighno9sunnycoolfalsenormalyes10rainmildfalsenormalyes11sunnymildtruenormalyes12overcastmildtruehighyes13overcastHotfalsenormalyes14rainMildtruehighno非类别属性类别属性OutlookTemperatureWindyHumidityPlaySunny(5)Overcast(4)Rain(5)Hot(4)Mild(6)Cool(4)True(6)False(8)High(7)Normal(7)Yes(9)No(5)2023/2/540构造上表数据的决策树计算类别属性play的先验熵

2023/2/541outlook属性信息增益1)计算outlook属性取值的后验熵2023/2/542nooutlookplay1sunnyno2sunnyno3overcastyes4rainyes5rainyes6rainno7overcastyes8sunnyno9sunnyyes10rainyes11sunnyyes12overcastyes13overcastyes14rainno2)计算outlook属性的条件熵3)计算outlook属性的互信息(信息增益)2023/2/543humidity属性信息增益1)计算取值的后验熵2023/2/544nohumidityplay1highno2highno3highyes4highyes5normalyes6normalno7normalyes8highno9normalyes10normalyes11normalyes12highyes13normalyes14highno2)计算条件熵3)计算信息增益2023/2/545windy属性信息增益1)计算取值的后验熵2023/2/546nowindyplay1Falseno2trueno3falseyes4falseyes5falseyes6trueno7trueyes8falseno9falseyes10falseyes11trueyes12trueyes13falseyes14trueno2)计算条件熵3)计算信息增益2023/2/547temperature属性信息增益1)计算后验熵2023/2/548notemperatureplay1hotno2hotno3hotyes4mildyes5coolyes6coolno7coolyes8mildno9coolyes10mildyes11mildyes12mildyes13Hotyes14Mildno2)计算条件熵3)计算temperature属性划分后的信息增益2023/2/549比较不同属性的信息增益,选出信息增益最大的属性作为树根节点因此,选择outlook属性作为树根节点2023/2/550构造决策树根节点2023/2/551数据子集1数据子集22023/2/552NoOutlookTemperatureWindHumidityPlay1sunnyhotFalsehighno2sunnyhottruehighno8sunnymildfalsehighno9sunnycoolfalsenormalyes11sunnymildtruenormalyesNoOutlookTemperatureWindHumidityPlay3overcasthotfalsehighyes7overcastcooltruenormalyes12overcastmildtruehighyes13overcastHotfalsenormalyes数据子集32023/2/553NoOutlookTemperatureWindHumidityPlay4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno10rainmildfalsenormalyes14rainMildtruehighno确定数据子集(1)的根节点计算数据子集(1)的先验熵2023/2/554数据子集(1)下Humidity属性的信息增益1)计算数据子集(1)下humidity属性取值的后验熵2023/2/555nohumidityplay1highno2highno8highno9normalyes11normalyes2)计算数据子集(1)下humidity属性的条件熵3)计算数据子集(1)下humidity属性的信息增益2023/2/556数据子集(1)下windy属性的信息增益1)计算数据子集(1)下windy属性的取值后验熵2023/2/557NoWindyPlay1Falseno2trueno8falseno9falseyes11trueyes2)计算数据子集(1)下windy属性的条件熵3)计算数据子集(1)下windy属性的信息增益2023/2/558数据子集(1)下temperature属性的信息增益1)计算数据子集(1)下temperature属性取值的后验熵2023/2/559NoTemperaturePlay1hotno2hotno8mildno9coolyes11mildyes2)计算数据子集(1)下temperature属性的条件熵3)计算数据子集(1)下temperature属性的信息增益2023/2/560在数据集(1)下,比较不同属性的信息增益,选出信息增益最大的属性作为树根节点因此,选择humidity属性作为数据集(1)的树根节点2023/2/561构造子树根节点

2023/2/562构造子树根节点

2023/2/563确定数据子集(3)的根节点计算数据子集(3)的先验熵2023/2/564数据子集(3)下windy属性的信息增益1)计算数据子集(3)下windy属性取值的后验熵2023/2/565NoWindyPlay4falseyes5falseyes6trueno10falseyes14trueno2)计算数据子集(3)下windy属性的条件熵3)计算数据子集(3)下windy属性的信息增益2023/2/566数据子集(3)下temperature属性的信息增益1)计算数据子集(3)下temperature属性取值的后验熵2023/2/567NoTemperaturePlay4mildyes5coolyes6coolno10mildyes14Mildno2)计算数据子集(3)下temperature属性的条件熵3)计算数据子集(3)下temperature属性的信息增益2023/2/568在数据子集(3)下,比较不同属性的信息增益,选出信息增益最大的属性字树根节点因此,选择windy属性作为数据集(3)的树根节点2023/2/569构造子树根节点

rain,cool,normal,falseno/yes?2023/2/5703.4.2K-means聚类算法K-means聚类思想:根据“物以类聚”的思想,将没有类别的样本聚集成不同的组(簇),使得簇内紧凑,簇间疏远。2023/2/5712023/2/572欧氏距离给定数据集合X={xi|i=1,2,3,..,n},其中,xi的维度为d,即样本xi=(xi1,xi2,….,xid),样本xj=(xj1,xj2,….,xjd);规定样本xi和xj欧氏距离为:

2023/2/573k-means聚类算法采用误差平方和准则函数评价聚类性能。假设数据集X包含k个聚类子集X1,X2,…,Xk;各个聚类子集的聚类中心分别为m1.m2…,mk,则误差平方和准则函数为2023/2/574k-means聚类算法描述:输入:N个d维聚类样本

,聚类簇数k输出:k个聚类簇,使得误差平方和准则足够小或聚类簇不再发生变化Step1:为每个聚类簇确定一个聚类中心Step2:将样本集中的样本按照最小距离原则最邻近簇中;Step3:计算每个簇中样本的均值,并将其作为该簇的新聚类中心Step4:重复step2,step3,直到误差平方和准则足够小或聚类中心不再发生变化2023/2/575例:利用k-means算法将以下用户分成两类2023/2/576U

消费金额(万元)未消费金额(万元)u102u200u31.50u450u552(1)选择u1(0,2),u2(0,0)为初始簇中心,对应簇分别为C1,C2

即m1=u1=(0,2),m2=u2=(0,0)(2)对剩余的用户数据,根据其到每个簇中心的距离,划分到不同簇中对u3

则把u3划分到簇C2中

2023/2/577对u4

则把u4划分到簇C2中对u5

则把u5划分到簇C1中2023/2/578得到新簇C1={u1,u5,},C2={u2,u3,u4,}计算平方误差准则E1=|0-0|2+|2-2|2+|5-0|2+|2-2|2=25E2=|0-0|2+|0-0|2+|1.5-0|2+|0-0|2+|5-0|2+|0-0|2=27.25E

=E1+E2=25+27.25=52.252023/2/579计算簇的新聚类中心m1=((0+5)/2,(2+2)/2)=(2.5,2)m2=((0+5+1.5)/3,(0+0+0)/3)=(2.17,0)80U

消费金额(万元)未消费金额(万元)u102u552U

消费金额(万元)未消费金额(万元)u200u31.50u450以新聚类中心为基础,重新对所有样本划分簇对样本u1

则把u1划分到簇C1中2023/2/581对样本u2

则把u2划分到簇C2中对样本u3

则把u3划分到簇C2中2023/2/582对样本u4

则把u4划分到簇C2中对样本u5

则把u5划分到簇C1中2023/2/583得到新簇C1={u1,u5,},C2={u2,u3,u4,}重新计算平方误差准则E1=|0-2.5|2+|2-2|2+|5-2.5|2+|2-2|2=12.5E2=|0-2.17|2+|0-0|2+|1.5-2.17|2+|0-0|2+|5-2.17|2+|0-0|2=13.17E

=E1+E2=12.5+13.17=25.672023/2/5843.4.3Apriori关联规则分析算法美国沃尔玛超市中有趣的现象:啤酒和尿布摆放在同一货架2023/2/5852023/2/586Apriori算法描述CkCandidateitemsetofsizekLkFrequentitemsetofsizekC1={allCandidatesitemsetofsize1fromDB}L1={CandidatesitemsetinC1withmin_support}For(k=1;Lk!=Ø;k++)dobeginCk=CandidatesgeneratedfromLk-1

foreachtransactiontinDBdoincrementthecountofallcandidatesinCkthatarecontainedint

Lk={CandidatesitemsetinCkwithmin_supportendreturnUkLk

87两步骤:1)产生频繁项集:发现满足支持度大于阈值的所有项;

2)产生关联强规则:从上述频繁项目集中提取大于置信度阈值的规则。相关概念项集:包含0个或多个项的集合k-后选项集:包含k个项的项集支持度:k-后选项集中k项在事务集中出现的次数k-频繁项集:k-后选项集中支持度大于阈值的项的集合置信度confidence(AB)=support_count(AUB)/support_count(A)2023/2/588

2023/2/589交易序号

销售商品1咖啡,果酱,冰激凌2面包,果酱,牛奶3牛奶,果酱,面包,咖啡4面包,牛奶Isetsup{牛奶}3{冰激凌}1{果酱}3{咖啡}2{面包}32候选项目集C21频繁项目集L1Isetsup{牛奶}3{果酱}3{咖啡}2{面包}3Isetsup{牛奶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论