RapidMiner做网站数据分析课件_第1页
RapidMiner做网站数据分析课件_第2页
RapidMiner做网站数据分析课件_第3页
RapidMiner做网站数据分析课件_第4页
RapidMiner做网站数据分析课件_第5页
已阅读5页,还剩155页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

RapidMiner做网站数据分析主讲:杜剑峰RapidMiner做网站数据分析主讲:杜剑峰目录目录背景有一个虚拟网站,专门销售音像视频,如今面临的问题是:如何对业务数据进行分析,从而提供更好的客户体验?背景有一个虚拟网站,专门销售音像视频,如今面临的问题是:如何1商业理解1商业理解商业智能与Web智能1.商业理解

网站向客户提供8类共62个音像产品的销售, 本章使用了多种数据分析方法, 解决不同用户需求,实现更好的营销模式。商业智能与Web智能1.商业理解网站向客户提供8类1.1网络数据分析的数据来源Server保存网络日志浏览器与Server交互,产生日志,包括Cookie1.商业理解1.1网络数据分析的数据来源Server保存网络日志浏览器1.2网络数据分析的分类1.2.1网站级别1.2.2页面级别1.2.3访问级别1.2.4访问者级别1.商业理解1.2网络数据分析的分类1.2.1网站级别1.2.2页对网站级别的数据挖掘,通常会将网站作为一个整体进行分析,主要任务包括:访问网站的用户识别;网站购买情况分析;网站销售金额分析;网站访问的错误情况分析。通常情况下,只需要根据网络日志就可以进行网站级别的数据分析工作。1.2.1网站级别对网站级别的数据挖掘,通常会将网站作为一个整体进行分析,主要1.2.2页面级别对于页面级别的数据挖掘,还要关注各个页面的访问情况,主要回答如下问题:哪些网页访问量最大;访问者进入哪个网页;访问者退出哪个网页。同样,只需要根据网络日志就可以进行网页级别的数据分析工作。1.2.2页面级别对于页面级别的数据挖掘,还要关注各个页面从访问事件的角度进行数据分析工作,主要回答如下问题:网站访问的逗留时间如何;哪些网站\网页会在一次访问中被依次访问,访问的次序如何;哪些网站\网页的访问容易最终导致购买行为发生。主要依赖于网络日志数据,结合Cookie数据效果会更好。1.2.3访问级别从访问事件的角度进行数据分析工作,主要回答如下问题:1.2.商业智能与Web智能1.2.4访问者级别访问者级别与访问级别的网络数据分析问题类似,但它们针对的对象不同。主要任务包括:特定访问者的网站访问情况;识别不同的访问是否由同一个访问者发起;对访问者不同时间的访问行为做进一步的分析与挖掘。除了需要网络日志数据和Cookie数据外,通常还需要网站注册信息等数据。商业智能与Web智能1.2.4访问者级别访问者级别与访问级2数据理解2数据理解2数据理解文件名记录数说明文件1miis_complete_rapidminer_full.log428730包含网站一周的网络日志内容文件2register.dat23033用户注册信息文件3products.dat62网站销售产品的信息文件4purchast.dat739包含网站用户一周内的购买情况2数据理解文件名记录数说明文件1miis_complete2数据理解miis_complete_rapidminer_full.log2数据理解miis_complete_rapidminerregister.dat2数据理解register.dat2数据理解需要从miis_complete_rapidminer_full生成的数据registerpurchaseproducts数据之间的关系需要从miis_complete_rapidminer_fu3数据准备3数据准备3.2提取用户访问习惯数据3.1识别访问用户根据日志识别不同的访问(Visit)及访问者(Visitor)。日志信息经过整理提取出用户访问习惯数据3数据准备3.3合并网络日志与相关数据将提取的数据与其他数据进行合并3数据准备3.2提取用户访问习惯数据3.1识别访问用户根据日志识别不同根据日志识别不同的访问(Visit)及访问者(Visitor)3数据准备3.1识别访问用户根据日志识别不同的访问(Visit)及访问者(Visitor3数据准备3.1识别用户访问基本假设:同一访问IP地址(IPAddress)相同浏览器(UserAgent)相同并且操作间隔不超过30分钟(1800秒)同一访问者Cookie相同3数据准备3.1识别用户访问基本假设:3数据准备3.1识别访问用户3.1识别访问用户的布局1234567893数据准备3.1识别访问用户3.1识别访问用户的布局1233.1部件介绍1部件1:读入网络日志3.1部件介绍3.1部件介绍1部件1:读入网络日志3.1部件介绍22.12.22.1subprocess子过程2.2部件2:过滤改名属性3.1部件介绍22.12.22.1subprocess子过程2.2部件2:3attributesnamefunctionexpressionsTimestampdate_diff(date_parse_custom("1/1/199900:00:00","dd/MM/yyyyHH:mm:ss"),date_parse_custom(concat(Date,"",Time),"dd/MM/yyyyHH:mm:ss"))/1000部件3:添加时间戳3.1部件介绍3attributesnamefunctionexpreattributesnamefunctionexpressionsPageExtif(!matches(Page,".*\\.[^/]*"),"none",if(QueryString!="-",concat(Page,"?"),Page))4子过程4.14.24.14.2.*\.([^/]*)部件4:添加网页后缀3.1部件介绍attributesnamefunctionexpres商业智能与Web智能5部件5:删除图片请求3.1部件介绍index(PageExt,"asp")==0||index(PageExt,"htm")==0||PageExt=="none"||PageExt=="txt"||PageExt=="com"66.16.26.36.46.56.66.76.86.9商业智能与Web智能5部件5:删除图片请求3.1部件介绍6.16.26.36.46.66.53.1部件介绍6.16.26.36.46.66.53.1部件介绍if(IPAddress!=IPAddress_up||UserAgent!=UserAgent_up||Timestamp-Timestamp_up>1800,1,0)6.76.86.93.1部件介绍if(IPAddress!=IPAddress_up||8978.18.28.38.48.53.1部件介绍8978.18.28.38.48.53.1部件介绍8.18.28.38.4if(Cookie!=Cookie_up&&Cookie!="-",1,0)attributesnamefunctionexpressionsVisitorIDif(Cookie!="-",concat("Visitor",str(VisitorNumber)),"")3.1部件介绍8.18.28.38.4if(Cookie!=Cookie_8.59weblog_visit&vistor.csv3.1部件介绍8.59weblog_visit&vistor.csv3.13数据准备日志信息经过整理提取出用户访问习惯数据3.2提取用户访问习惯数据用户访问习惯数据包括:用户名(username)和订单信息(order_no)访问时间(visit_time)和每页停留时间(time_per_page)访问第1页到第2页之间(time_gap1)和第2页到第3页之间(time_gap2)的时间间隔顶级目录信息(first_dir)访问来源信息(referer)3数据准备日志信息经过整理提取出用户访问习惯数据3.2提取3数据准备3.2提取用户访问习惯数据3.2提取用户访问习惯数据的布局12345673数据准备3.2提取用户访问习惯数据3.2提取用户访问习3.2.1部件介绍13.2.1部件介绍13.2.2部件介绍2部件2子过程2.12.22.32.12.22.3usernameif(matches(QueryString,".*&username=.*"),QueryString,"-")order_noif(matches(QueryString,".*&order_no=.*"),QueryString,"-").*&username=([^&]*).*.*&order_no=([^&]*).*3.2.2部件介绍2部件2子过程2.12.22.32.123.2.3部件介绍3部件3子过程3.13.23.43.33.53.63.73.83.93.103.113.13.23.2.3部件介绍3部件3子过程3.13.23.43.333.2.3部件介绍3.3部件3.3子过程3.3.13.3.23.3.33.3.13.3.23.3.3(VisitID!=VisitID_u||VisitID!=VisitID_d)&&VisitActions>13.2.3部件介绍3.3部件3.3子过程3.3.13.3.3.2.3部件介绍3.4visit_timeif(VisitID!=VisitID_d,Timestamp-Timestamp_u,0)3.53.63.7time_per_pagevisit_time/VisitActions3.2.3部件介绍3.4visit_timeif(Visi3.2.3部件介绍3.93.103.113.83.2.3部件介绍3.93.103.113.83.2.4部件介绍4部件4子过程4.114.124.14.24.34.44.54.64.74.84.94.104.134.144.153.2.4部件介绍4部件4子过程4.114.124.14.3.2.4部件介绍4.14.24.3page1if(VisitID!=VisitID_u,Page,"")4.44.54.6page2if(VisitID!=VisitID_u&&VisitID==VisitID_d1,Page_d1,"")4.73.2.4部件介绍4.14.24.3page1if(Vis3.2.4部件介绍page3if(VisitID!=VisitID_u&&VisitID==VisitID_d2,Page_d2,"")4.84.94.104.114.123.2.4部件介绍page3if(VisitID!=Vis3.2.4部件介绍time_gap1if(VisitID!=VisitID_u&&VisitID==VisitID_d1,Timestamp_d1-Timestamp,0)4.13time_gap2if(VisitID!=VisitID_u&&VisitID==VisitID_d2,Timestamp_d2-Timestamp_d1,0)4.144.153.2.4部件介绍time_gap1if(VisitID!3.2.5-6部件介绍5部件5子过程first_dirif(matches(Page,"/.*/.*"),Page,"")5.15.25.15.2部件6子过程66.16.26.36.46.53.2.5-6部件介绍5部件5子过程first_dirif3.2.6-7部件介绍refererif(VisitID!=VisitID_u&&length(Referer)>1,Referer,"")6.16.26.36.46.57web_log_information.csv3.2.6-7部件介绍refererif(VisitID!3数据准备3.3合并网络日志与相关数据将提取的数据与其他数据进行合并3数据准备3.3合并网络日志与相关数据将提取的数据与其他数3数据准备3.3合并网络日志与相关数据web_log_informationregisterpurchaseproducts3数据准备3.3合并网络日志与相关数据web_log_inf3合并数据3.3合并网络日志与相关数据的布局14235678910113合并数据3.3合并网络日志与相关数据的布局1423563合并数据13合并数据13合并数据233合并数据233合并数据43合并数据43合并数据563合并数据563合并数据7983合并数据7983合并数据10113合并数据10114建立模型4建立模型4.1访问用户购买行为预测4.2访问者访问网页细分模型4.3已购买产品特征模型4.4用聚类分析建立推荐模型4建立模型4.1访问用户购买行为预测4.2访问者访问网页细分模型4商业智能与Web智能4.1访问用户购买行为预测——访问级别数据分析12345商业智能与Web智能4.1访问用户购买行为预测123454.1访问用户购买行为预测14.1访问用户购买行为预测14.1访问用户购买行为预测2.12.62.42.32.22.524.1访问用户购买行为预测2.12.62.42.32.224.1访问用户购买行为预测2.12.62.42.32.22.54.1访问用户2.12.62.42.32.22.5345345商业智能与Web智能4.2访问者访问网页细分模型——访问者级别数据分析18327654商业智能与Web智能4.2访问者访问网页细分模型18324.2访问者访问网页细分模型14.2访问者访问网页细分模型1!missing(VisitorID)3245!missing(VisitorID)32458767.17.18767.17.14.3已购买产品特征模型——访问者级别数据分析12345674.3已购买产品特征模型123456711(username!="-"||order_no!="-")&&!missing(VisitorID)234(username!="-"||order_no!="-5675674.4用聚类分析建立推荐模型 ——访问级别数据分析67543214.4用聚类分析建立推荐模型67543211122.12.22.32.42.52.62.72.82.9

子过程

子过程22.12.22.32.42.52.62.72.82.9子missing(Filmname)2.12.22.32.42.5missing(Filmname)2.12.22.32.422.62.72.92.82.62.72.92.83

子过程3.13.23.33.33.23.13子过程3.13.23.33.33.23.1456745675.1使用聚类分析结果向用户推荐产品5模型应用5.1使用聚类分析结果向用户推荐产品5模型应用5.1使用聚类分析结果向用户推荐产品9876543215.1使用聚类分析结果向用户推荐产品987654321123412345678956789RapidMiner做网站数据分析主讲:杜剑峰RapidMiner做网站数据分析主讲:杜剑峰目录目录背景有一个虚拟网站,专门销售音像视频,如今面临的问题是:如何对业务数据进行分析,从而提供更好的客户体验?背景有一个虚拟网站,专门销售音像视频,如今面临的问题是:如何1商业理解1商业理解商业智能与Web智能1.商业理解

网站向客户提供8类共62个音像产品的销售, 本章使用了多种数据分析方法, 解决不同用户需求,实现更好的营销模式。商业智能与Web智能1.商业理解网站向客户提供8类1.1网络数据分析的数据来源Server保存网络日志浏览器与Server交互,产生日志,包括Cookie1.商业理解1.1网络数据分析的数据来源Server保存网络日志浏览器1.2网络数据分析的分类1.2.1网站级别1.2.2页面级别1.2.3访问级别1.2.4访问者级别1.商业理解1.2网络数据分析的分类1.2.1网站级别1.2.2页对网站级别的数据挖掘,通常会将网站作为一个整体进行分析,主要任务包括:访问网站的用户识别;网站购买情况分析;网站销售金额分析;网站访问的错误情况分析。通常情况下,只需要根据网络日志就可以进行网站级别的数据分析工作。1.2.1网站级别对网站级别的数据挖掘,通常会将网站作为一个整体进行分析,主要1.2.2页面级别对于页面级别的数据挖掘,还要关注各个页面的访问情况,主要回答如下问题:哪些网页访问量最大;访问者进入哪个网页;访问者退出哪个网页。同样,只需要根据网络日志就可以进行网页级别的数据分析工作。1.2.2页面级别对于页面级别的数据挖掘,还要关注各个页面从访问事件的角度进行数据分析工作,主要回答如下问题:网站访问的逗留时间如何;哪些网站\网页会在一次访问中被依次访问,访问的次序如何;哪些网站\网页的访问容易最终导致购买行为发生。主要依赖于网络日志数据,结合Cookie数据效果会更好。1.2.3访问级别从访问事件的角度进行数据分析工作,主要回答如下问题:1.2.商业智能与Web智能1.2.4访问者级别访问者级别与访问级别的网络数据分析问题类似,但它们针对的对象不同。主要任务包括:特定访问者的网站访问情况;识别不同的访问是否由同一个访问者发起;对访问者不同时间的访问行为做进一步的分析与挖掘。除了需要网络日志数据和Cookie数据外,通常还需要网站注册信息等数据。商业智能与Web智能1.2.4访问者级别访问者级别与访问级2数据理解2数据理解2数据理解文件名记录数说明文件1miis_complete_rapidminer_full.log428730包含网站一周的网络日志内容文件2register.dat23033用户注册信息文件3products.dat62网站销售产品的信息文件4purchast.dat739包含网站用户一周内的购买情况2数据理解文件名记录数说明文件1miis_complete2数据理解miis_complete_rapidminer_full.log2数据理解miis_complete_rapidminerregister.dat2数据理解register.dat2数据理解需要从miis_complete_rapidminer_full生成的数据registerpurchaseproducts数据之间的关系需要从miis_complete_rapidminer_fu3数据准备3数据准备3.2提取用户访问习惯数据3.1识别访问用户根据日志识别不同的访问(Visit)及访问者(Visitor)。日志信息经过整理提取出用户访问习惯数据3数据准备3.3合并网络日志与相关数据将提取的数据与其他数据进行合并3数据准备3.2提取用户访问习惯数据3.1识别访问用户根据日志识别不同根据日志识别不同的访问(Visit)及访问者(Visitor)3数据准备3.1识别访问用户根据日志识别不同的访问(Visit)及访问者(Visitor3数据准备3.1识别用户访问基本假设:同一访问IP地址(IPAddress)相同浏览器(UserAgent)相同并且操作间隔不超过30分钟(1800秒)同一访问者Cookie相同3数据准备3.1识别用户访问基本假设:3数据准备3.1识别访问用户3.1识别访问用户的布局1234567893数据准备3.1识别访问用户3.1识别访问用户的布局1233.1部件介绍1部件1:读入网络日志3.1部件介绍3.1部件介绍1部件1:读入网络日志3.1部件介绍22.12.22.1subprocess子过程2.2部件2:过滤改名属性3.1部件介绍22.12.22.1subprocess子过程2.2部件2:3attributesnamefunctionexpressionsTimestampdate_diff(date_parse_custom("1/1/199900:00:00","dd/MM/yyyyHH:mm:ss"),date_parse_custom(concat(Date,"",Time),"dd/MM/yyyyHH:mm:ss"))/1000部件3:添加时间戳3.1部件介绍3attributesnamefunctionexpreattributesnamefunctionexpressionsPageExtif(!matches(Page,".*\\.[^/]*"),"none",if(QueryString!="-",concat(Page,"?"),Page))4子过程4.14.24.14.2.*\.([^/]*)部件4:添加网页后缀3.1部件介绍attributesnamefunctionexpres商业智能与Web智能5部件5:删除图片请求3.1部件介绍index(PageExt,"asp")==0||index(PageExt,"htm")==0||PageExt=="none"||PageExt=="txt"||PageExt=="com"66.16.26.36.46.56.66.76.86.9商业智能与Web智能5部件5:删除图片请求3.1部件介绍6.16.26.36.46.66.53.1部件介绍6.16.26.36.46.66.53.1部件介绍if(IPAddress!=IPAddress_up||UserAgent!=UserAgent_up||Timestamp-Timestamp_up>1800,1,0)6.76.86.93.1部件介绍if(IPAddress!=IPAddress_up||8978.18.28.38.48.53.1部件介绍8978.18.28.38.48.53.1部件介绍8.18.28.38.4if(Cookie!=Cookie_up&&Cookie!="-",1,0)attributesnamefunctionexpressionsVisitorIDif(Cookie!="-",concat("Visitor",str(VisitorNumber)),"")3.1部件介绍8.18.28.38.4if(Cookie!=Cookie_8.59weblog_visit&vistor.csv3.1部件介绍8.59weblog_visit&vistor.csv3.13数据准备日志信息经过整理提取出用户访问习惯数据3.2提取用户访问习惯数据用户访问习惯数据包括:用户名(username)和订单信息(order_no)访问时间(visit_time)和每页停留时间(time_per_page)访问第1页到第2页之间(time_gap1)和第2页到第3页之间(time_gap2)的时间间隔顶级目录信息(first_dir)访问来源信息(referer)3数据准备日志信息经过整理提取出用户访问习惯数据3.2提取3数据准备3.2提取用户访问习惯数据3.2提取用户访问习惯数据的布局12345673数据准备3.2提取用户访问习惯数据3.2提取用户访问习3.2.1部件介绍13.2.1部件介绍13.2.2部件介绍2部件2子过程2.12.22.32.12.22.3usernameif(matches(QueryString,".*&username=.*"),QueryString,"-")order_noif(matches(QueryString,".*&order_no=.*"),QueryString,"-").*&username=([^&]*).*.*&order_no=([^&]*).*3.2.2部件介绍2部件2子过程2.12.22.32.123.2.3部件介绍3部件3子过程3.13.23.43.33.53.63.73.83.93.103.113.13.23.2.3部件介绍3部件3子过程3.13.23.43.333.2.3部件介绍3.3部件3.3子过程3.3.13.3.23.3.33.3.13.3.23.3.3(VisitID!=VisitID_u||VisitID!=VisitID_d)&&VisitActions>13.2.3部件介绍3.3部件3.3子过程3.3.13.3.3.2.3部件介绍3.4visit_timeif(VisitID!=VisitID_d,Timestamp-Timestamp_u,0)3.53.63.7time_per_pagevisit_time/VisitActions3.2.3部件介绍3.4visit_timeif(Visi3.2.3部件介绍3.93.103.113.83.2.3部件介绍3.93.103.113.83.2.4部件介绍4部件4子过程4.114.124.14.24.34.44.54.64.74.84.94.104.134.144.153.2.4部件介绍4部件4子过程4.114.124.14.3.2.4部件介绍4.14.24.3page1if(VisitID!=VisitID_u,Page,"")4.44.54.6page2if(VisitID!=VisitID_u&&VisitID==VisitID_d1,Page_d1,"")4.73.2.4部件介绍4.14.24.3page1if(Vis3.2.4部件介绍page3if(VisitID!=VisitID_u&&VisitID==VisitID_d2,Page_d2,"")4.84.94.104.114.123.2.4部件介绍page3if(VisitID!=Vis3.2.4部件介绍time_gap1if(VisitID!=VisitID_u&&VisitID==VisitID_d1,Timestamp_d1-Timestamp,0)4.13time_gap2if(VisitID!=VisitID_u&&VisitID==VisitID_d2,Timestamp_d2-Timestamp_d1,0)4.144.153.2.4部件介绍time_gap1if(VisitID!3.2.5-6部件介绍5部件5子过程first_dirif(matches(Page,"/.*/.*"),Page,"")5.15.25.15.2部件6子过程66.16.26.36.46.53.2.5-6部件介绍5部件5子过程first_dirif3.2.6-7部件介绍refererif(VisitID!=VisitID_u&&length(Referer)>1,Referer,"")6.16.26.36.46.57web_log_information.csv3.2.6-7部件介绍refererif(VisitID!3数据准备3.3合并网络日志与相关数据将提取的数据与其他数据进行合并3数据准备3.3合并网络日志与相关数据将提取的数据与其他数3数据准备3.3合并网络日志与相关数据web_log_informationregisterpurchaseproducts3数据准备3.3合并网络日志与相关数据web_log_inf3合并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论