ad-fea hadoop新特征添加总结_第1页
ad-fea hadoop新特征添加总结_第2页
ad-fea hadoop新特征添加总结_第3页
ad-fea hadoop新特征添加总结_第4页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Conftar包中已经包含了配 :里面是一些字典,主要是fea_data.tar.gz(实际上产品库中缺一个dict-data.tar.gz,解决方法就是从hadoop上一个下来。Script:包括和配置,又分为左侧,右侧,pp三套环境,还有同步日志视Ad-fea-hadoop需要部署到hadoop集群中运行,部署的步骤为(前置步骤需要熟悉hadoop命令和环境,详见新人hadoop学习资料): // donelist/fcr/yourdir /fcr/yourdir/query_high_path /fcr/yourdir /fcr/yourdir将 left_mapred_control.conf(只以左侧为例,配置文件的修改最为重要,需要Training-control运行环境部Training-control的配置比较麻烦,它是一个总控,关联的程序有distro-sign2id,联的。幸好training-control提供一个自动部署工具,只需要修改training_control.conf, mon.conf,然后运行training.env.tools.sh,按照一步步提checkTraining-control 注意:training-control的配置和部署最为麻烦,部署和配置完成之后,最好先跑一个小相关的长专名(这部分工作是由,和赛群做的);将挖掘得到的专名数据建立应的专名专名片段,结合query字段添加各种特征。具体的特征添加方案为: 目前赛群和提供的专名片段合并后总共有1303107条专名片段,建成ul_dictmatch105Mul_dictmatchprop字段利用起来,每个子Ad-fea-hadoop模块ld2Left_featureExtrator.h//**************addbyzhangxiuwu /*<专名辞典的路径2,修改pre_data_t数据结构,增加保存专名及其个数的变量。uintdesc_ner_num; dm_dict_t dm_pack_t* 4,修改FeatureExtractor的init函数: er_match_dict=dm_binarydict_load( {FATAL_LOG("loaddmdicterror:%s" return-1;} {return-1;} u_int t>0){} { { } er_count{ } } er_count;6feature_format3 73feature抽取函数,并在generate_fea函数中调用。 er(char*fea_string,intformatid,uint32_tslot,pre_data_t&pre_data);intget_que er(char*fea_string,intformatid,uint32_tslot,pre_data_t&pre_data,seg_tseg); &pre_data,seg_tseg);在编译ad-fea-hadoop时,首先要保证在正确的版本上修改,其次,的依标;然后,我修改ad-fea-hadoop,只添加{ 特征,在基线版本的it3数据上跑,得到AUC,QAUC,WQAUC等指标;最后,三种特征一起抽取,重新在基线版本的it3数据上跑,得到AUC,QAUC,WQAUC等指标。实际上可能的组2query3PV5。我设置的第2轮和第3轮的输入为: 日志的窗口为2010-0401到2010-0630共3个月的历史数据。 ---it3的当前日志时间窗输入,正则表达式iter1_2010070[1-3]0000part-*表示2010-0701到2010-07033填的日志数据。轮不做pv过滤。 feature数量344.84million,训练样本303.88GB,评估样本121.44GB,mpi节点数moduleeachdownload_done_filedone文(细分distro-sign2id(细分)训练数据分布式id化总耗-splitFile切割文件(sampling采样(阻塞feasetSort分布式排序(local2globalMap_Afeasetins_fea,第一轮(阻塞local2globalMap_Bfeasetins_fea,第二轮(阻塞分布式评估,总用Rank模型AUC指标报表 er_zxw4.0]2010-07-23-指数实验1:描述专名抽取实验和结 直接从第7轮开始跑。配置第7轮的输入为基线版本的it3输出,这样保证实验的it3数据 模型 er_zxw][201007272007]训练、评估性能报feature数量429.18million,训练样本340.3GB,评估样本135.23GB,mpi节点数moduleeachdownload_done_filedone文(细分distro-sign2id(细分)训练数据分布式id化总耗-splitFile切割文件(sampling采样(阻塞feasetSort分布式排序(local2globalMap_Afeasetins_fea,第一(阻塞local2globalMap_Bfeasetins_fea,第二(阻塞分布式评估,总用Rank模型AUC指标报表 er_zxw4.0]2010-07-28-指数实验2:描述专名抽取实验和结 从第7轮开始跑。配置第7轮的输入为基线版本的it3输出,这样保证实验的it3数据是相 模型 er_zxw][201007281007]训练、评估性能报feature数量615.69million,训练样本317.96GB,评估样本125.7GBmpi节点数moduleeachdownload_done_filedone文(细分distro-sign2id(细分)训练数据分布式id化总耗-splitFile切割文件(sampling采样(阻塞feasetSort分布式排序(local2globalMap_A基于feaset过滤ins_fea,(阻塞local2globalMap_B基于feaset过滤ins_fea,(阻塞分布式评估,总用Rank模型AUC指标报表 er_zxw4.0]2010-07-28-指数指标参数--七、hadoop环境的问题方hadoophadoop程序挂掉了,而无法定位问结了3点:1,在hadoopmapredsetup 断方法是查看集群是否有效(有可能是集群挂了然后进入任务页面%0000/100100/可以看到最右侧的failed任务,点击进入查看具体的出错代码,然后在 a2%98%e6%b1%87%e6%80%bb查看具体的错误代码。3,hadoopmapred任务运行过程中出错,有可能是你本身的程序有问题:查hadoop学习资料。) Debug的写法如下: //core文件存放的${HADOOP_H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论