




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
如何让机器像人一样产生感觉
--机器学习与人工知识结合,基于lda的主题模型与人工主题标注的机器自动风格分类技术道心2012-03-01内容大纲1.女装的风格分类问题与实例2.机器学习与自然语言处理背景3.Lda技术介绍4.人工标注与风格分类流程介绍5.上下文相关风格分类的实例6.相关问题探讨7.标签与模型的其他应用场景8.参考文献与网址1.女装的风格分类问题与实例[蛋糕裙,靴裙,半身裙,红格,格子][风格:学院风;元素:蝴蝶结;][毛呢,呢大衣,仿羊绒,时尚流行,修身型,立领,单排扣][风格:高贵;][衬衫,雪纺衫,夏季,白色,粉红,大布娃娃,一字领,纯色,七分][风格:淑女性感甜美;元素:雪纺;]1.女装的风格分类问题与实例[小兔子,害羞,动物,大码女装,肥大,大号,短袖棉,夏季,短袖][风格:卡通;][雪纺连衣裙,裙子,及膝,风笛,韩版][风格:甜美休闲;元素:碎花蕾丝荷叶边雪纺;]1.女装的风格分类问题与实例[半身裙,裙子,褶皱,建筑][风格:欧美风复古浪漫;元素:雪纺;][韩国代购,韩国代购正品,设计][风格:独特宽松大码优雅;][缎带,泡泡袖,背后,衬衫,春夏装,荷叶袖,夏季新款,短袖衬衫,衬衣,夏季][风格:甜美浪漫;元素:蝴蝶结雪纺;]1.女装的风格分类问题与实例数据:4000万女装商品(2012-02-27:40915643
)250万女装款式(经合并同款)(2558224)任务:
风格分类
&&元素分类抽取
&&
精简标签抽取
评测:风格准确率94%;覆盖率70%;标签准确率88%;覆盖率100%;如果人工查看赋予风格和标签的话(按1000条/人天计)..
2500人天vs3-5天人工标注+机器自动分类
运营??人天查看所有无结构化词汇vs1-2小时查看结构化主题词簇那么:如何实现呢?2.MachineLearning&NaturalLanguageProcessingMachineLearning:MachinelearningisprogrammingcomputerstooptimizeaperformancecriterionusingexampledataorpastexperienceObtainingadescriptionoftheconceptinsomerepresentationthatexplainsobservationsandhelpspredictingnewinstancesofthesamedistributionNaturalLanguageProcessing:theprocessofacomputerextractingmeaningfulinformationfromnaturallanguageinputand/orproducingnaturallanguageoutputKnowledgediscovery:MininghistoricaldataforknowledgeSoftwareapplicationswecan’tprogrambyhandSelfcustomizingprograms2.MachineLearning&NaturalLanguageProcessing2.Supervised,unsupervised&semi-supervisedlearning2.Generalization&Over-fittingIngeneral,over-fittingamodeltothedatameansthatwelearnnon-representativepropertiesofthesampledata;Over-fittingandpoorgeneralizationaresynonymousaslongaswehavelearnedthetrainingdatawell.Over-fittingisnotonlyaffectedbythe“simplicity”oftheclassifier(e.g.,straightvswigglyline)butalsoby:–thesizeofthesample,–thecomplexityofthefunctionwewishtolearnfromdata,–theamountofnoise,and–thenumberofthevariables.2.Assumption,Difficulity&BeyondClassificationLearningStandardclassificationproblemassumesindividualcasesaredisconnectedandindependent(i.i.d.:independentlyandidenticallydistributed).ManyNLPproblemsdonotsatisfythisassumptionandinvolvemakingmanyconnecteddecisions,eachresolvingadifferentambiguity,butwhicharemutuallydependent.Moresophisticatedlearningandinferencetechniquesareneededtohandlesuchsituationsingeneral.Howtocombinepriorknowledgeintoclassifiereasily?2.NaiveBayes’ClassifierConditionalIndependenceAssumptionOftenViolated2.SupportVectorMachineTextRepresentationinIRandTextMining:Doc:wordfeatures.vectorspacemodel2.AbetterPredictionModulemachinelearning+humanlabeling/annotatingatminimalcost=aPredictionModule/ClassifierHow?(supervisedlearning?)3.LdaLatentDirichletallocationbothdefinesthetopicsinacollectionandexplainstheproportionsofthesetopicsineachdocument,therebydiscoveringtheunderlyingsemanticstructureofthedocuments.主题模型是近些年来文本挖掘中出现的一个概率模型,不再像传统的空间向量模型和语言模型那样,只单纯地考虑文档在词典空间上的维度,而是引入了主题空间.从而实现了文档在主题空间上的表示,每一个主题是一个在词典空间上的概率分布.其带来两个好处:1)实现了文档的低维度表示;2)抽取了文档集合上隐含语义的挖掘,即主题.3.lda3.ldaLDA的建模过程是逆向通过文本集合建立生成模型,在讨论如何建模时,我们先要理解LDA的生成模型如何生成一篇文档。假设一个语料库中有三个主题:体育,科技,电影一篇描述电影制作过程的文档,可能同时包含主题科技和主题电影,而主题科技中有一系列的词,这些词和科技有关,并且他们有一个概率,代表的是在主题为科技的文章中该词出现的概率。同理在主题电影中也有一系列和电影有关的词,并对应一个出现概率。当生成一篇关于电影制作的文档时,首先随机选择某一主题,选择到科技和电影两主题的概率更高;然后选择单词,选择到那些和主题相关的词的概率更高。这样就就完成了一个单词的选择。不断选择N个单词,这样就组成了一篇文档。3.lda3.ldaAnexampleoftheGibbssamplingprocedure.Gibbssampling
ora
Gibbssampler
isan
algorithm
togenerateasequenceofsamplesfromthe
jointprobabilitydistribution
oftwoormore
randomvariables.Thepurposeofsuchasequenceistoapproximatethejointdistribution;toapproximatethe
marginaldistribution
ofoneofthevariables,orsomesubsetofthevariables(forexample,theunknown
parameters
or
latentvariables);ortocomputean
integral(suchasthe
expectedvalue
ofoneofthevariables)3.ldalda是基于什么原理将散布在各个doc的词聚在了一起?如何解释给没有机器学习背景的人,用最直白简单的一两句话?根据词与词在文档中的同现关系进行聚类实现:GenerativeprobabilisticmodelParametersestimationEMGibbsSampling4.风格分类流程介绍训练:90万款式商品信息.(2012-02-12@)Sample2000Topicnumber100–350标注:3天根据女装特点给词簇赋予风格标签分类读取标注信息Sample100-300Multi-classwithprobability(topN)过滤无效topic及停用词.4.人工标注与风格分类流程介绍主题模型词汇输出:格式:Topicid[词语列表….(词:z-score,)]例子:54[碎花:103.411,花色:90.907,田园:63.35,小碎花:58.232,花朵:56.661,玫瑰:35.084,大花:32.262,玫瑰花:30.222,大花朵:27.548,印花:27.46,花花:26.779,浪漫:26.293,小花:24.428,清新:21.868,花印:20.783,连衣裙:20.775,朵图:19.761,红花:18.231,淡雅:14.627,甜美:14.594,花束:14.391,领花:14.229,花田:13.198,花大:12.973,花卉:12.909,古田:12.833,大印:12.243,新花:11.833,繁花:11.71,蔷薇花:11.246,新田:11.191,花样:10.702,灿烂:10.462,带花:10.368,复古:10.169,黑白花:10.131,]标注格式:TopicidTag:[所有主题词][主题分词错误过滤词;主题停用词][此主题的同义词功能][此主题的用户填写的风格词标注][xx,xx,][xx,xx;yy,yy][xx:xx:xx;yy:yy;][xx,yy,zz:风格:甜美;mm:元素:蝴蝶结;]例子:90风格:浪漫[雪纺,浪漫,飘逸,唯美,夏季,荷叶边,轻盈,波浪,蝴蝶,层次,百褶,雪纺连衣裙,洋装,美浪,荷叶,女神,百折,纺丝,多层次,雪纺纱,风琴,柔美,层叠,法式,连身裙,滚边,希腊,风情,蛋糕,木木家,束腰,松紧腰,薇薇花开,仙女,松紧,清新,雪纺衫,皱褶,绑带,粉色,小洋装,夏季新款,短袖,美雪,洋装裙,迷人,多层,夏装,春夏装,夏日,层层,梦幻,][美雪,纺丝,夏季新款;夏季,连身裙][][雪纺,雪纺连衣裙,雪纺纱,雪纺衫:元素:雪纺;飘逸:风格:飘逸;唯美:风格:唯美;柔美:风格:柔美;清新:风格:清新;迷人:风格:迷人;荷叶边:元素:荷叶边]233 无效:正品特价[正品特价,特价促销,艺境,新款特价,特价包邮,厂家直销,新款正品,塞外,新款上市,特价热卖,牧歌,冲冠特价,特价,雪歌,品质保证,专柜正品,特价优惠,金典,特价销售,特价正品,最低,品皇,伊莎贝拉,妞娜公主,专柜特价,新新,冲钻特价,女士,促销包,女款,超低,皇冠特价,促销中,自有品牌,特价清仓,优惠,女式,热卖中,清仓特价,包邮特价,最新款,中褛,新年特价,正品,新款促销,瑞丽,促销特价,年新款,冬季女装,时尚,][]4.风格分类流程介绍给商品自动打标签,构成了使用标签进行有效检索的数据基础。1.由于词汇来自合并同款后多个卖家对同一个商品的描述,具有一定的共性,所以可以保证准确性,而且突出了商品的独特性。2.通过少量的人工标注工作,标记主题词簇的风格标签和相关词汇,以及能对商品进行细粒度的多主题分类。自动获得精简的而且带风格的标签。3.词汇来自于互联网的广大用户填写,标签代表了广大用户的使用习惯和对商品的自然认知。4.风格分类流程介绍1.使用图片指纹方法产生网络上商品信息的主要代表性图片的指纹,将指纹相同的图片的商品进行聚类,认为是同一款商品。主要基于图片信息进行聚类将主图指纹相同的聚成一簇;并将详情页图片相同的也进行补充聚簇。2.对于同一款商品,生成其此款的标签。簇标签生成方法:商品标题分词后,统计词频高的,商品的属性信息值不分词,统计频率高的。(属性去掉一部分不适用的属性);同时,2者都要去掉停用词。总数取30个左右,各15个,并去掉重复的。3.使用LDA技术对所有的款式标签信息进行主题模型的聚类,得到多个簇数的主题词簇,主题词簇内的词按照z-score进行排序。输出结果形式是指定簇数的按照Z-Score标准分进行排序的每个簇的词的列表,z-score目的主要是为了评估词汇在每个主题中与整个语料库相比的独立性和代表性。其中词语的z-score的计算公式如下:
其中p表示词语w在整个语料库中的概率
w表示词语下标;t表示主题topic下表,c表示整个语料库。
表示词语在主题中的计数;
表示词语在整个语料库中的计数;
表示整个语料库的词汇数量;
4.通过人工观察,按照主题词簇内敛不离散的标准选出一个合适簇数H的主题词簇,同时保存相应的模型参数。5.将选定的簇数H的主题词簇文件,同时基于业务逻辑的需要对每个词簇进行人工的标注,就女装商品的特点,可以对“可爱”“淑女”“欧美复古风”等主题进行人工的标示。基本用排序在前几位的词或者人工选择合适的1到3个词来标示代表整个词簇,这里简称为主题代表词。6.使用选定簇数H的模型参数,使用LDA模型进行同一语料库中的文档也就是商品信息的多主题分类,分类时,可以选出是基于哪些词得到的对应主题,按照词频次高低的顺序,按照分类概率大小的顺序,取概率最大的N个主题所使用到的词汇,每个主题限定M个词汇,同时过滤停用词。此步起到精简次要主题的词汇的作用。7.如果分类前N个主题类别结果里有风格主题,将分类结果所对应的人工标注的风格标签作为此记录的风格标签,最终构成便于人工察看的带风格分类的精简标签。4.风格分类流程介绍all
Tags:
风格:浪漫
风格:妈妈装
风格:休闲
风格:简约
风格:大码
风格:民族风
风格:气质
风格:街头
风格:演出服
风格:原创设计
风格:潮流
风格:性感
风格:OL白领
风格:宽松
风格:复古
风格:日式
风格:公主
风格:欧美风
风格:淑女
风格:学生装
风格:优雅
风格:帅气
风格:卡通
风格:甜美
风格:条纹
风格:田园
风格:学院风
风格:独特
风格:女人味
元素:镂空
元素:花朵
元素:钉珠
元素:雪纺
元素:亮片
元素:条纹
元素:蝴蝶结
元素:丝质
元素:印花
元素:拼色
元素:糖果色
无效:秒杀
无效:节日促销
无效:清仓
无效:冲钻
无效:包邮
无效:分词上
无效:爆款
无效:专柜正品
无效:正品特价
无效:批发
无效:双十
根据卖家填写的词
转换成的
风格:
all
SellerStyles
Detail:
风格:甜美
风格:淑女
风格:欧美风
风格:活力
风格:休闲
风格:公主
风格:明星同款
风格:学院风
风格:可爱
风格:俏皮
风格:朋克
风格:帅气
风格:复古
风格:清新
风格:浪漫
风格:优雅
风格:牛仔风
风格:诱惑
风格:性感
风格:情趣
风格:火辣
风格:中国风
风格:泰国风情
风格:古典
风格:宽松
风格:奢华
风格:精美
风格:华丽
风格:简洁
风格:精致
风格:洋气
风格:飘逸
风格:唯美
风格:柔美
风格:迷人
风格:民族风
风格:卡通
风格:杭派
风格:野性
风格:魅惑
风格:清纯
风格:英伦风
风格:富贵
风格:喜庆
风格:妈妈装
风格:前卫
风格:非主流
风格:文艺
风格:中性
风格:简约
风格:怀旧
风格:仙女
风格:知性
风格:淡雅
风格:波西米亚
风格:个性
风格:白领OL
风格:妩媚
风格:成熟
风格:温柔
风格:呛口小辣椒
风格:神秘
风格:校园风
风格:简美
风格:田园
风格:大方
风格:大气
风格:清爽
风格:自然
风格:高贵
风格:经典
风格:气质
风格:熟女
风格:梦幻
风格:典雅
风格:华贵
元素:蕾丝
元素:雪纺
元素:荷叶边
元素:花朵
元素:印花
元素:碎花
元素:撞色
元素:拼色
元素:蝴蝶结
4.AnswerinIndustryAbetterclassifierwithdomainknowledge=unsupervisedlearning+humanreadablemodel+labelingonstructuredmodel+automaticclassifier+programpost-processing通过无监督学习Clustering得到结构化,人工易于查看的文本形式主题通过人工标注融入领域知识到易于维护的结构化主题文本模型中,而主题文本分主题地涵盖了全部相关词汇.通过机器分类后的后处理,嵌入人工处理逻辑,读取标注,补充纠正领域知识.于是得到一个最小代价的全自动分类器.(说明:标注模型在更换是不能复用,但是可以通过词匹配等方法最大限度地降低标注成本.3-5天1-2天)4.QuestionCanwetrysupportvectormachine,NaïveBayes,MaximumEntropy….?Otherways?SupervisedLearningCostoflabelingtrainingset.Enoughtrainset(couldrepresentfulldatasetdistribution)Coarsegrainedtopicmodel….5.上下文相关风格分类的实例[泡泡袖,大摆,荷叶领,波点,圆点,原创女装,短袖]
[风格:甜美原创设计;]主题使用词:
302:[泡泡袖,大摆,荷叶领,粉红大布娃娃,大布娃娃,粉红,娃娃,粉红大布娃娃,荷叶边]
程序内部不赋予风格标签.[图案,少女,蝙蝠,宽松,娃娃,卫衣]
[风格:卡通可爱甜美
;]主题使用词:
137:[可爱,娃娃,丽可,尚可]5.上下文相关风格分类的实例[娃娃领,日系,娃娃,背心裙,无袖,连衣裙,闪亮,闪闪,名媛]
[风格:复古甜美优雅;元素:亮片;]
主题使用词:
50:[娃娃领,日系,复古,娃娃][娃娃领,布着屋,娃娃,连衣裙,打底裙子,及膝,毛呢,呢子]
[风格:复古甜美;]主题使用词:
50:[复古,娃娃领,布着屋,甜美,娃娃,布着屋,日式]5.上下文相关风格分类的实例[图案,娃娃,圆领,卫衣,抓绒,宽松型,大码衣]
[风格:可爱卡通大码;]主题使用词:
48:[图案,娃娃,可爱,圆领,卡通]娃娃在不同的语境里是有不同含义的虽然都是娃娃这个词,但是因为上下文(和娃娃一起出现的其他词不同,所以被分到了不同的Topic里),也就被赋予不同的风格标签上面具体的例子.同样一个词娃娃,有时不会被赋予风格,有时会被赋予甜美(可爱公主类型),有时会被赋予甜美(日系);有时会被赋予卡通风格.(可能是T恤上的图案)一个词被分到哪个TopicId,是和它同现的词有密切关系的。5.上下文相关风格分类的实例主题标注如下:娃娃在主题48里是卡通风格;
在主题50是日系的甜美风格
;
在主题137里是可爱公主类型的甜美风格主题.;
在302里则只是一个品牌的名字.没有风格.
48
风格:卡通[卡通,可爱,图案,动物,猫咪,米奇,卡通图,兔子,爱小,小猫,可爱小熊,小熊,笑脸,耳朵,小兔,超可爱,阿桑娜,小狗,可爱米,小兔子,兔耳,米老鼠,熊猫,眼镜,迪士尼,猫头鹰,小猫咪,卡通兔,猫猫,猫头,卡通熊,爱女,狗狗,小女孩,爆炸,女孩,尚可,大象,爱笑,小熊猫,小人,俏皮,长颈鹿,童趣,眼睛,少女,兔兔,娃娃,卡哇伊,贴布装饰,][爱小,可爱米,爱女,尚可,爱笑,][][可爱,超可爱:风格:可爱;卡哇伊:风格:可爱;俏皮:风格:俏皮]
50
风格:甜美[娃娃领,日系,甜美,日式,可爱,布着屋,小翻领,复古,娃娃,丝娃娃,小爪牙,美日,美娃娃,天使真爱,亚瑟,恋上鱼,日系女装,娃娃装,女娃娃,兔毛球,小美,娃娃裙,娃娃衫,元宝,乖巧,彼得,学院风,昕薇,小圆,杂志款,日韩系,公主,甜美淑女,毛球,甜美女装,珍珠,学院,清新,领子,花瓣,][][][复古:风格:复古;甜美淑女:风格:甜美;甜美淑女:风格:淑女;甜美女装:风格:甜美;清新:风格:清新;可爱:风格:可爱;]
137
风格:甜美[可爱,甜美,公主,美时,尚可,直销,主家,俏皮,艾伊,伊丽,洛丽塔,芭比,衣本色,清纯,冲皇冠,洋气,粉嫩,甜美女孩,爱女,清甜,俏丽,美美,丽可,韩国大码,双皇冠信誉,美斯特,丽都,外贸工厂定制,爱带,羽衣,卡卡,粉色,可人,美的,萝莉,工厂,美人,小公主,甜心,佳人,新品特价,洋装,甜美公主,樱桃,爱小,娃娃装,清新,纯美,甜美淑女,蝴蝶结,娃娃,甜蜜,定制,精美,宫廷,秋款,新品,][美时,尚可,直销,主家,爱女,丽可,韩国大码,双皇冠信誉,外贸工厂定制,爱带,美的,新品特价,爱小,秋款,新品,][][可爱:风格:可爱;清新:风格:清新;洋气:风格:洋气;]
302
[粉红大布娃娃,粉红,大布娃娃,娃娃,白色,粉红色,原创设计,卡布琦诺,粉红娃娃,黑色,不含,蝴蝶结,紧身,布娃娃,大摆,大布,藏蓝色,紫色,裙摆,郁金香,银丝,镶边,藏蓝,淑女,荷叶边,宝蓝,领收,泡泡,长大衣,气质,天蓝色,名媛,宝石,泡泡袖,酒红色,圈圈呢,纯色,超级,蓝白,米色,斜纹,预售,蓝色,同款,花瓣,][][][蝴蝶结:元素:蝴蝶结;淑女:风格:淑女;]6.相关问题探讨主题模型的更新周期领域的时效性分词的准确率问题,新词自动发现与添加可穿,版大,邦威,品优呛口小辣椒人工依据分类结果进行上下文的纠正功能人工的经验与标注质量除了风格之外的其他如元素等更细节类型的标注与分类的准确率.参数选取Sample次数,主题数选取等分类速度Hadoop并行版对人的要求:标注人员:耐心,细心,文字敏感,了解一定技术,熟悉领域知识没有调查就没有发言权LicenseFreeforresearchvsbusiness7.0lda的设想应用自动构建主题词典基于网络广告的分类体系构建,lda跑出类别model,用于匹配前台的用户内容和后台的广告,从而达到内容相关的定向投放。(已有公司这么做了)对于线上合并同款的款式,每一款赋予一个或多个topic,作为粗粒度的概念合并,或者“更多相似款式”的应用将区分度大的词抽取出来,去除特定词如促销,颜色等,作为关键词的候选列表,半监督的过程,作为基于短文本的聚类基础之一。过程同3,但是用于半监督地形成一个商品标题的关键词对应列表,然后用机器翻译的词语对齐工具giza++进行训练词语对其标题,作为抽取分析标题关键词的基础训练语料,减少人工标注工作量,进行全监督的关键词抽取,以便作为短文本聚类的基础。如果对款式定义的要求不是一样的产品的话,可以基于lda训练好的概率模型进行分类,得到一或多个topic,基于此作为聚类的基础,因为mixturetopic更符合语言的实际情况,所以基于此比简单的单主题的文本分类效果要好,分类的结果也是聚类的基础,效果自然要好一些。7.标签与模型的其他应用场景有了标签作为基础的数据,可以做以下的进一步的工作风格导航相关词汇导航词汇的层次度计算与选取-频道名称选取,用户兴趣词汇权重主题重要度排序(可以后继关键词抽取,2种方法)相似商品计算与聚类,商品的风格聚类,相似兴趣用户计算与query匹配进行定向的准确标签匹配叶子类目热门标签计算事件上突发事件主题检测.(某类主题剧增)配合新词发现7.1相关标签计算例如,用户输入了query羽绒服,则经过计算,与羽绒服相关的按照LPMI分值逆序排列的词汇有:鸭绒
143.2846白鸭
135.8730梦特娇
133.9015灰鸭
129.4669可脱卸帽
119.6532拉链
119.3083娇女
113.6542罗纹收口袖
112.8029波司登
112.6874罗纹装饰
106.3980女中
105.9342带毛领
105.7941白鹅绒
104.5094雅鹿
104.2525…7.2标签层次综合分计算可以用来表示广泛度和代表度。可以从中挑选合适的词汇作为导航的词汇,避免语义层次过高缺乏具体性而失去导航意义,或者语义层次过低无法有效从上而下地导航。例如可以依靠建立不同的频道,和各类标签来进行类目的导航,但是各个频道选择什么样特点的词汇作为主打特色产品是一个需要人工定夺的过程,如果有了主题词汇的层次分,那么从中选出合适的具有一定广泛性和代表性的词汇作为频道的名称,或者相应的标签,则有利于建立合适的分类层次和内容表示。用于计算商品相似度和用户兴趣相似度时作为其分量词汇的权重.提高计算的效果.7.2标签层次综合分计算Words100130150170200250300350r100r130r150r170r200r250r300r350score时尚47475558586488794788101117170.564淑女2936353943515960122235840.431甜美778911151815111212220.321可爱66898131214222323230.327波点11111111111111110.252学生服11111111000000000.235时尚,休闲,淑女被广泛使用于女装商品的描述中,所以广泛度和代表度都相当高。而甜美,复古,蕾丝,性感,简约等词则处于中等程度,至于野性,舞蹈服,学生服等词语的广泛度和代表度都偏低,所以排序在后面森女这个词虽然被网上少数的女装时尚网站或杂志社列为一种重要的女装风格,但是广大用户并不认可也不习惯于作为一个代表性的词汇来描述商品。所以位于中间层次分数的被用户熟悉和使用的词语可以用于商品标签的导航,而层次分低一些的词语则具体描述了一个概念,代表的含义较窄,适合描述具体的商品。7.3用户兴趣相似度计算7.3用户兴趣相似度计算时尚淑女可爱蕾丝唐装波点Cos=a*b/|a|*|b|权重1.772642.3211583.0583913.2863653.88233.97407用户A1.772.32115803.286365000.820851用户B1.772.3211583.0583913.28636500用户C1.772.3211580003.974070.849808用户D1.772.3211583.058391003.97407用户A1.772.32115803.286365000.334083用户D1.772.3211583.058391003.97407由于时尚,淑女是很宽泛的词汇,在很多主题中用到,所以当用户共同使用这2个词作为兴趣相同点时,并不能说明用户的兴趣比较一致,而可爱,蕾丝则具体一些,而波点是更具体的修饰词汇,说明了用户的比较具体的兴趣偏好。喜欢时尚,淑女,蕾丝的用户A和喜欢时尚,淑女,可爱,蕾丝的用户B的相似度是0.82;而喜欢时尚,淑女,波点额用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 动力柜施工合同范本
- 公用商业装修合同范本
- 包装供应合同范本
- app合伙合同范本
- 以房换房合同范本
- 上传网贷合同范本
- 包材委托加工合同范本文库
- 2024年日照市某国有企业招聘考试真题
- 2024年青海海南州教育局招聘高中教师考试真题
- Module 2 public holidays unit 2英文版教学设计 2024-2025学年外研版英语九年级上册
- 辅警报名登记表
- 初中数学竞赛试题汇编
- 外研版英语五年级下册第一单元全部试题
- GB∕Z 27735-2022 野营帐篷
- 培养小学生课外阅读兴趣课题研究方案
- 部编版四年级语文下册课程纲要
- 【课件】第二单元第三节汉族民歌课件-2021-2022学年高中音乐人音版(2019)必修音乐鉴赏
- 高中人音版必修 音乐鉴赏20人民音乐家课件
- 圆二色谱仪操作规程培训
- 华文出版社三年级下册书法教案
- GB_T 30789.3-2014 色漆和清漆 涂层老化的评价 缺陷的数量和大小以及外观均匀变化程度的标识 第3部分:生锈等级的评定
评论
0/150
提交评论