




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
10-基于酒店评论特征向量的用户画像预测研究摘要 …………Ⅰ第1章绪论1.1课题背景及研究的目的和意义 51.2用户画像及其相关理论的发展概况 61.4论文的组织结构 8第2章理论基础 102.1酒店营销理论 102.2用户画像基础 102.3用户画像原理 102.4用户画像原则 112.5用户画像框架 122.6词向量 13第3章酒店用户属性画像的预测 153.1引言 153.2数据来源 153.3基于酒店评论特征向量进行分类预测 163.4Doc2Vec方法和酒店入住用户评论文本的植入 213.5酒店的特征向量生成 223.6用户特征画像部分属性预测 233.7本章小结 24第4章酒店用户兴趣画像 254.1基于融合标签抽取算法的酒店标签抽取 254.2基于Textrank的关键词提取 254.3基于酒店入住标签体系的用户兴趣画像构建 264.4本章小结 27结论 28参考文献 29第1章绪论1.1课题背景及研究的目的和意义互联网浪潮澎湃前进,AI与大数据频频出现在科技热词的前列,宣告者AI大数据时代的到来。近年来移动通信发展迅速,5G通信时代的到来,数据传输速度飞速增长,使得人们人人都能享受5G带来的便捷,人们的生活和工作形式也因此变得越来越多样化,无论是娱乐还是办公,从原先的文字、语音的向图像、视频,从单一到多样发展。移动互联网的飞速发展是不可逆的大趋势,也给人们的生活带来的巨大的数据流量。数据流量的爆炸式增长,同时互联网内容提供者的壮大,也让人们的出行从线下延伸到线上。大量酒店住宿信息展现在人们面前,人们的入住酒店的信息需求得以满足。伴随着酒店入住用户的增长,酒店用户也产生了越来越多的相关数据,酒店的经营者可以得到入住用户的行为数据,进而获悉更多关于用户的信息,以酒店入住用户的相关数据为基础,精确地同时更有针对性地分析出用户的偏好习惯,从而发掘出用户的潜在商业行为倾向,将用户的使用舒适度获得提升,这样与用户画像有关系的科学技术便一并迸发开来。用户画像是一门依据用户需求采用特定策略从互联网搜随处信息给用户的技术、推荐系统,精准营销的前期工作。用户画像有时也被称之为用户角色,可以用来准确的发现目标用户、获悉用户的需求的工具,具有非常高的商业价值,因此用户画像在各个方面得到了广泛的应用。对用户画像进行分析要做的是推求推断用户的一系列属性和特点。一般会将用户画像进行分类,最流行的分类是把用户画像分为用户的静态画像和用户的动态画像。静态的用户画像包括用户基本的特性、属性等元素。用画画像的重点是动态的用户画像,它又被称之为用户兴趣画像。把用户的爱好做标记展示同时对用户的所作所为的隐藏的意愿进行发掘。存在这样业务的场景:一个用户准备使用一个新的APP或者使用一个新网站,他要先填写自己的一系列信息,这其中就包含了他的用户画像,但是他可能考虑自己的隐私的问题,或者习惯不填写自己的个人信息,导致用户和自己所填写的个人信息根本不匹配。这使得通过用户所填写的个人信息获得完整或者令人信服的信息总是困难重重、例如用户为了个人隐私着想,不想填写自己的相关信息甚至填写虚构的信息,又或是因为这个过程被网络供应商弄得特别臃肿冗余,使得用户乏于填写,再或企业抱着迅速吸引住用户,简化这一过程,没有进行用户信息的确认。企业对用户进行分类分析,这一过程一般采用人工设计特性的方法,接着相关人员研究人们的所作作为,构筑创建标签,描述用户的相关偏好习惯。再或者可以直截了当地构筑创建向量,更能直观地描述用户的偏好。当下流行的用户画像分析的不可或缺的步骤就是进行特点项目和标签系统设计,极大程度使得用户被引导到提供产品的反馈信息上来,还使得无法直接获得用户的偏好。这样如何方便快捷的构筑创建,标签系统,获得直接显示可以描述用户的用户画像成为近些年重点关注的对象。1.2用户画像及其相关理论的发展概况1.2.1用户画像的研究现状用户画像一般分为用户的静态画像和用户的动态画像,用户的静态画像一般包括用户的基本属性,以及本身的特性等可以进行量化的特征,这其中包括性别,年龄,所在地,学历等长远来看基本不变的数据,因为用户静态画像包括这些统计信息,所以用户静态画像也被叫做人口统计学信息。最近随着机器学习和大数据的兴起,在数据挖掘领域,用户画像越来越被提及。现在要想对用户特征进行预测,基本都是借助机器学习的手段对用户的社交情况和所作所为进行发掘,建立模型并进行研究,使得对用户的基本信息预测推断变得可行。对于微博,短视频平台以及贴吧等交互性强的社区用户,借助自然语言处理技术将问题转化为文本分类是常用的手段。通过研究用户所产生的信息,借助文本分析和自然语言处理技术,预先推测用户的年龄、性别、所在地、学历等基本信息。在最近的科学研究中,比较有代表性的研究方法主要是以逻辑斯蒂,线性回归、以及支持向量机等机器学习分类器为主流。Zhang的研究团队记住长短时间交替记忆循环神经网络,对博客等不同的信息,将用户的性别和年龄分类[1]。Wang的研究团队借助多任务卷积神经网络,通过对用户的社交软件所产生的信息,可以得兼预算推测年龄和性别[2]。Wu的研究团队,研究用户在搜索引擎上的记录信息,来预先推测用户的性别和年龄[3]。Farnadi的研究团队以Facebook的信息,构筑创建多模型拟态相融结合网络,预先推测用户的性别和年龄[4]。假设指注重用户的行为信息,就不能以特点的形式,借助机器学习分类器进行研究,那么怎么才能得到用户的特征向量成了分析的重中之重。通过构筑创建产品和用户之间的相关关系,例如用户-软件相关矩阵,用户-网页两部分图表等形式,再进行特性的获取从而预先推测用户的信息[5][6]。Malmi的研究团队通过研究用户APP的数据运用奇异值分解等多种方法简化产品的信息,并利用逻辑斯蒂回归,从而预先推测用户的年龄和性别等信息[7]。由此可见,有两种方法可以获得用户的属性信息,一种是使用算法例如自然语言的相关处理方法,对用户的文本信息进行再处理,从而预先推测用户的属性信息;如果获得用户的信息比较困难,或是本身就无法获得用户的信息,导致部分用户的信息缺失,要想解决这种问题,那么获得用户的特点属性就变成了重中之重,这样才能进行用户的特征预测,许多分析从这问题的各方面着手,但是都没有避免进行特性工程这种容易造成偏差的工作。它们都有一些缺点,即比较依赖相关知识、需要较大人力物力投入。1.2.2标签推荐算法的研究现状表示用户动态画像有多种方法,当下比较常用的是多标签方法,使用也比较多的是向量表示法。多标签表示方法要先获得用户的标签,这一般是先研究用户的文本,从中提取多个关键词,根据这些词汇得到用户的标签,可以根据这些标签来获悉用户的爱好,有解释更加明确,直截了当的优势,用于广告,商务研究,推荐系统等方面。得到所研究对象的标签显然是构建用户画像最重要的工作,意识就是是所谓的标签推荐。现存的标签推荐算法包括借助物品的,借助矩阵的,借助聚类的等内容。本文借助评论的文本数据作标签推荐,使用的是借助物品的方法。标签抽取指从文本中抽选提取取出重要的语句词汇,并给关键词以一个权重,考察词语的权重,最高的就是物品的标签。可以借助词频-逆文档频率作标签推荐的研究。Tu等人利用词频-逆文档算法和TextRank算法抽取用户的关键词[8][9][10]。标签抽取算法,借助词袋模型,但也有些避免不了的问题,比如概括能力差,不能联系前后文,难以进行总结,严重影响标签的正确性,也产生很多无意义的标签。标签分配算法是标签推荐的另一种形式。其在预先设定的一个词语表库中挑选keyword。最初流行的也是初级的方法是使用词频-逆向文件频率方法,获得文本的关键词后,在进行聚类分析等分类方法。人工智能和大数据的技术的再次被关注,也使得标签分类有了更多方法可以使用。Liu的研究团队借助CNN[11]方法成功构筑创建标签并进行分类[12]。传统的方法是使用向量机进行文本分类[13]。Gong的研究团队借助CNN对博客等社交平台得到标签并进行后续的推荐研究[14]。Li的研究团队借助循环神经网络,研究了国外社交软件的数据,并以此得到标签并进行推荐分类[15]。Li的研究团队和Zhang的研究团队借助主题模型和多模态注意力网络,研究了新浪微博的文本信息,完成标签的构建[16][17]。1.3本文的主要研究内容本文做的主要研究是基于哈尔滨市酒店评论,对酒店用户进行用户画像的构建工作。首先是进行酒店评论用户的属性画像的属性预测,通过网络爬取工具,可以比较容易的获得酒店入住用户的相关入住记录,这些用户一般也会留下对酒店的文字评价,我们就可以借助这些信息进行预先推测一些用户的一些基础信息。与传统的研究方法不同的是:本文采用的方法避免了一个关键问题,基于用户的入住记录和酒店的评论文本构筑创建视频特征向量,回避了特征工程这一步骤,同时考虑多维情况,增强了酒店向量的正确性和可解释性。然后是酒店评论用户兴趣画像的构建工作,要想获悉用户的兴趣和偏好,就要构建用户的相关标签并进行分类。本文采用的方法与传统的标签构建方法相比有一定的改良。首先是成功回避了人工标签设计工作,采用机器标签设计,再者是采用的是对流行的两种标签抽取算法进行改良后的标签抽取算法,解决了原本无意义项多的问题,同时也能获得正确性更高更能体现用户特征的标签。1.4论文的组织结构本文的章节结构如下:第一章是论文的绪论,这一章节主要介绍的是课题背景和研究的目的和意义、国内外的研究现状、论文的主要研究内容、论文的组织结构。第二章是论文的理论基础,这一章节主要介绍了本文学习的酒店营销理论,用户画像的基础、用户画像的原则、用户画像的原理、用户画像的原则、用户画像的框架、关键词相关理论、和词向量理论。第三章是用户属性画像的属性预测,基于酒店入住用户的入住记录,生成酒店入住用户的评论向量和酒店入住向量,基于这两个向量利用机器学习模型进行用户评分的预测第四章是主要介绍了本文的酒店用户兴趣画像。主要包括基于机器标签抽取方法和基于融合标签抽取算法的酒店标签提取。基于关键词构建的酒店标签,生成用户的兴趣画像第五章是本文的研究结论。第2章理论基础2.1酒店营销理论随着时代的发展,每个酒店乃至企业都更加关注自己的品牌和消费者的连接,品牌都需要顾客的参与,金杯银杯不如口碑。要以顾客为本,树立维护酒店的品牌。进入信息社会,网络在人们生活的占比越来越大,愈发不可逆了。而这种新的沟通和交流的方式,占据了主流。酒店也应该通过互联网方式宣传自己的企业,扩大自己品牌的影响力。利用例如微信、微博、抖音、美团等网络平台,重视并快速适应网络营销模式,获得更过利润,黄丽莎等人设计出了基于网络的酒店商业营销模式。杜群的团队研究了如家快捷酒店的营销模式[18]。2.2用户画像基础用户画像可以简单地说是用户标签地集合。要先描述一个用户,全方面的展现他的相关信息是不可能的,一般是选他具有代表性的特征来代表这个用户,这种特征一般会包括用户的性别、年龄、身高,职业、兴趣爱好等等多方面的属性。用户的所作所为对比用户的属性更能体现时间性质,包括任务、时间等。例如用户入住了一家酒店,可以阐述为:哪一位用户在哪一段时间,在哪家酒店进行入住。用户画像应用在许多方面,行业的营销、相关预测、推荐算法等等,在不同领域用户画像的用途是不太一样的,一般会选择该行业紧缺获取的资源或者可以解决关键问题所用的方法进行侧重研究。例如华为集团的营销战略,通过用户画像的研究,对用户进行细分,确定了低端、中端、高端以及年轻和年长用户的市场情况,并针对不同的用户群体推荐不同档次且满足他们需求的手机,取得不错的营收成效。当然在构建用户画像之前,首先要明确什么是用户,即购买或使用产品或服务的群体。接着要明确是什么是用户需求,一般考虑和采取马斯洛需求理论即可。当然最重要的还是研究用户的特征在上文已经详细讲述了。2.3用户画像原理用户画像的主流方法一般是进行标签化处理。这里的标签指的是网络化标签,一般是一些关键字,能够直接展现内容,并进行分类处理。对用户而言,这种标签要求能够将用户归纳分类,并描述用户的偏好。目前的标签也分为很多种类例如人工标签、机器标签、也可以分为属性标签、兴趣标签、行为标签等等。除此之外最接近用户画像的是个性化标签方法人工标签:自然属性标签体重、年龄等;社会属性标签例如工作、学生等;关系属性标签例如爱好、特长等。机器标签:根据用户行为产生的相关文本、语音、视频数据,由机器自动生成用户的偏好,兴趣标签。表2.1机器标签分类表标签任务方法机器标签关键词标签关键词提取TF-IDF、TextRank实体实体识别CRF、BiLSTM类别分类LR、SVM、fastText聚合聚合K-means主题主题提取LDAEmbeddingEmbeddingWord2Vec个性化标签可以全面个性化地展示用户的特征。个性化标签生成的方法主要包括了人工打标签、机器打标签、将人工和机器结合的混合打标签。工业界比较常用的是混合打标签。本文要进行对用户的标签生成,这种标签的生成主要的依据就就是文本的关键词。在用户在文本中获得信息的的过程中,无需考虑词语的顺序,也可获得有效且完整的信息,在这种理论基础上,可以采用通过关键词表征的方法。我们考虑计算机对关键词的查找方法,计算机认为某个词在这段文本中相对比较重要会将该词语的位置为1。在这基础上,为了更好的找到这些重要的词语,研究人员发明了TF-IDF算法。TF-IDF对关键词是这样判断的,考察一个词在某文本中出现的频率,如果词的频率在文本中出现的频率越高那么这个词也就更重要。换句话来说,一个冷门词语大量出现,基本可以判断这个词在这个文本之中有特殊的意义。这个频率一般称之为词频,可以描述一个词在文本中的频繁程度。当然为了避免文本长度这一无关变量,本文又采取了反文本频率,即文本频率的倒数。可以用两者的乘积来表示所抽取关键词的权重。2.4用户画像原则用户画像构建一般遵循五大原则。有效性指的是可以有效地描述用户的需求。真实性指的是基于客观的数据得到的用户画像,而不是想当然的得到一个想象的画像。独立性指的是关键词等有明确区分,有独立意义。全面性指的是采用的数据一般要包含多种形式,如文本,语音,视频等。统一性是指用户和物品的标签相互对应。2.5用户画像框架表2.1百度用户画像框架类别示例百度用户画像通用维度人口学特征短期意图位置属性垂直维度情况爱好习惯从百度的用户画像框架中可以看出其将自然标签和社会标签合并为通用维度,将关系属性标签称之为垂直维度,采用的是人工标签的标签化处理方法。其中人口学特征是自然属性,短期意图和位置属性是社会属性,情况、爱好和习惯是用户的关系属性。表2.2微博用户画像类别示例微博用户画像用户兴趣对其他用户对内容用户能力自身信息针对内容用户亲密度用户A对用户B的行为用户基础画像身份信息属性信息关系信息定位信息直接来看,在微博的用户画像框架中个性化标签体现得较为明显。用户兴趣、用户基础画像可以归纳为人工打标签,用户能力和用户亲密度则更贴近机器打标签表2.3头条标签概览类别示例头条用户标签概览兴趣特征感兴趣的类别和主题感兴趣的关键词感兴趣的来源基于兴趣的用户聚类各种垂直兴趣特征身份特征性别年龄常驻地点行为特征晚上看视频头条标签更关注用户的兴趣标签,也考虑到了用户的自然属性标签,这可能鱼头条的内容服务和推送业务有关。本文要进行对用户的标签生成,这种标签的生成主要的依据就就是文本的关键词。在用户在文本中获得信息的的过程中,大部分时候找到一句话的主谓宾就可以确定句子的中心思想。基于这种理念,可以采用通过关键词表征的方法。在这基础上,为了更好的找到这些重要的词语,研究人员发明了TF-IDF算法。TF-IDF对关键词是这样判断的,考察一个词在某文本中出现的频率,如果词的频率在文本中出现的频率越高那么这个词也就更重要。换句话来说,一个冷门词语大量出现,基本可以判断这个词在这个文本之中有特殊的意义。这个频率一般称之为词频,可以描述一个词在文本中的频繁程度。当然为了避免文本长度这一无关变量,本文又采取了反文本频率,即文本频率的倒数。可以用两者的乘积来表示所抽取关键词的权重。2.6词向量本文采用的模型最终的输出结果就是词向量。要词向量是指自然语言处理(NLP)先进行文本切割,并进行语言建模之后,将词表达为一个向量的形式。.大多数自然语言处理任务都会将文本切分为词,由于机器做运算最底层是通过0-1实现的,要想借助机器进行相关的运算,就要将自然界的事务抽象化,并将抽象过后的数学语言输入到机器之中,利用机器进行运算,而多维数据最常用的数学语言就是向量了。Word2Vec,FastText,Glove等等方法都是学术界中常用的的词向量计算方法,被使用最广泛的是Word2Vec方法。算法的主要原理是在一篇文档中,词可以被它周围的词语进行指代。那么可以在一段文本中取若干个连续的词语,将中间的词作为一个节点,周围其他词语可以视为与之相关的词,它们之间存在相关性是默认的前提假设。对这种相关关系进行建模就可以得到词语的表征。Google提出了自己的思路,建立了Skip-gram模型与CBoW模型。Word2Vec—般配合层次softmax使用,来提高构造词向量的效率,提高向量表征的准确性,softmax技术通过研究特征对概率的影响,对存在互斥的分类比较适用。第3章酒店用户属性画像的预测3.1引言章节主要介绍酒店入住户用户属性的预测方法。通过上文的调查,我们已经知道不是用户在填写个人信息都足够认真,为了便于研究,可以对用户属性进行预测。在先前的章节中,我们已经获得了酒店入住用户的入住记录,基于这些数据我们可以预算推测酒店入住用户的一些基本属性。在进行用户画像的研究时,将之概括为一种分类也不为过,在研究这种分类问题时,机器学习方法是常用的方法之一。以往要进行酒店评论属性预测之前,为了构建相关的模型,需要先设计所要用到的属性,需要统计酒店入住用户的入住记录、统计酒店入住用户的社交软件数据,最后研究得到的酒店用户的相关属性特性,对用户的相关数据进行模拟,这一过程一般要借助相关的分类器,最终实现预算推测用户的相关属性。本文先是利用词频方法进行初级的画像分析,之后主要采用的方法是研究酒店入住用户的入住记录,得到相关酒店的向量,一般是使用Skip-gram方法;接着基于酒店入住用户的评论信息,和相关的酒店评论向量,一般是使用Doc2Vcc方法;基于入住酒店的特征向量,利用常用的分类器,可以得到我们想要的酒店入住用户的属性预算推测结果。主要采用的方法有以下步骤组成:利用酒店用户的入住记录和skip-gram模型得到酒店的入住向量,可以得到用户的偏好;利用酒店的评论文本数据和DocVcc模型,得到酒店的评论向量,基于酒店用户的评论,获得酒店的评论向量;利用视频特征向量预测未知用户的属性信息。3.2数据来源本小节展示的是在研究过程中所用到的一些数据,这些数据主要是在携程网上通过爬取工具进行爬取得到,可以从此网站上的酒店预订板块获得酒店入住用户的入住记录以及用户的相关评论文本。本章节主要列出的是用户的属性数据和酒店评论的文本数据。其中用户属性数据如表3.1所示。用户属性数据包括一些用户的基本信息如性别,出生年份等,不可避免的是有些数据的缺失。表3.1用户属性数据示例用户编号性别出生年份地区用户1男1985地区1用户2女缺失地区2…………用户3缺失1973地区3出于向其他用户展示自己的入住体验,以及鼓励其他用户进行分享体验的想法,酒店入住用户一般会留下自己对酒店的文字评价,表达自己的想法。这些文本评价一般都能反映用户的偏好,了解到用户潜在的商业需求,这些有效的商业信息能帮助酒店改善经营现状。通过这些信息的进一步挖掘和研究,可以帮助酒店提升用户的入住体验,进而营造自己的品牌价值,提高自己的品牌影响力,获得更多的经济效益。在爬取酒店的评论文本之后,由于在线酒店评论的数据冗杂,基本没有结构化的形式,所以要对其进行分词处理,同时要考虑去除标点符号、停用词、错别字等情况。3.3基于酒店评论特征向量进行分类预测对酒店数据进行爬取时,可以发现不仅会获得酒店入住数据,还会获得酒店本身的一些文本,例如酒店的均价,自我简介等。初步采用的方法以哈尔滨市酒店推荐为背景,借助后裔爬取软件来得到获取携程网上的酒店入住用户的酒店入住记录、酒店入住用户对所入住酒店的评分以及评论信息和酒店信息。其中酒店信息包括:酒店地址、酒店名称、附近站点、附近景点、等基本信息;用户基本信息包括:用户ID、房间类型,入住时间,订购原因等基本信息;用户评分和评论包括:用户对酒店的打分、用户对酒店进行的文字评价等信息。通过用户的在线评论信息,明确用户对产品细节属性特征的偏好。使用向量空间模型进行用户画像模拟。借助向量,可以将酒店入住用户的特征用{(q1,w1),(q2,w2),...(qn,w本文主要的方法基于用户入住的记录和skip-gram模型得出酒店入住向量,基于酒店入住用户的评论文本和DocVcc模型的出酒店评论向量,将两个向量结合作为酒店的特征向量。3.3.1词频分析与聚类分析本文在研究过程中先是采用了初级的方法通过用户的在线评论信息,明确用户对产品细节属性特征的偏好。使用向量空间模型进行用户画像模拟。在向量空间模型中,每个用户可以用{(q1,w1),(q2,w2),...(qn,wn)}来表示,其中TFIJ=反文档频率(IDF)是为了降低所有推荐文档中常见关键词的权重。假设可推荐文档数为N,出现关键词i的文档数量为ni,那么iIDFi=logNni文档j中关键词的i组合可以用公式(3.3)计算TF-IDF的权值:wij=TFij*IDFi=f表3.2部分词频数据用户房间宽敞前台服务干净整洁早餐情况地理位置环境设施齐全10.080.080.080.000.000.000.0020.170.170.000.000.170.000.0030.000.250.000.000.000.000.0050.170.000.000.000.170.000.1460.000.170.000.170.000.000.0070.110.000.110.000.110.000.1780.140.140.000.140.000.140.00通过表3.2可以发现有很多关键词在用户的评论文本中的词频是0,主要原因是用户可能只是关注特别感兴趣的方面,对不感兴趣或者是在可有可无的方面不会关注,也就不会留下评论。为了解决数据中0过多的问题,一般是进行+1后去对数处理。这里为了直观展示关键词在用户评论中的词频情况。在获得词频数据之后就可以对起进行分类。用户画像聚类是根据用户画像本身特征进行分类的一种方法。在聚类算法中,K-means算法是典型的基于距离的聚类函数,认为距离越大,两者之间的相似度越小。在进行分类之前要先进行数据预处理:在数据处理的过程中要考虑到变量之间的相关性情况,如果变量间的相关性较强,就要对其进行便令的处理,一般考虑主成分分析、因子分析等对变量降维常用的方法。如表3.2所示,对得到的关键词进行相关性检验,得到的kmo检验值为0.394,说明各个变量之间的相关性很弱,无相关性,可以做后续分析表3.1KMO和Bartlett的检验取足够度的Kaiser-Meyer-Olkin度量.394Bartlett的球形度检验近似卡方18.372df21.000Sig..625关键词相关性较低可能是因为一般酒店入住用户对酒店进行评价时,会选取不同的方面进行评价,一般这些方面只会给出一个词进行评价。同时用户对酒店评论的关键词进行了人工处理,将干净和整洁合并为干净整洁一个关键词,这也使得避免了重复意义的关键词。除此之外,TF-IDF方法有自己独特的优势是会自动过滤掉如“真的”“非常”等无意义的词语。在确认关键词无明显相关性之后,就可以进行分类处理了表3.2历史迭代记录迭代历史记录迭代聚类中心内的更改12313.4701.0353.4652.095.000.1543.216.000.3894.349.000.6275.106.000.2596.000.000.000考察历史迭代记录,由于生成的簇都要被规划到与之相异度最低的簇中,所以簇的中心一直在改变,要重新计算簇中各个元素与簇中心的距离,这样要进行多次迭代,迭代记录显示迭代了6次之后聚类中心不再改变。表3.3聚类分析显著程度方差AVONA聚类误差FSig.均方df均方df房间宽敞.16021.06227.151.861前台服务2.4182.895272.701.085干净整洁1.5962.956271.669.207早餐情况1.5052.963271.563.228地理位置11.2932.2382747.536.000环境1.1122.992271.122.340设施齐全13.4302.07927169.400.000聚类方差图显示上述关键词中地理位置和设施齐全对分类比较显著。表3.5聚类中的案例数每个聚类中的案例数聚类119.00022.00039.000有效30.000缺失.000最终分类为三类,每种类别包含的案例分别为19、2和9个。分类的主要依据是用户对地理位置和设施齐全的评论,产生这种结果的原因可能是由于这两种关键词被提及的频率相对较少,所以会成为分类的较关键因素3.3.2属性画像预测方案概述本文采用的方法是基于酒店入住记录借助skip-gram模型得到酒店入住向量,基于酒店评论文本借助doc2vec模型得到酒店评论向量;根据酒店的特征向量,输入到向量机进行分类预测。图3.1属性预测流程图3.3.2skip-gram模型与酒店入住用户的分析Word2Vcc模型是向量分类常用的方法。该模型思想的延伸是可以利用酒店用户的入住记录,基于酒店入住记录中的一条入住记录生成周围的入住记录。设𝑆是𝑁个用户酒店入住记录集合。每个用户酒店入住记录𝑠=(𝑉0,𝑉1,…,𝑉𝑙)∈𝑆记录了一个用户的酒店入住记录,其中𝑙为序列的长度。我们的目标是学习到一个𝑑维的实数向量来表示酒店𝑉。对于相似的酒店距离,会变得越来越小。为了学习到目标向量,通过最大似然估计的思想,我们定义一个需要最大化的损失函数:E=s∈公式中m是窗口的大小,对任意Vi,让在窗口内的Vi+jP(Vi+j|Vi)=公式中vi表示酒店i作为背景对象时所对应的向量,vi+图3.2skip-gram模型示意图Skip-gram方法的过程一般是要先研究一个酒店入住用户的酒店入住记录,利用窗口滑动的方法,先用一个窗口以第一家酒店为起点,然后往后滑动,这个窗口的长度一般为2k+1。在窗口进行滑动时,中央酒店Vi3.4Doc2Vec方法和酒店入住用户评论文本的植入我们可以利用用户的入住记录来学习获取酒店的特征向量。我们可以利用酒店评论的产生的大量文本数据,进行深入地分类。Word2Vec告诉我们,将一个单词表示成向量是完全可以的,自然而然文档也可以表示成向量。Word2Vec的作者Mikolov提出了Doc2Vec。同样Doc2Vec有两种基本的实现方法:PV-DM和PV-DBOW。PV-DM方法过程一般是,现将所研究的文档初始化,改成向量的形式,可以定义为向量D,文档中的单词也会进行初始化,改成一个向量W。向量和它周围的词向量做一些数学上的处理,可以是取均值,作为中间向量,进而预测句子中的下一个单词,并构建形式同公式3.2的损失函数,最后利用优化算法反向传播更新文档向量𝐷和每个单词的词向量𝑊。文档向量也可以看作是一个词,它相当于上下文的记忆单位或文档隐含的主题。在PV-DM模型中,当窗口滑动时,以文档为中心向量,利用窗口中的文档向量和其他词向量预测中心词;不同的是,PV-DBOW模型在窗口滑动训练时,直接利用文档向量预测窗口中的其他单词,类似于Skip-gram模型。不同的是Skip-gram使用中心词来预测背景词,而DBOW使用文档向量来预测背景词。图4.3PV-DM模型图3.4PV-DBOW模型3.5酒店的特征向量生成基于Skip-gram模型,我们将每个用户一个月内的酒店记录整理成一个序列,所有用户的入住记录形成一个集合。在进行接下来步骤之前要先进行数据的处理工作,去除一些标点符号、无关词、同义词的处理等工作。𝑆和Skip-gram模型用于训练酒店入住率向量。酒店入住向量的维度一般可以采用200,训练窗口一般采用5的大小。使用文档集和Doc2vec模型训练酒店评论向量。酒店评论向量的训练模型为PV-DM,维度一般采用200,训练窗口一般采用5的大小。训练向量是一个密集的200维矩阵,无法直观显示,利用余弦相似度,计算与目标酒店向量余弦距离最近的相似酒店。训练后得到的向量如表3-6所示。表3-6向量示意表示例向量酒店入住向量酒店评论向量相似酒店相似度相似酒店相似度哈尔滨哈布斯堡酒店振宁精品酒店0.5976振宁精品酒店0.6731美豪丽致酒店0.5674美豪丽致酒店0.6558希尔顿欢朋酒店0.5439希尔顿欢朋酒店0.6472新巴黎大酒店0.5328哈尔滨万达文华酒店0.6438雪黎酒店0.4939金爵精品酒店0.63873.6用户特征画像部分属性预测完成前面的工作之后,我们得到了两个用于表示酒店特征的特征向量。本文基于酒店的特征向量,将用户观看记录中所有酒店的特征向量加权求均值,得到的向量作为用户特征向量,即用户的特征画像。此特征向量可以用抽象向量的形式表征用户的酒店入住偏好,之后能够完成用户评分预测任务。本实验采用的传统的机器学习模型分别是常用的LR、SVM、xgboost模型。本文预测的是酒店入住用户对酒店的评分,可以转化为一个二分问题,对酒店评分3分及其以上为一类,3分以下为一类。本文采用的评价指标分别是F1-score,precision,以及recall即F1分数、精确率和召回率。得到的结果如下图表所示。表3.7评分预测结果表LRSVMxgboostprecision0.9606260.9731580.916469recall0.8498760.8300090.789972F1-score0.9018640.8959020.848532图3.5评分预测结果机器学习模型LR、SVM、xgboost三种预测方法中LR相较而言更好的完成了预测任务。F1-score相差较小,具有更高的召回率。成功实现的用户的评分预测。3.7本章小结本章节先是采用了基础的词频抽取算法和K-均值聚类分类方法,对酒店进行分类,体现了用户对酒店体验最感兴趣的方面。接着采用了首先本文基于用户的观看序列和skip-gram模型,得到酒店入住向量。此外本文基于酒店的评论文档和Doc2Vec模型,得到酒店评论向量。最后基于酒店的特征向量和用户评论数据得到了用户特征向量。在以上的基础上,利用LR、SVM、Xgboost模型算法对酒店用户对酒店的评分成功进行了预测。第4章酒店用户兴趣画像4.1基于融合标签抽取算法的酒店标签抽取可以将标签的抽取考虑为一下下问题,要想得到酒店的标签,需要先研究酒店入住用户的评论文本数据,从中抽取出关键字,一般使用无监督文本关键字抽取方法。现在主流的无监督文本关键字抽取算法包括统计、随机游走、主题等方法。本文采用统计词频和随机游走的Textrank算法,结合两者的结果和优劣势,基于这两种算法,改良为融合标签抽取算法进行关键字提取。4.2基于Textrank的关键词提取Textrank也是常用的一种关键词提取方法。这里着重介绍TextRank关键词的提取方法。该算法在PageRank算法的基础上被改进并不断发展,PageRank是衡量一个网页重要程度并对之进行排序的算法,该算法是由谷歌发明的。借助词义之间的关系构筑创建相关关系,基于PageRank方法,得到所抽取出关键词的排名值,依据这个排名值,对其进行降序排序处理,自然排序越高越能代表关键词。具体流程如下。依然是对文档要先进行分词处理;给定一个长度为N的滑动窗口,所有窗口中的词视为词节点的相邻节点,将窗口从文档头滑动到文档尾部;迭代计算公式如下,WSVi是节点Vi的权重,InVi是节点Vi的输入节点集,WSVi=表4.1两种算法的标签情况酒店名称标签TF-IDFTextRank希尔顿欢朋酒店房间、服务、早餐房间宽敞、整洁、没有、干净、方便非常、地理位置新巴黎大酒店服务、早餐、满意、服务、早餐情况、满意度、性价比、舒服地理位置、停车方便根据实验结果TF-IDF会提取高频出现的词,表示用户讨论的热点。Text算法也会提取出高频出现的词,但是更偏总结性一点,会出现“没有”“非常”这种地含义的词4.2.3基于融合标签抽取算法的关键词提取TextRank有无关关键词影响,但是可以进行抽象总结,TF-IDF能够提取出高频关键词,但是没有总结性,可以结合两者的优势,进行融合标签算法抽取关键词。融合标签算法的具体流程包括以下5个步骤:对文本进行预先的处理,不限于分词等步骤;计算每个文档中的TF和IDF值,利用TextRank算法计算每个词权重;将每个词TF值和IDF值相乘得到对应的TF-IDF值,排序后得到topK个关键词;将每个词的TextRank权重和IDF值相乘,排序得到topK个关键词;基于投票法,选择两组关键词中权重高的topK个词作为最终的酒店标签。将TextRank算法中排名值的计算考虑了IDF值,这样大大降低了最终结果出现的无关词,再利用投票法,得到最终权重值高的关键词。表4.2融合算法抽取的标签酒店名称标签希尔顿欢朋酒店房间宽敞、早餐、整洁干净、地理位置、服务、新巴黎大酒店服务、早餐、性价比、地理位置、停车方便美豪丽致酒店房间宽敞、设施齐全、整洁干净、性价比、服务经过以上步骤可以使得无关词的出现频率大大降低,并且利用两种算法,考虑到了更多因素的影响,使得可信度和准确程度大大提高。4.3基于酒店入住标签体系的用户兴趣画像构建在已经得到的酒店标签基础上,可以依据用户的历史数据,借助用户入住过得酒店的标签,给用户打上标签,从而构建用户的画像,进一步预测出用户的酒店入住偏好。其中用户画像构建生成包括以下俩个步骤,根据用户的酒店入住记录序列,以及每家酒店对应的标签,得到标签序列;对序列中的标签求和并归一化排序,得到最终用户兴趣画像。图4.1用户画像词云示意4.4本章小结第一部分主要介绍了酒店标签挖掘,研究酒店评论文本,利用无监督算法的方法进行关键词的提取工作。再接着阐述了TF-IDF和TextRank算法的原理,,基于两种算法的优缺点,本文采用了一种融合标签抽取算法,利用IDF值改进TextRank算法,再结合TF-IDF算法投票得到关键词。最后阐述了用户兴趣画像的构筑创建方法。根据酒店入住用户的酒店入住记录,加权求和用户所入住酒店的相关标签,得到最终用户的兴趣画像,并进行展示。结论(1)总结随着互联网络时代的到来,网络技术迅猛发展,越来越多的用户会通过在线评论的方式对入住过的酒店进行文字评价甚至图片评价。仅仅酒店入住用户的评分来判断酒店入住用户的入住体验是不够全面客观的,根据酒店入住用户对酒店的文字评价可以更清晰地反应用户的入住体验,同时能更好的得知用户的偏好,挖掘用户的潜在需求,便于酒店对其进行精准营销和推荐。为了实现这一目的,用户画像作为基础性工作,收到广泛关注,研究用户画像可以更全面的获悉酒店入住用户的偏好,提高酒店入住用户的入住体验,使酒店获得更多利润。本文基于酒店入住用户的入住记录和互联网酒店预定平台的用户评论,对酒店入住用户的属性画像和酒店入住用户的兴趣画像两方面进行研究。酒店入住向量通过研究酒店的入住记录产生,酒店评论向量通过研究酒店入住用户的评论文本数据产生。为了达到避免人工设计用户的标签这一严重影响正确性的过程,采用了无监督算法进行向量生成。为了构建用户兴趣标签画像,本文采用了一个改良的酒店标签挖掘方法,基于酒店入住用户的评论文本,采用融合标签抽取的算法进行关键词的提取。将所入住酒店的标签加权求和,可以得到最终用户的兴趣画像,方便展示用户的偏好。(2)展望本次研究通过研究通过携程网进行酒店预订的相关用户在酒店入住这一过程产生的数据,即酒店入住记录和留下的评论,构筑创建用户画像。为了使得构建的属性画像和兴趣画像更全面,更有价值,可以考虑引入注意力机制,使得获取关键词更准确更具代表性;可以尝试对用户的其他行为或是信息进行预测,例如地区预测,支付形式预测等;可以尝试考虑更多系统外的因素进行研究,例如季节变化,节假日等。将用户画像应用于推荐系统是将用户画像理论进行应用实现的重要过程,研一过程可以更好的理解用户画像相关理论。参考文献[1]ZhangD,LiS,WangH,etal.Userclassificationwithmultipletextualperspectives[C]//ProceedingsofCOLING2016,the26thInternationalConferenceonComputationalLinguistics:TechnicalPapers.2016:2112-2121.[2]WangL,LiQ,ChenX,etal.Multi-taskLearningforGenderandAgePredictiononaChineseMicroblog[M]//NaturalLanguageUnderstandingandIntelligentApplications.Springer,Cham,2016:189-200.[3]WuC,WuF,LiuJ,etal.NeuralDemographicPredictionusingSearchQuery[C]//ProceedingsoftheTwelfthACMInternationalConferenceonWebSearchandDataMining.ACM,2019:654-662.[4]FarnadiG,TangJ,DeCockM,etal.Userprofilingthroughdeepmultimodalfusion[C]//ProceedingsoftheEleventhACMInternationalConferenceonWebSearchandDataMining.ACM,2018:171-179.[5]HuJ,ZengHJ,LiH,etal.Demographicpredictionbasedonuser'sbrowsingbehavior[C]//Proceedingsofthe16thinternationalconferenceonWorldWideWeb.ACM,2007:151-160.[6]QinZ,WangY,XiaY,etal.Demographicinformationpredictionbasedonsmartphoneapplicationusage[C]//2014InternationalConferenceonSmartComputing.IEEE,2014:183-190.[7]MalmiE,WeberI.Youarewhatappsyouuse:Demographicpredictionbasedonuser'sapps[C]//TenthInternationalAAAIConferenceonWebandSocialMedia.2016.[8]ShouzhongT,MinlieH.MiningmicrobloguserinterestsbasedonTextRankwithTF-IDFfactor[J].TheJournalofChinaUniversitiesofPostsandTelecommunications,2016,23(5):40-46.[9]PengL,BinW,ZhiweiS,etal.Tag-TextRank:awebpagekeywordextractionmethodbasedontags[J].JournalofComputerResearchandDevelopment,2012,49(11):2344-2351.[10]WuW,ZhangB,OstendorfM.Automaticgenerationofpersonalizedannotationtagsfortwitterusers[C]//Humanlanguagetechnologies:The2010annualconferenceoftheNorthAmerican
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 劳动合同标准格式范文
- 简易自愿离婚合同模板
- 菜鸟驿站快递柜租赁合同
- 餐饮企业战略合作区域代理合同样本
- 老旧农村房屋转让合同范本
- 自行车安全培训课件
- 木工机械的现代控制技术考核试卷
- 木质游艺器材制作工艺考核试卷
- 批发行业的品牌形象塑造考核试卷
- 合成材料在汽车制造领域的应用研究考核试卷
- 2024年镇江市高等专科学校单招职业适应性测试题库完美版
- 2024年云上贵州大数据(集团)有限公司招聘笔试冲刺题(带答案解析)
- 珠海市高级技工学校校企合作管理办法修订
- GB 31825-2024制浆造纸单位产品能源消耗限额
- 消防设施操作员报名工作证明(操作员)
- 供应商开发流程及质量要求
- 2024年技术监督质检职业技能考试-电力技术监督上岗员(中国华能)笔试历年真题荟萃含答案
- 反假币测试附有答案
- 怎样调动员工积极性
- 2024年内科护理学(第七版)期末考试复习题库(含答案)
- 急诊科培训急诊科与其他科室的协作与沟通
评论
0/150
提交评论