今日头条进阶手册之消除重复_第1页
今日头条进阶手册之消除重复_第2页
今日头条进阶手册之消除重复_第3页
今日头条进阶手册之消除重复_第4页
今日头条进阶手册之消除重复_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

那就是「消重机制」,数据说明,被「消重」是头条号所公布内容无推举量的最常见的缘由。一.什么是消重?我们都知道,在互联网上,同样的文章、图片、视频被多个媒体登载,是很常见的状况。无论是网站,还是各种媒体平台上,原创内容除了原创来源之外,往往还会被很多其他媒体转载或复制。假设我们用搜寻引擎搜寻一篇内容,常常会得到多个网址。在过去,我们只要自己筛选和推断,哪个网址更权威,更有价值,再点击去访问就里——系统连续给你推举了几篇相像的内容,会怎么样呢?——假设我想看,看一篇就够了,假设我不想看,那么重复推举也没有意义啊!没错,所以今日头条在推举某篇内容之前,必需确定这篇内容:在系统里是否存在一样或者高度相像的内容?假设存在,那么这篇内容的来源是否是最权威、最有价值、最有可能是原创的来源呢?消重就是指对重复、相像、相关的文章进展分类和比对,使其不会同时打算同样主题或内容的文章是否有时机被推举给更多用户。二.消重的种种好处优质内容的媒体不太有利,但是综合看来,我们觉得消重的好处是很多的,尤其对于用户来说:优化用户的体验。对用户来说,同样主题的文章看一篇就够了;鼓舞原创!在文章相像的状况下,申明「原创」文章是后续获得推举的重要指标;给更多内容以曝光时机。由于用户的兴趣是确定的,假设每次刷都反复推举类似的内容,你公布的其他内容不就没有曝光时机了吗?固然,总体来说,这是一个有利于原创者的机制,这也和头条号平台鼓舞原创内容生产的目标全都。三.头条号算法中的消重过程如何推断两个内容是否一样呢?十多万篇次的时候,这么做即使对于计算机来也太麻烦了。有没有更简洁的方法呢?有的,通过系统的计算,一篇文章的文本、标题、图片等都是可以转换视频等信息形式,原理也是类似的。延长阅读:留意:此处介绍的只是计算原理,并非实际发生的计算过程。信息的「身份证」,一种更常见的称呼是「信息指纹」,是计算机应用种,但原理是相像的:你可能知道,不管是中文、外文还是数字,在计算机系统里,实际上都01的代码形式存储的,例如大写字母A的ASCII编码就是01000001z的ASCII01111010〔实际上也存在很多种编码标准,ASCII是一种常见的英语编码标准,承受8位二进制数字编码简洁来说,计算会对文本中消灭的不同字符的信息指纹,结合它们各拘束内容中消灭的次数,反复进展算术运算,最终得到一篇内容的信息指纹。理论上说,假设运算足够多的次数,就会产生足够独一无二的数字结果。信息指纹的重复概率有多低呢?假设我们通过上面的计算,得到一串128位的二进制数字,这在计算机系统里只需要占用很小的空间,但是依据「抽屉原理」,这样的数字重复一千八百亿次才能重复一次!这对于一般的信息消重来说,已经格外足够了。0,对于“消重”机制,不必担忧误判,也不能心存幸运!原理上说,不同内容的身份证是不一样的,而一样内容的身份证是一样的。并且,相像的内容会具有相像的身份证。这是头条号的系统对内容进展消重的根底。每一篇文章都有属于自己的「身份证」,用来与平台中的其他文章进展比对。通常有以下几种不同的消重机制:内容消重与「关键项」在计算一篇内容的「身份证」之后,根本上有两种状况。其一,这是一个系统中独一无二的身份证,换言之,同样的内容在系统里只有这样一篇。对于内容公布者来说,这生怕是最抱负的状况了,这种状况下,在向读者推举一样内容时,系统除了推举这一篇外,别无选择。其次种就要简洁得多了,同时也是格外常见的状况:系统里存在多篇不同内容,都具有同一张身份证。这时,系统就需要从这些一样内容中选择一篇“关键项”向用户推举。进展选择的最终目的是保证向用户推举的内容来自更权威、更有可能是原创来源的头条号。内容本身之外可能存在很多的差异,这些差异就是推断的关键,具体的计算标准是格外多的,其中最重要的一些包括:来源头条号是否开通「原创」标记;公布时间;来源的权威性和在网络上被引用的次数。举例来说,假设「央视闻」通过头条号平台在519日上午公布了520日上午转发了同样一篇内容,两者都没有标记原创,那么:首先,依据文本分析,这两篇内容会被计算出一个一样的「信息指纹」;接着,「央视闻」是比较权威的闻报道媒体,而且,「央视闻」的内容公布时间更早,因此,是权威、原创来源的可能性就远远大于「门头沟闻」;那么,「央视闻」所公布的同一篇内容,就会被认定是这两篇内容中的关键项〔官方英文名叫Keyitem〕,继而向用户推举。那么,假设说,同样的内容,519日先由「门头沟闻」的头条号公布,520日再消灭在「央视闻」的头条号上,系统会如何判定呢?这就比较简洁了,但是综合看来,系统选择最正确内容来源的可能性格外大。创」,那么在这种状况下,系统会有很大的几率把这篇内容选择为「关键项」,无论其他因素的比较结果如何〔尽管如此,「原创」头条号应当消申明原创的资格〕。一旦系统觉察了可能对某篇内容感兴趣的用户正在刷今日头条客户端,那么系统会自动把具有同样「信息指纹」的内容中,经过选择最优的一篇推举到用户的信息流。剩下具有一样「信息指纹」的内容,就几乎不行能获得推举了。今日头条获得推举量的缘由。其他一些「消重」的规章外的消重规章。标题和预览图片的消重。原理与内容消重相像,只不过是只比较标题以及预览图片的「信息指纹」。之所以要对具有一样的标题或者预览图片的内容进展消重〔哪怕它们的内容并不一样〕,这是由于,假设用户没有点击内容详情页,这看上去就是系统把两篇一样的内容重复推举给了用户!可想而知这样的扫瞄体验是很糟糕的,况且,很少有人情愿连续点击几篇看上去一模一样的内容,因此这样的推举也很少起效果。针对相像主题的消重。你确定对这样的景象不生疏:每当有某个社会热点大事或者话题KOL们一拥而上,竞相报道大事细节或者发表观点,让你的微博、朋友圈被有关这件事的种种内容“刷屏”。追赶热点,是媒体、自媒体很本能的一种行为模式,但是对于用户来说,需要的其实并不是反复看到一样的信息,假设有足够优质的报道或者观点的话,其实看有限的几条就够了。机器为避开在同一时间段用户看到太多同一大事的文章,就会启动对「相像主题」的消重。不难想到,对于主题的消重原理和对内容的消重其实原理是一样的,假设能对文章中全部的关键词进展统计并计算信息指纹,当然也可以对其中局部与话题相关的关键词进展统计并计算信息指纹。灵敏一些,由于在信息流里看到重复的内容对用户是最不好的体验。四.应如何避开被消重?这样的状况呢?坚持原创!假设内容完全是你原创的,那么,可以想见这样的内容根本上都是独一无二的,自然就不用担忧消重的问题了。固然这是最抱负的状况,不行讳言,对于「原创」这件事,有时计算机的推断和人的推断是不全都的。缘由是,计算机只能观看到互联网上发生的事,却对没有在网络上留下痕迹的事情一无所知!一种比较常见的状况是,原创作者把自己的原创内容授权给了多家媒体,甚至有些媒体有首发权。而这些媒体可能都有自己的头条号,因此就把作者的原创内容先发到头条号上来了。因此,当作者自己在头条号上更时,或许由于发得比较晚,或许由于不如媒体有知名度,导致自己公布的内容没能成为「关键项」。因此,建议原创作者在赐予其他媒体内容授权时,尽可能商定清楚。同时,假设可能的话,尽量把自己原创的内容,在自己的头条号上首发。有些作者倾向于使用微信同步功能将自己的内容从微信公众号上同步到头条号上。但是有时这个策略会导致一些意料之外的「消重」问题。由于这个功能需要调用微信公众平台的一些技术接口,因此头条号是无法保证它始终良好运行的。假设同步生效的时间比较晚,甚至同步失败。那么在这个过程中很简洁发生其他头条号把原创内容先转载到自己的头条号上,并且成为「关键项」的状况。因此建议头条号运营者确定要慎重使用微信同步功能,尽可能在头条号手动公布、首先公布。面对「热点」要慎重追赶。别忘了「话题消重」这个规章,尽管这不如「内容消重」那么严格,但是一件事再热,读者的兴趣也是有限的。因此,假设不能确定自己创作的角度足够独特,自己的内容足够优质,那么就不要任凭地追赶热点,免得做了无用功。少用常见标题套路。最终,起标题时,尽量挖掘自己的创意,起出一些别出心裁又有吸引力的标题,尽量少用网络上常见的标题套路,以免「撞款」了!要记得,标题也是会被消重的。同类型的主体注册帐号,包括个人、企业、群媒体、国家机构、闻媒体和其他组织。评论家及自媒体人士申请入驻;企业:公司、分支机构、企业相关品牌、产品以及效劳等能够申请入驻;群媒体:以内容生产为主要产出的机构能够申请入驻,如36氪、果壳网、Mtime时间网等;国家机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论