常见的文档低质问题
一、标题违规
1.1 在标题批量加无关的关键词/字、数字、字母、符号
例如【】、...、abc、1、20XX 、网址、等和文本标题没有任何关系的文档。上传用户为逃避重复过滤机制故意为之或者没有对自己的文档进行整理,不利于seo优化。
1.2 在标题中添加格式、页数
例如标题后加.pdf、.doc、(共XX页)逃避重复过滤机制,文档经过系统处理后,会自动识别到文档格式和页数并在网站显示,自行添加影响用户体验和降低网站文档质量。
1.3 标题不完整、缺字漏字、表意不明,标题关键词堆砌、阅读不通顺,使用户难以理解,且易造成误导。
例如“第三章.DOC、我们的世界 改成 我们世界” 等故意添加或者删除字词,造成文档标题意思不明确,影响用户体验和不利于seo优化。
1.4 标题与实际内容不符合
标题写着有答案实际没有答案、标题写着有图纸实际没有图纸、标题写着2023/2024年内容实际是往年的(假年份)、标题写着有视频实际没有视频、标题写着全套实际只有一部分、标题与内容不相关(标题是工作总结,但内容中却是试题)等,容易遭到下载用户投诉、举报至相关部门且中招百度清风算法导致网站被搜索引擎处罚。
(2023年传的2024年的内容)
1.5 标题批量添加影响用户判断的词
如在标题前面或后面批量加“精品、最新、精选、7A、5A、整理、优质、优秀、新、热门、推荐、菁选、优选、完美、免费、完整版、高清版、全套、满分、100分”引导性形容词,会误导用户,使网站遭到投诉并遭受搜索引擎处罚。
1.6 标题批量添加影响用户判断的词
标题字数不能少于6个汉字(如标题确实不足6个汉字,可适当添加内容相关的关键词);建议标题长度在8-20个汉字。
二、恶劣采集文档
2.1 采集网页进行制作
采集网页新闻、软文、论坛、博客等,制作成文档上传,文档排版混乱、内容价值较低。
2.2 采集目录,简介内容
仅仅是目录、简介、封面没有实际内容的文档,或者文档内容不全(此类内容大多为采集其他收费平台内容,免费采集的只有前面部分的目录等信息),容易引起用户投诉、退款,影响网站信誉
2.3 采集内容中含有明显网址等信息
一些采集的文档中,含有明显的采集方的信息,网址,水印logo,二维码,联系方式
等,用户体验较差。
2.4 采集内容为广告软文
有明显的引导性,对具体的某个产品/服务进行介绍推荐,引导购买等;
三、违规内容
3.1 内容中故意添加大段内容
使用软件或其他方式在文档里批量添加与主题无关的内容。降低网站权重且影响用户体验。比如赠送范文、诗歌、小故事、励志语句、拼音等、PPT母版中加无关内容;
3.2 文档里大量乱码字,内容用背景色字体隐藏、或将字弄的很小隐藏,或在一个字上面实际是两个同样的字(文字重叠)。
导致预览无法判断内容,且易造成投诉。
3.3 在文档首页,文档中或末尾添加空白页/重复页,图片,或者使用图片覆盖内容。
封面没有任何文字内容;使用户体验感极差,容易被投诉或举报至相关部门。
恶意插入重复封面,使用户体验感极差。
3.4 内容排版混乱
内容排版不正常、乱码文字、段落不整齐、首页空白多、过密或过于稀疏,字体过大/过小、颜色(几乎看不到)完全不符合常规。
3.5 内容堆砌
大量文字重复,有些用户为了逃避重复机制的检测,或者为了凑页数字数,同样的一段或者一篇内容,重复出现在一个文档中。甚至是同样的内容复制2次或多次组成一个文档。(尤其是PPT中存在较多)
3.6 内容空短不全
1-3页空短内容,统一格式,无实际内容、或内容不全。
3.7 PPT内容与实际文字内容不符
PPT的内容与实际的文字内容没有任何关联,PPT为纯图片与无关文字内容组成,恶意逃避网站关键词的筛查。例如:PPT内容是学习团课的PPT,文字内容是建筑相关的。