




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络信息过滤技术 组长 刘伟1221330048组员 史波1221330053张旭1221330056伍思同1221330068 目录 基本信息与发展历史 刘伟网络信息过滤技术方法 史波网络信息过滤技术应用 伍思同现状分析及发展趋势 张旭 互联网的飞速发展在给人们的工作 生活 学习等诸多方面带来巨大便利的同时也带来诸如 信息超载 以及 不良信息 和垃圾信息的侵害等问题 信息过滤技术由此产生 并广泛应用到了网络的各种信息处理过程中 对网络信息实用化具有极大的推动作用 网络信息过滤技术采取适当的技术措施 对互联网不良信息进行过滤 既可阻止不良信息对人们的侵害 适应社会对意识形态方面的要求 同时 通过规范用户的上网行为 提高工作效率 合理利用网络资源 减少病毒对网络的侵害 这就是信息过滤技术的根本内涵 网络信息过滤是根据一定的标准运用一定的工具从动态的网络信息流中选取用户需要的信息或剔除用户不需要的信息的方法和过程 网络信息过滤有利于减轻用户的认知压力 它在为用户提供所需要信息的同时 着重剔除与用户不相关的信息 从而提高用户获取信息的效率 它根据用户信息需求的变化提供稳定的信息服务 能够节约用户获取信息的时间 从而极大地减轻用户的认知负担 起到减压阀的作用 目前网络信息过滤的工作概括为2项 一是建立用户需求模型 即用户模板 用于表达用户对于信息的具体需求 建立用户需求模型的主要依据是用户提交的关键词 主题词或示例文本 二是匹配技术 即用户模板与文本的匹配技术 简单地讲 任何信息过滤系统就是根据用户的查询创建用户需求模型 将信息源中的文本有效表示出来 然后根据一定的匹配规则 将信息源中可以满足用户需求的信息返回给用户 并根据一定的反馈机制 不断地调整改进用户需求模型 以期获得更好的过滤结果 网络信息过滤对个性化信息服务起到了巨大的推动作用 在个性化信息服务中 最重要的是收集和分析用户的信息需求 由于信息过滤的反馈机制具有自我学习和自我适应的能力 可以动态地了解用户兴趣的变化 掌握用户的信息需求 从而为用户提供更有针对性的信息 在协作过滤系统中 还可以根据用户之间的相似性来推荐信息 从而有可能为用户提供新的感兴趣的信息 拓宽用户的视野 通过网络信息过滤 可以减少不必要的信息传递 节约宝贵的信道资源 利用网络信息过滤 可以对网络信息的流量 流向和流速进行合理的配置 使网络更加畅顺 而对于用户来说 信息过滤由于剔除了大量的不相关信息的流人 可以避免塞车现象 网络信息过滤技术的发展历史 信息过滤 最早出现在1982年的3月美国计算机协会上 1992年 代表了世界文本检索领域最高水平和文本检索领域最权威的国际会议之一的文本检索会议召开 并将过滤作为其一个重要的议题 会议对信息过滤学科形成和发展提供了强有力的支持 网络信息过滤技术方法 基于内容的信息过滤从网络信息过滤结构基于合作的信息过滤 协同过滤 内容过滤从网络信息过滤的依据网址过滤混合过滤 基于内容的信息过滤 基于内容的信息过滤通过用户模型 userprofile 来描述用户的信息需求 将新获取的信息与用户模型进行相似度计算 主动将相似度高的信息提供给用户 内容过滤的基本思想是 给用户推荐和他们之前喜欢的物品在内容上相似的其他物品 核心任务就是计算物品的内容相似度 基于内容的过滤优缺点 优点 基于内容过滤利用资源和用户兴趣的相似性来过滤信息 它的关键问题是相似性计算 其优点是简单 有效 这种过滤技术已经比较成熟 使用也相对较广 缺点 基于内容过滤难以区分资源内容的品质和风格 而且不能为用户发现新的感兴趣的资源 只能发现和用户已有兴趣相似的资源 随着信息的剧增 效率和质量会降低 使用过程中难以发现新的感兴趣的信息 一旦过滤方法选择错误 后果将很严重 基于合作的信息过滤 基于合作的过滤技术根据人的判断为用户过滤信息 它使用多个用户信息预测单个用户的偏好根据相同或相近兴趣的用户对应信息做出评价 向其用户进行推荐 由于不依赖于内容 这种模式不仅适用于文本格式 也可以适用于非文本介质的资源 如视频 音频等 基于合作的协同过滤 首先从数据库里获取他之前喜欢的东西 然后从剩下的东西中找到和他历史兴趣近似的东西推荐给他 核心是要计算两个东西的相似度 基于合作的过滤优缺点 优点 协作过滤系统利用用户之间的相似性来推荐信息 它能够为用户发现新的感兴趣的内容 其关键问题是用户聚类 并且能为用户发现新的感兴趣的信息 缺点 需要用户的参与 稀疏性问题 在系统使用初期 由于系统资源还未获取足够的信息 系统很难利用这些信息来发现相似的用户 另一缺陷是系统可扩展性 即随着系统用户和信息资源的增多 系统的性能会下降 对比 可以注意到基于内容的信息过滤和基于合作的信息过滤 协同过滤 的相同点都是要计算两个物品的相似度 但不同点是前者是根据物品的内容相似度来做推荐 给物品内容建模的方法很多 最著名的是向量空间模型 要计算两个向量的相似度 而后者根据两个物品被越多的人同时喜欢 这两个物品就越相似 由此可以看到两种方法的不同点在于计算两个物品的相似度方法不同 一个根据外界环境计算 一个根据内容计算 例1 用户u1喜欢的电影是A B C用户u2喜欢的电影是A C E F用户u3喜欢的电影是B D我们需要解决的问题是 决定对u1是不是应该推荐F这部电影基于内容的做法 要分析F的特征和u1所喜欢的A B C的特征 需要知道的信息是A 战争片 B 战争片 C 剧情片 如果F 战争片 那么F很大程度上可以推荐给u1 这是基于内容的做法 你需要对item进行特征建立和建模 协同过滤的办法 那么你完全可以忽略item的建模 因为这种办法的决策是依赖user和item之间的关系 也就是这里的用户和电影之间的关系 我们不再需要知道ABCF哪些是战争片 哪些是剧情片 我们只需要知道用户u1和u2按照item向量表示 他们的相似度比较高 那么我们可以把u2所喜欢的F这部影片推荐给u1 信息过滤依据的具体内容过滤 首先分级体系 网页的分级也像电影 电视的分级一样必须按照一定的标准进行 这个标准就是分级体系 分级体系是对网络信息内容进行分级的依据 它规定了分级的类目 子类目或者类目的级别和分级的具体方法 实质上就是一种网络信息内容分类法 例2 RSACi分级体系 暴力O无暴力1打斗2杀戮3带血腥的杀戮场面4态意的非常无理的暴力行为 语言0非冒犯性的语言1轻微的脏话2一般性的脏话3下流的手势4暴露或粗鲁的语言 对于包含分级标记的HTML文件 过滤软件会把按类目设置的过滤模板与分级标记进行比较 过滤软件会比较邮件头中的分级标记 拒绝不良信息 由代理服务器过滤请求和响应的信息 过滤软件利用分级服务系统传输的标记 决定是否过滤相应的信息 优点 从分级方而言 可以进行自我分级 扩大分级的范围 可以由第三方进行分级 可以根据主题或其他属性特征揭示网络信息 可以根据用户或管理方需要制定或选择分级体系 可以根据需要对分级类目作增 删 改 用人工的方法可以对图像 图形 音频 视频等多媒体信息准确分级 从管理方而言 可以按类目或者类目的级别过滤信息人工分级的过滤错误率相对较低通过类目的组合可以灵活设置过滤模板不同分级体系的分级标记如果遵循PICS规范 这些分级体系的类目可以组合使用 以满足用户多样化的需求b 信息过滤依据的网址过滤 URL地址列表法URL地址列表法是利用预先编制好的URL地址列表决定允许还是禁止用户访问网络信息的一种方法 这是信息过滤中最为直接也最为简单的方法 URL地址列表可以分为两种 白名单和黑名单 前者是允许访问的URL地址列表 后者是禁止访问的URL地址列表 优点 实现比较简单 可用于弥补过滤软件的过滤过度或过滤不足的缺陷 白名单可作为绕开过滤的一种手段 采用白名单可以限定访问的范围 采用URL地址列表过滤不良信息是一种十分直接也十分简单的方法 在1995年以前的过滤软件以及现在的儿童搜索引擎 儿童浏览器 邮件过滤软件中用得比较多 用户也可用来弥补过滤软件的过滤过度或过滤不足的缺陷 另外 白名单能够有效地限制用户访问的网址 特别适合向儿童推荐网站 如果只采用黑名单进行过滤 则无法满足用户多样化的信息需求 信息过滤依据的混合过滤 动态文本分析法利用分级法或URL地址列表法进行信息过滤 实际上是以分级的方法表达用户的信息需求和描述网络信息 它们的优点是简单直接 容易实现 缺点是分级的覆盖面有限而且无法实现动态过滤 直接影响过滤的效果 对于这两种方法的缺陷 在一定程度上可以通过第三种方法 动态文本分析予以解决 在信息过滤系统中 动态文本分析法首先把用户的信息需求描述成为用户需求模板 然后根据这一模板对动态的文本信息进行过滤 再利用反馈机制改进用户需求模板 由于用户需求模板可以用关键词 规则或分类的类目来描述 其中大家比较熟悉的是使用关键词列表 所以这一方法有时候又简单地称之为关键词法 采用动态文本分析法着重要解决四个方面的问题 描述用户需求模板 描述网络信息文档 匹配技术 反馈机制 网络信息过滤技术应用 不良信息过滤个性化信息过滤 SNS 搜索引擎 SNS FOLLOW机制 PageRank机制 Google 算法 互联网的内容管理一直是一个敏感而颇具争议的问题 但是 即使是在美国这样开放的西方国家 对于互联网内容也有一定程度的管理 特别是在教学领域 美国法律规定所有提供互联网教学的电脑必须采用信息过滤技术进行内容过滤 我同国政府对于互联网有害信息清理工作极为重视 近年来 分别下发和颁布实施了关于加强 非经营性互联网上网场所信息安全管理 的文件和 互联网上网服务营业场所管理条例 的法规 各级公安机关作为计算机及互联网安全管理的主管机关 在互联网信息安全管理方面做了大量有益的工作 信息过滤技术是通过URL过滤 关键词过滤 图像过滤 模板过滤 智能过滤等手段 对互联网用户进行信息安全审计管理和访问控制的技术 目前 信息过滤技术是各级公安网络监察部门对互联网接入单位 政府机关 企事业单位 学校 网吧等 的网络出口进行信息安全审计管理的主要技术手段之一 因此 根据国家法律法规的规定和政府有关文件要求 结合公安网监工作实际 加强信息过滤技术发展趋势的研究 对于搞好公安网监工作 指导 三个中心 建设具有重大的现实意义 信息过滤技术和防火墙技术的区别 信息过滤技术和防火墙技术是有区别的 其主要区别有以下几个方面 1 工作的协议层不同防火墙主要工作于网络层 有应用层分析 但不是主要任务 信息过滤技术既要工作于网络层 也要工作于应用层 因为有些过滤功能必须在应用层实现 例如 URL过滤和关键词过滤 2 过滤的内容不同防火墙主要是IP过滤 主要是检查 记录和分析管理对象在连接哪个地址 发送和接收那些数据包 当前连接状态等等 并且防火墙过滤的IP不能太多 否则会影响网络速度和防火墙性能 信息过滤技术除了IP过滤之外 一般还具备URL过滤 关键词过滤等功能 主要记录和检查管理对象访问了哪个地址 哪个网站 发送和接收了哪些页面或文件等 信息过滤技术过滤的IP和URL量可以很大 一般可达几万条或几十万条 3 工作方式不同防火墙提供的过滤功能仅仅是一个控制工具 如何控制需要用户自行设置 而信息过滤技术提供给用户的既有工具 又有各种库和模板等 这可以由用户自行选择 4 功能设计面向对象不同防火墙功能设计主要面向单个用户 信息过滤技术除此之外 在面向管理机关要求的系统化多种报警审计上 在面向用户的分类访问控制上都有许多功能是防火墙中所没有的 因此 在现阶段防火墙技术不能代替信息过滤技术 信息过滤技术的发展趋势 经过几年来的发展 我国信息过滤技术从无到有得到了长足发展 目前 经过公安部审核颁发销售许可证的产品已达30余种 这些产品从其形态卜可以分为软件产品和硬件产品 从核心技术层次上可以分为基于应用层协议的技术和基于网络层协议的技术 从面向的目标用户上可以分为面向单个用户的产品和面向公安网络监察部门行政区域管理的产品 软件产品和基于应用层协议的技术实现起来相对容易 但是工作效率低 占用资源多 对网速影响较大 因此 只适合于单机用户采用 硬件产品和基于网络层协议的技术实现起来相对困难 但是工作效率高 占用资源少 对网速影响较小 因此 更适用于各级公安机关网络监察部门对互联网接入单位的网络出口进行管理 信息过滤技术及产品正在向着产品硬件化和基于网络层协议技术方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 茂名职业技术学院《互联网+医疗》2023-2024学年第一学期期末试卷
- 手术室与病房交接流程
- 教育培训机构宣传规范与风险防范
- 2025地暖系统安装合同范本
- 2025年上海市果木种植购买合同范本
- 2025煤炭供应合同
- 2025物业管理有限公司合同协议书
- 2025经济师道路运输行业合同管理与纠纷预防备考资料
- 2025标准实习生劳动合同模板
- 2025翡翠首饰买卖合同
- 临床医学(专科)毕业综合考复习题
- 石家庄市存量房买卖合同
- 思想道德与法治2023版教学设计第六章 学习法治思想 提升法治素养
- 高一离子方程式书写专题训练及答案
- 张元鹏《微观经济学》(中级教程)笔记和课后习题详解
- 如何有效管理90-00后新员工技巧方法-123课件
- 第十三讲 全面贯彻落实总体国家安全观PPT习概论2023优化版教学课件
- 人教版语文能力层级-·-教材-·-中考
- 2022年湖北省高中学业水平考试真题-音乐学科
- 浙江省公安民警心理测验考试题目
- OEE记录表格(设备综合效率)
评论
0/150
提交评论