版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
TRS培训总结交流2023/2/6TRS原理全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。TRSServer是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。2023/2/6体系结构
数据库服务器管理员工具网关或适配器开发包内容发布应用服务器TRS软件平台介绍一、TRSServer全文数据库系统二、TRS全文检索网关(DB2)三、TRS全文检索网关(Oracle)四、TRS全文检索网关(MSSQL)五、TRS企业搜索应用适配器-File六、TRS全文数据库API2023/2/6----8----8----3----4----4----JAVA包一、TRSServer全文数据库系统TRS全文数据库服务器的核心技术为全文检索全文数据库=全文检索+关系数据库的基本关系特征+Native-XML数据库特性;核心功能:对结构化和非结构化信息的统一存储管理;基于元数据和全文的联合查询。2023/2/6管理员工具的作用TRS管理员是TRS信息发布检索系统的客户端管理工具,主要用于对各种TRS对象进行管理、设计和维护等,并具备完整的检索、浏览和维护功能。
启动与退出[前提条件]
:TRS服务器处于启动状态双击桌面上“TRS管理员工具”图标输入:
TRS服务器地址 端口号 用户帐号名 口令字第一次进入用系统默认管理员帐号名(system)和口令字(manager)登录可退出登录并用其他用户的身份重新登陆
用户组:系统安装时,将自动创建两个用户组/用户:administrator/system/和guest/pub。用户:数据库----相当于关系型数据库的一张表视图(视图字段):一个或几个结构完全相同的数据库的集合,这样可以提高查询速度.视图包含的数据库均以AS$开头;视图包含的数据库有顺序,对视图进行装库,相当于对最后一个数据库装库;当最后一个数据库的记录数超过设定值,视图会自动创建一个新的库。词典:数据库所用词典,缺省为系统配置中的缺省分词及停用词典名。文件格式TRS基本概念:对象数据库
数据库是TRS系统中的主要数据对象,它物理地存储了用户加载到系统中的所有数据资料。每个TRS系统可管理多达数十亿个数据库。数据库实际上是一个数据表,表的每一行是一个数据记录,每一列则是一个数据字段,行列的交叉点即为字段值。
数据库字段(1)TRS数据库有六种类型的字段:
日期型(DATE)
;数值型(NUMBER);字符串型(CHAR)短语型(PHRASE);全文型(DOCUMENT);二进制型(BIT)
我们可以对CHAR,DATE,NUMBER进行字段级检索,对PHRASE和DOCUMENT进行全文检索,但对BIT字段不进行检索,系统规定BIT字段始终不建索引。所有的查询操作都是在一定的字段上进行的。每个数据库可定义1到1023个字段。
◎短语型字段(PHRASE)
可以用来存储任何形式、任意长度的文本数据,最适合作为“标题”这样的字段。短语型字段与字符串型字段的最大差别在于短语型字段支持自动分词,而字符串型字段不支持自动分词,其字段值整体是一个索引键值。主要特点:没有长度限制;没有缺省值;没有取值范围;不允许多值;加载时不进行字段值的唯一性检查;加载时允许空值;允许建立索引;支持自动分词,倒排索引属性固定(只有位置);字段值必须是文本数据;数据集中存储。
数据库字段(3)◎全文型字段(DOCMENT)
既可以用来存储任何形式、任意长度的文本数据,也可以用来存储其它格式类型的多媒体数据。全文型字段区别于短语型字段的关键所在有三点:
1、全文型字段的数据有多种存储方式。系统通常是集中存储短语型字段字段的数据,而分类存储全文型字段的数据,这样有助于提高大规模数据库的检索结果的概览(不包括全文型字段和二进制型字段)速度。
2、全文型字段的字段值可以附加一个源格式数据。
3、全文型字段的倒排索引属性可以任意指定。
综合起来,这类字段的主要特点是:没有长度限制;没有缺省值;
没有取值范围;不允许多值,但允许附加一个源格式数据;加载时不进行字段值的唯一性检查;加载时允许空值;允许建立索引;支持自动分词,倒排索引属性可任意定义;字段值可以是多媒体数据;数据有多种存储方式。数据库字段(4)◎二进制型字段可以用来存储任何格式类型的多媒体数据,主要特点是:
没有长度限制没有缺省值没有取值范围允许多值加载时不进行字段值的唯一性检查加载时允许空值不建立索引字段值可以是任何多媒体数据数据有多种存储方式数据库字段(5)TRS标准装库文件格式数据记录文件实际上是由一个或多个记录数据组成的TRS置标文本文件。每个记录都以标记“<REC>”开始,如下(其中n<=1023)<REC><字段名1>=字段值1……<字段名2>=字段值2……<字段名n>=字段值n……<REC><字段名1>=字段值1……<字段名2>=字段值2……<字段名n>=字段值n……可以在写字板中或者trs管理员工具中直接编辑。创建数据文件多媒体格式文件的加载多媒体数据可加载到Document字段和Bit字段格式如:
<正文>=@c:\temp\test.doc^word<正文>=@c:\temp\test.xml^word<图象>=@c:\temp\test.jpg^jpeg注意路径设置:绝对路径需要加@,相对路径需要用磁盘共享或者FTP来实现。【注】
对文本格式和HTML(XML)格式的数据入库后可以直接进行检索。其他格式象word、pdf类型的数据,需要使用后台的OEM插件。(OEM配置见手册)
主要功能:实现关系型数据库向TRS全文检索数据库进行数据迁移的工具。2023/2/6二、TRS全文检索网关TRSGateWay使用例子 2、打开客户端程序TrsAgentClient.EXE,选择本地服务端口或远程服务端。TRSGateWay使用例子3、创建“RDBMS=>TRS”任务所谓“RDBMS=>TRS”任务就是将保存在RDBMS(ORACLE,SYBASE,DB2,SQLSERVER,MySQL,KBE)数据库中的数据向TRS数据库进行迁移的任务。创建“RDBMS=>TRS”任务可以单击“任务”菜单的“新建”->“RDBMS=>TRS”菜单项,或单击工具条上的“创建任务”的“RDBMS=>TRS”项,又或先选中RDBMS图标,鼠标右键选择新建。TRSGateWay使用例子创建“RDBMS=>TRS”任务共有五大步组成:第一步:登录RDBMS数据库
创建“RDBMS=>TRS”任务的第一步是登录RDBMS数据库。登录RDBMS数据库需要填写的参数包括:服务器地址/服务名/数据库名:指安装RDBMS的服务器名,如果RDBMS是ORACLE的话,请填写本机CLIENT端设置的有效数据库名。用户名:指登录RDBMS服务器的用户名。密码:指登录RDBMS服务器的密码。客户端字符集:指RDBMS客户端设置的字符集,需要正确选择。
客户端字符集的选择会影响高级设置中原数据库和目标数据库的字符设置。如果在登录过程中出现异常,请在下边的状态框中查看出错的原因。TRSGateWay使用例子
第二步:指定数据来源于RDBMS数据库表或视图
创建“RDBMS=>TRS”任务的第二步是指定数据来源。源为RDBMS数据库时,数据来源可以是RDBMS的一个表或一个视图。选择源数据库
此选项只对SQLServer、Sybase、MySQL有意义,对其他数据库将自动屏蔽。源为表
需要选择表名。表名是由两部分组成,第一部分是表空间,第二部分是表的名字。对于Sybase、MySQL而言,表名没有第一部分。源为视图
需要选择源视图,以及指定视图所对应的主表。对于Sybase、MySQL而言,表名没有第一部分。主表的含义是如果针对视图中的记录选择多值合并则根据主表中的主键来合并视图中的记录。“选择条件”栏是指用户可增加适当的约束条件,用于检索或过滤一定条件的记录,在任务执行时使用。内容为where子句部分,但不需加上“where”字符,如只迁移公司名称(对应字段名COMPANY)为TRS的数据记录,建立任务时填COMPANY=’TRS’即可。需要注意的是选择条件中的SQL语句正确性要由用户来保证。TRSGateWay使用例子第三步:指定RDBMS表或视图的主键,并可进行字段扩展属性设置。创建“RDBMS=>TRS”任务的第三步是指定RDBMS表或视图的主键,该页面在所有情况下均出现。数据源为RDBMS表
如果指定的数据源来自RDBMS表时,系统将自动检测该表在创建时是否设置了主键,如果设置了主键,则在主键下拉框中缺省显示主键。在系统提示的指定主键列表中列出了指定的源数据库表中所有可能成为主键的字段。可能成为主键的字段是指字段类型为NUMBER,CHAR,DATE,VARCHAR2的字段。数据源为RDBMS视图
在系统提示的指定主键列表中列出了指定的源数据库视图中所有可能成为主键的字段。可能成为主键的字段是指字段类型为NUMBER,CHAR,DATE,VARCHAR2的字段。同时也要选择与此对应的主表的主键,因为有些视图可能会把主表的字段名重新命名,所以这里要有一个对应关系存在。
需要注意的是:上一步操作,如果选择操作对象为视图时,必须为视图指定源表,也就是视图的主表,当建立增量更新任务时,记录任务更新的TRIGGER就创建在主表的主键上。在指定视图主键时,视图的主键应与视图对应的表列名相对应,否则会出现问题。另外如果要做全部更新的多线程任务则必须保证主键为NUMBER类型,任务的分段处理是以主键是数值为基础的。TRSGateWay使用例子第四步:设置目标数据库创建“RDBMS=>TRS”任务的第四步是“设置目标数据库”。点选手工配置:1、填写TRSSERVER相关链接信息。2、选择创建库或者使用已存在的库。TRSGateWay使用例子第五步:设定同步方式,增量更新或者是全部更新。TRSGateWay实现说明1、实时更新监控是基于关系数据库的触发器的。2、如果带二位关系的数据,请先将需要检索的数据制作成一张视图。使用GATEWAY工具来同步这张视图。3、建立关系型数据库视图到TRS的增量更新任务,如果视图是多表联立,非主表字段发生变化,网关无法进行同步。用户可根据项目特点,适当修改触发器得以解决。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版企业试用期间劳动协议模板版B版
- 2024模具制造与销售培训合作合同3篇
- 2022年中考地理一轮复习:中国的疆域
- 2022年食品安全监管员业务水平考核试题D卷 附答案
- 2024年连锁门店员工协议模板版B版
- 2024年花园建设合同模板3篇
- 2024年露天矿山施工与矿石开采业务合作合同版B版
- 劳务派遣的岗位分类协议书
- 加盟模式协议书(2篇)
- 2024未成年人安全教育与社会实践合作合同3篇
- 低压配电电源质量测试记录
- 安徽省水利工程质量检测和建筑材料试验服务收费标准
- 2022课程标准解读及学习心得:大单元教学的实践与思考
- OA协同办公系统运行管理规定
- 公安警察工作汇报PPT模板课件
- 直肠癌个案护理范文结肠癌个案护理.doc
- 某小区建筑节能保温工程监理实施细则
- 污水处理中常用的专业术语
- 石英砂过滤器说明书
- 外市电引入工程实施管理要求(重要)
- 公务员录用体检表模板
评论
0/150
提交评论