版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Oracle的全文检索技术Oracle 一直致力于全文检索技术的研究,当Oracle9iRlease2发布之时,Oracle数据库的全文检索技术已经非常完美,OracleText使Oracle9i具备了强大的文本检索能力和智能化的文本管理能力。OracleText是Oracle9i采用的新名称,在Oracle8/8i中它被称作OracleinterMediaText。使用OracleText ,可以方便而有效地利用标准的SQL工具来构建基于文本的新的开发工具或对现有应用程序进行扩展。应用程序开发人员可以在任何使用文本的Oracle数据库应用程序中充分利用OracleText搜索,应用范围可以是
2、现有应用程序中可搜索的注释字段,也可是实现涉及多种文档格式和复杂搜索标准的大型文档管理系统。OracleText支持Oracle数据库所支持的大多数语言的基本全文搜索功能。虽然大多数大型数据库都支持全文检索,但Oracle在这方面无疑是最出色的。Oracle能搜索多种格式的文档,如Word,Execl,PowerPoi nt,Html,PDF等等。但在使用中也发现有遗憾的地方,OracleText无论使用何种过滤器(INSO_FILTER或NULL_FILTER )及何种 词法分析器(BASIC_LEXER,CHINESE_VGRAM_LEXER 还是 CHINESE_LEXER )都不能检
3、索出中文内容的文本文档(TXT,RTF)。1OracleText 的体系架构下图是OracleText的体系架构:图1OracleText 的体系架构OracleText 索引文档时所使用的主要逻辑步骤如下:1)数据存储逻辑搜索表的所有行,并读取列中的数据。通常,这只是列数据,但有些数据存储使用列数据作为文档数据的指针。例如,URL_DATASTORE将列数据作为URL使用如果对本地文件进行检索, 只要指定 DATASTORE 中 FILE_DATASTORE 参数为文件的路径即可。2)过滤器提取文档数据并将其转换为文本表示方式。存储二进制文档(如 Word 或Acrobat 文件)时需要这样
4、做。过滤器的输出不必是纯文本格式-它可以是 XML 或 HTML 之类的文本格式。3)分段器提取过滤器的输出信息,并将其转换为纯文本。包括XML 和 HTML 在内的不同文本格式有不同的分段器。 转换为纯文本涉及检测重要文档段标记、移去不可见的信息和文本重新格式化4)词法分析器提取分段器中的纯文本,并将其拆分为不连续的标记。既存在空白字符分隔语言使用的词法分析器,也存在分段复杂的亚洲语言使用的专门词法分析器(5)索引引擎提取词法分析器中的所有标记、文档段在分段器中的偏移量以及被称为非索引字的低信息含量字列表,并构建反向索引。倒排索引存储标记和含有这些标记的文档。归纳起来如下:(1)建表并装载文
5、本(包含带有需要检索的文本字段)(2)配置索引(3)建立索引(4)发出查询(5)索引维护:同步与优化(将在后面介绍)文本装载要实现文本的全文检索首先必须把正确的文本加载到数据库表中,默认的建立索引 行为要求将文档装载在文本列中,尽管可以用其它方式(包括文件系统和 URL 形式 )存储文档 (在 数据存储 选项进行设置 )。默认情况下,系统应该将文档装载在文本列中。 文本列可以是 VARCHAR2 、CLOB 、BLOB、CHAR 或 BFILE 。注意, 只有在将 Oracle7 系统移植到 Oracle8 的情况下才支持用 LONG 和 LONGRAW 这两个相反的列类型存 储文本。不能为列
6、类型 NCLOB 、DATE 和 NUMBER 建立索引。关于文档格式,因为系统能为包括HTML 、PDF 、MicrosoftWord和纯文本在内的大多数文档格式建立索引,可以将其中的任何文档类型装载到文本列中(在 过滤器 选项中设置)。有关所支持的文档格式的详细信息,可以参阅 OracleTextUsersGuideandReference 中的附录 SupportedFilterFormats 。装载方法主要有以下几种:(1 ) SQLINSERT 语句(2 ) ctxload 可执行文件(3 ) SQL*Loader(4 )从 BFILE 中装载 LOB 的 DBMS_LOB.LOAD
7、FROMFILE()PL/SQL 过程(5 ) OracleCallInterface建立索引文本装入文本列后, 就可以创建 OracleText 索引。 文档以许多不同方案、 格式和语 言存储。因此,每个 OracleText 索引有许多需要设置的选项,以针对特定情况配置 索引。创建索引时, OracleText 可使用若干个默认值,但在大多数情况下要求用户通 过指定首选项来配置索引。每个索引的许多选项组成功能组,称为类 ,每个类集中体现配置的某一方面,可以认为这些类就是与文档数据库有关的一些问题。例如:数据存储、过滤器、词法分 析器、相关词表、存储等。每个类具有许多预定义的行为,称之为对象
8、。每个对象是类问题可能具有的答案, 并且大多数对象都包含有属性。通过属性来定制对象,从而使对索引的配置更加多变 以适应于不同的应用。(1 )存储( Storage )类存储类指定构成 OracleText 索引的数据库表和索引的表空间参数和创建参数。 它仅 有一个基本对象: BASIC_STORAGE ,其属性包括: I_Index_Clause 、I_Table_Clause 、 K_Table_Clause 、 N_Table_Clause 、 P_Table_Clause 、 R_Table_Clause 。(2 )数据存储( Datastore )类 数据存储:关于列中存储文本的位置和
9、其他信息。默认情况下,文本直接存储到列中,表中的每行都表示一个单独的完整文档。其他数据存储位置包括存储在单独文件中或以其 URL 标识的 Web 页上。七个基本对象包括: Default_Datastore 、 Detail_Datastore 、Direct_Datastore 、File_Datastore 、Multi_Column_Datastore URL_Datastore 、 User_Datastore ,。(3 )文档段组( SectionGroup )类 文档段组是用于指定一组文档段的对象。必须先定义文档段,然后才能使用索引通过 WITHIN 运算符在文档段内进行查询。 文
10、档段定义为文档段组的一部分。 包含七个 基 本 对 象 : AUTO_SECTION_GROUP 、 BASIC_SECTION_GROUP 、 HTML_SECTION_GROUP 、NEWS_SECTION_GROUP 、NULL_SECTION_GROUPXML_SECTION_GROUP 、 PATH_SECTION_GROUP(4 )相关词表( Wordlist )类 相关词表标识用于索引的词干和模糊匹配查询选项的语言,只有一个基本对象BASIC_WORDLIST ,其属性有: Fuzzy_Match 、Fuzzy_Numresults 、Fuzzy_Score 、StemmerSu
11、bstring_IndexWildcard_MaxtermsPrefix_IndexPrefix_Max_Length 、 Prefix_Min_Length 。(5 )索引集( IndexSet )索引集是一个或多个 Oracle 索引 (不是 OracleText 索引 )的集合,用于创建 CTXCAT 类型的 OracleText 索引,只有一个基本对象 BASIC_INDEX_SET 。6 )词法分析器( Lexer )类词法分析器类标识文本使用的语言,还确定在文本中如何标识标记。默认的词法分 析器是英语或其他西欧语言,用空格、标准标点和非字母数字字符标识标记,同时禁 用大小写。包含
12、8 个基本对象: BASIC_LEXER 、 CHINESE_LEXER CHINESE_VGRAM_LEXER 、 JAPANESE_LEXER 、 JAPANESE_VGRAM_LEXERKOREAN_LEXER 、 KOREAN_MORPH_LEXER 、 MULTI_LEXER 。(7 )过滤器( Filter )类过滤器确定如何过滤文本以建立索引。可以使用过滤器对文字处理器处理的文档、格式化的文档、 纯文本和 HTML 文档建立索引, 包括 5 个基本对象: CHARSET_FILTER 、INSO_FILTERINSO 、NULL_FILTER 、 PROCEDURE_FILTER
13、 、USER_FILTER( 称为非索引字 )。有两个基本对象:)、 MULTI_STOPLIST( 包含多种语言中CONTAINS 运算符发出文本查询。使ABOUT 查询。(8 )非索引字表( Stoplist )类 非索引字表类是用以指定一组不编入索引的单词BASIC_STOPLIST( 一种语言中的所有非索引字 的非索引字的多语言非索引字表)。查询建立了索引,就可以使用 SELECT 语句中的 用 CONTAINS 可以进行两种查询:单词查询和5 1 词查询示例词查询是对输入到 CONTAINS 运算符中单引号间的精确单词或短语的查询。在以 下示例中, 我们将查找文本列中包含 oracl
14、e 一词的所有文档。 每行的分值由使用标签 1 的 SCORE 运算符选定:SELECTSCORE(1)titlefromnewsWHERECONTAINS(text,oracle,1)0; 在查询表达式中,可以使用 AND 和 OR 等文本运算符来获取不同结果。还可以将 结构性谓词添加到 WHERE 子句中。 可以使用 count(*) 、CTX_QUERY.COUNT_HITS 或 CTX_QUERY.EXPLAIN 来计算查询的命中 (匹配 ) 数目。5 2ABOUT 查询示例在所有语言中, ABOUT 查询增加了某查询所返回的相关文档的数目。在英语中, ABOUT 查询可以使用索引的主
15、题词组件,该组件在默认情况下创建。这样,运算符 将根据查询的概念返回文档,而不是仅依据所指定的精确单词或短语。例如,以下查 询将查找文本列中关于主题 politics 的所有文档, 而不是仅包含 politics 一词的文档: SELECTSCORE(1)titlefromnewsWHERECONTAINS(text,about(politics),1)0 ; 索引维护索引建好后,如果表中的数据发生变化,比如增加或修改了记录,怎么办?由于对 表所发生的任何 DML 语句,都不会自动修改索引,因此,必须定时同步 (sync) 和优 化 (optimize) 索引,以正确反映数据的变化。在索引建好
16、后,可以在该用户下查到 Oracle 自动产生了以下几个表: (假设索引名为myindex ):DR$myindex$I , DR$myindex$K , DR$myindex$R , DR$myindex$N其中以 I 表最重要,可以查询一下该表: selecttoken_text,token_countfromDR$myindex$Iwhererownumcreateuserminiidentifiedbymini;SQLalteruserminidefaulttablespaceEXAMPLE;SQLgrantconnect,resourcetomini;SQLgrantctxappto
17、mini;SQLalteruserminidefaultroleall;3. 创建表:用 mini 用户登录。SQLcreatetablemytest(tidnumberprimarykey,fnamevarchar2(100),btextBLOB)4. 录入数据:用 system 用户登录- 创建目录 ( 数据库服务器 )SQLcreateorreplacedirectoryBLOB_FILE_DIRasd:test;SQLgrantreadondirectoryBLOB_FILE_DIRtomini;用 mini 用户登录- 创建过程CREATEORREPLACEPROCEDUREinse
18、rt_file(TIDnumber,FILENAMEVARCHAR2)ISF_LOBBFILE;B_LOBBLOB;BEGININSERTINTOMYTEST(tid,fname,btext)VALUES(TID,FILENAME,EMPTY_BLOB()RETURNbtextINTOB_LOB;F_LOB:=BFILENAME(BLOB_FILE_DIR,FILENAME);DBMS_LOB.FILEOPEN(F_LOB,DBMS_LOB.FILE_READONLY);DBMS_LOB.LOADFROMFILE(B_LOB,F_LOB,DBMS_LOB.GETLENGTH(F_LOB),1,
19、1);DBMS_LOB.FILECLOSE(F_LOB);COMMIT;END;SQLexecinsert_file(1,test.doc);5. 设置索引参考项SQLbeginctx_ddl.create_preference(cnlex, CHINESE_VGRAM_LEXER );ctx_ddl.create_preference(mywordlist,BASIC_WORDLIST);ctx_ddl.set_attribute(mywordlist,PREFIX_INDEX,TRUE);ctx_ddl.set_attribute(mywordlist,PREFIX_MIN_LENGTH,
20、1);ctx_ddl.set_attribute(mywordlist,PREFIX_MAX_LENGTH,5); ctx_ddl.set_attribute(mywordlist,SUBSTRING_INDEX,YES);end;(如果数据库的字符集是 UTF8, 建议使用 CHINESE_LEXER 词法分析器 )- 查看自定义的参考项SQL select *from ctx_user_preferences;6. 创建索引SQLcreateindexidx_mytestonmytest(btext)indextypeisctxsys.contextparameters(DATASTORECTXSYS.DIRECT_DATASTOREFILTERCTXSYS.INSO_FILTERLEXERMINI.CNLEXWORDLISTMINI.MYWORDLIST);(可以使用 ctxcat 索引类型,但好像不支持 BLOB 型)- 查看SQLselec
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度六安住房租赁合同协议书
- 2024年度新能源发电项目投资与建设合同
- 假期《木偶奇遇记》个人读后感
- 2024年北京城市副中心建设项目合同
- 2024年度光伏发电项目特许权协议
- 2024年国际学校校长合同模板
- 2024年工程质量检测服务协议
- 喷水壶课件教学课件
- 2024年债务重组:房产转让与债务清零合同
- 2024乳制品行业牛奶输送泵安装合同
- 托育服务中心项目可行性研究报告
- 国开2024年秋《机电控制工程基础》形考任务3答案
- 中国高血压防治指南(2024年修订版)解读(总)
- GB/T 3953-2024电工圆铜线
- 一+《展示国家工程++了解工匠贡献》(教学课件)-【中职专用】高二语文精讲课堂(高教版2023·职业模块)
- 医疗设备维保服务投标方案
- 中小学教师资格考试(笔试)成绩复核申请表
- 网站内容管理系统(CMS)
- 机场使用手册飞行区场地管理
- 低血糖处理流程
- 铝挤成型工艺介绍
评论
0/150
提交评论