版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、传播优秀Word版文档 ,希望对您有帮助,可双击去除! I. WordSmith Tools 简介: WordSmith Tools 是一个在Window下运行的用来观测文字在文本中的表现的功能强大的综合软件包。它共包含 Concord (语境共现检索工具)、WordList (词频列表检索工具)、KeyWords(关键词检索工具)、Splitter(文本分割工具)、Text Converter (文本替换工具)、Viewer(文本浏览工具)等六个程序,其中前面三个程序是主要的文本检索工具,后面三个程序属于辅助性工具。这六个程序的各项设置由一个叫WordSmith Tools Controll
2、er(文字匠工具控制器)的程序来控制。II各个工具的操作和主要功能介绍:1Concord1)基本操作过程:u 在WordSmith Tools Controller窗口中选择Tools选项。当该选项打开,你就会看到Concord。单击它,Concord的窗口将打开。u 按下按钮,将出现一个对话框,选择将进行语境共现检索的文本文件。u 确定一个检索词或短语。u 如果要改变设置,按Horizons etc按钮,对缺省的设置值进行修改。u 按 Start Concordance 按钮,检索开始。窗口上出现检索进行的状态条。检索结束,结果显示在Concord 的窗口。u 如果要保留语境共现检索的结果,
3、按按钮存盘。 2)主要的功能:u 语境共现(Concordance):l 语境共现(Concordance)的窗口显示:语境共现(Concordance)的窗口包括六个纵列,例如:A. N 列:显示检索项的数目。B. Concordance 列:显示语境共现检索的结果。C. Set 列:在这一列,用户可以使用任何字母对条目进行分类。例如,如果你想对检索词的动词和名词用法进行归类,你可以键入字母V或N。要清除键入的字母,按0(零)。D. Tag 列:显示最接近的标记符号。E. Word No. 列:显示检索词在文本中的位置。例如,上面例子中条目1 的检索词good 是文本的2,265个单词。F.
4、 File 列:显示源文本的文件名。G. % 列:以百分比的形式显示检索词在文本中的位置。l 要想得到有关语境共现检索的结果的更多的信息,按下面的按钮: 按 按钮 ,可增加语境共现检索的结果每行的显示量,按按钮 ,可减少语境共现检索的结果每行的显示量。 按()按钮,可启动文本浏览工具(Viewer),对源文本进行查看。 按按钮,可查看检索词在规定的语境范围内的搭配词的情况。例如,下图是在上例中检索词good在左右各五个词的语境范围内的搭配词的情况。从图中可以知道,搭配词very共出现29次,其中在good的左边26次,右边3次,而在左边的26次中有23次是作为左边的第一个单词出现。 按()按钮
5、,可打开检索词分布图窗口。检索词分布图窗口显示的内容如下:File源文本文件名Words源文本文件中单词的数目Hits找到的检索词的数目per 1,000每千字检索词的数目Plot检索词分布图显示检索词在文本中出现的位置 按按钮,Concord将检索语境共现检索的结果中的句子,找出重复出现的字串(word clusters)。字串的大小的推荐值一般为24个字,最低出现率为3个。例如: 按()按钮,打开用词类型(Patterns)窗口,显示临近检索词的单词的统计资料。这些单词按出现频率的高低从高到低排列。例如:u 取消检索词 按空格键或选择窗口View选项中的Blanked out, 语境共现检
6、索的结果中的检索词将被一行星号代替。要恢复检索词,重复一次前面的操作。u 对语境共现检索的结果重新排序 语境共现检索进行时,检索的结果是以语境在文本中的出现顺序排列的。当语境共现检索一完成,它就会以当时的缺省设置进行重新排序。如果不想重新排序,将缺省值设定在File, File 位置。语境共现检索的结果重新排序有以下几种方式:A. 根据检索词的左或右的某个位置的单词进行排序。B. 根据检索词本身进行排序。C. 如果有语境词,可根据语境词进行排序。D. 根据最近的标码符号进行排序。E. 根据与最近的标码符号的距离进行排序。F. 根据用户自己的分类进行排序。G. 根据在文本中的出现顺序排序。 语境
7、共现检索结果的重新排序,可以根据三重标准同时进行。这三重标准分别在Main Sort, then by, finally by 三个对话框中设定。另外,重新排序时,可以设置区分或不区分大小写,按升序还是降序排列,既可以将所有的检索项重新排序,也可以设定将一定范围内的检索项重新排序。u 保存和打印语境共现检索结果 可以将语境共现检索的结果保存为文本文件或是可以在Concord再打开的文件。按下F3 或选择File 的Print选项,将打印语境共现检索的结果。3)参数设置:u 检索词(search word):A. 检索词可以是一个单词,一个短语或是一个包含许多检索词的文本文件。B. 按照缺省设置
8、,Concord进行的是不区分大小写的整词检索。格式如下:检索词结果bookBook or book or BoOkbookbook, books, booking, booked*booktextbook (but not textbooks)bo* inbook in, books in, booking in (but not book into)book * hotelbook a hotel, book the hotel, book my hotelbo* in*book in, books in, booking in, book intobook?book, books, bo
9、ok; book.bookbook, booksbkbook, back, bank, etc.=book=book (but not BOOK or Book)book/paperbackbook or paperback符号意义例子*代表多个任意字符book*?代表单个任意字符(包括标点符号)Engl?代表单个任意字母Frnc=区分大小写=French=Fr*=:表示一个可包含多达500 个检索词的文本文件 (参看帮助中的 file-based search words)c:textfrd.txt/分隔多个检索词。你可以选择多达15个检索词,但字符的总数不能超过80。may/can/wil
10、l如果要使用 *, ? , = , , : or / 作为检索词中的一个字符,要将这些符号放到双引号内,例如:*Why?and/or:u 语境词(context word):A. 为了限制语境共现的检索,可以指定一个语境词在检索词的规定的语境范围内出现或不出现。B. 语境词的输入格式与检索词的相同,只有一个不同的符号 。表示该词在规定的语境范围内不出现。例如:当search word是book 而 context word是 hotel* 时, Concord将只会找到hotel or hotels 出现在其语境范围内的book 。当search word是book 而 context wor
11、d是 paper* 时, Concord将只会找到paper or papers 不出现在其语境范围内的book 。u 语境范围(horizons): 语境范围设置限定在语境共现中检索词的左右两边各可以出现多少个单词。最高值是 左右两边各可出现25个单词。u 检索项的数目(entries wanted): 语境共现中检索项的数目的最大值可达16,368 行。 但用户可以在 Controller 的Adjust Settings | Concord选项中对检索项的数目自行定义,还可以设定Concord 对检索项进行随机抽取。u 搭配词(collocate): 搭配词的最短长度为一个字母,最低出现
12、频率为一次。但是在语境共现中出现一两次的搭配词是不能说明什么问题的。用户可以在 Controller 的Adjust Settings | Concord选项中对搭配词的最短长度和最低出现频率自行定义。2Wordlist1) 基本操作过程:u 在WordSmith Tools Controller窗口中选择Tools选项。当该选项打开,你就会看到WordList。单击它,WordList的窗口将打开。u 按下按钮,将出现一个对话框,选择一个或多个文本文件。u 按 Make a word list now 按钮,检索开始。窗口上出现检索进行的状态条。检索结束,WordList出现三个窗口显示检索
13、结果。这三个窗口分别显示以字母为序的词频列表,以频率为序的词频列表以及综合统计数据。u 如果要保留词频列表的结果,按按钮存盘。 2) 主要的功能:u 创建词频列表(word lists):l 词频列表(word lists)的窗口显示: 以字母为序的词频列表的窗口(部分)显示如下: 以频率为序的词频列表的窗口(部分)显示如下: 综合统计数据的窗口(部分)显示如下: u 创建单词索引列表(index lists): 单词索引列表的作用是记录所有单词在文本中的位置,以便了解每个词在文本的那一部分出现。另一作用是加快对列表中单词的检索处理,例如,如果选择列表中一个或多个单词,按下按钮,就会得到快速的
14、语境共现检索的结果。另外,在单词索引列表中,还可以计算单词与那些词搭配以及与搭配词的相关值( “Mutual Information” scores)l 建立单词索引列表 打开 Controller, 选择Adjust Settings | Indexing 选项,进行以下的设置:A. 确定单词索引列表的路径和文件名。B. 激活Actitated对话框。C. 激活File order too对话框(非必选)。D. 选择出现多少次的高频词要被删除。E. 按OK按钮。 打开WordList, 选择菜单Index的New Index 选项, 指定要进行操作的文本文件,再选择Index的New Ind
15、ex 选项。检索结束,将在指定的路径生成三个扩展名分别是*.wdx, *.xfo, 和*.xal的文件。l 浏览建立的单词索引列表: 打开WordList, 选择菜单Index的 Alphabetical List 选项或File Order List 选项。选定要打开的单词索引列表文件,就可以浏览建立的单词索引列表。例如: l 计算相关值(mutual information):A. 要计算相关值,单词索引列表必须是在激活了 “File Order too” 复选框的情况下建立的。B. 选择菜单Index的 Alphabetical List 选项,打开建立的单词索引列表。C. 按按钮,选择
16、要计算相关值的词条,然后按按钮。如果没有选择任何词条,按按钮将计算单词索引列表的所有词条的相关值。例如,在上图中,词条answer在文本的最常见的搭词是know,它们的相关值4.48。u 词频列表的批处理 用户可以一次选择多个文本进行词频列表的创建。例如,选择10个文本同时进行词频列表,既可以得出一个基于10个文本的大的词频列表,也可以得出十个分别基于10个文本的的词频列表。u 字串的词频列表: 词频列表不必一定以单词为单位,也可以以2-8个单词的字串为单位创建词频列表。选择WordList 主菜单的 Settings | Min. & Max. Frequencies 选项,激活复选框,选择
17、字串的大小,就可以进行字串的词频列表。u 对词频列表的编辑:l 合并词条到同一词类(Lemmatisation): 例如,你可以将属于不同类型(type)的词条want; wants; wanting; wanted 合并到同一词类(lemma) want中。 手动合并:A. 使用 F5 选定要合并的词条, 第一个被选定的词条将成为词类(lemma)的名称(head)。B. 使用 F4 可将所有选定的词条合并。 基于文件的合并: 建立一个将属于同一词类的不同类型(type)的词分组归类的文本文件(例如,be-was, is ,were, am, are go-goes, going, went
18、, gone)。按按钮,WordList将根据文本文件的分类为标准对当前词频列表的所有词条进行词类(lemma)合并。l 词类(lemma)合并结束后,按按钮,将显示重新计算的综合数据。u 词频列表的排序:l 按按纽或F6,可对词频列表重新排序。l 选择正确的语言:许多语言有自己特殊的字母排列顺序,所以在排序或重新排序之前,应检查是否在语言选项选择了正确的语言。另外,在缺省值中,某些语言中的带重读符号的字母与不带重读符号的同一字母是同等对待的。l 按单词结尾排序:选择反向排序选项(Reverse Sort), 可以按单词的结尾的字母顺序排序。这样,就能将以某种后缀结尾的单词,例如,-ing 形
19、式结尾的单词列在一起。u 比较两个词频列表:选择WordList中 Comparison菜单下的 Compare 2 Wordlists 选项,选中两个要进行对比的词频列表,就可以对两个词频列表进行比较。这一功能可以帮助进行文体方面的比较。例如,比较一篇文章的不同译本中对某个词的不同翻译。u 简单一致性分析:Consistency Analysis (simple)这一功能可以对超过五十个词频列表一次性进行比较分析,然后生成一个基于所有文本的词频列表。这一功能可以帮助找出哪些词是在大量的某一特定类型的文本中一贯出现的。u 详细一致性分析:Consistency Analysis (Detail
20、ed)这一功能与简单一致性分析的功能完全一样,只是提供的分析更为详细,而且进行分析的词频列表不能超过五十个。这一功能可以帮助进行文体方面的比较。3KeyWords1)主要功能:u KeyWords 主要作用是确定某个文本的关键词是什么以及它们在文本中的位置。要实现着这一目的,必须先用WordList 工具建立两个单词列表。这两个单词列表中,一个是根据要考察的文本建立的,而另一个作为参照的单词列表,必须是根据较大型的由同类文本组成的语料库建立的。大的单词列表将为比较提供背景数据。u 文本中的关键词(key words),是指在两个单词列表的比较中得出的那些在所考察文本中出现频率突出的词。得出的关
21、键词以它们在文本中的出现频率的突出程度由高到低排列。u KeyWords 的潜在用途包括:语言教学,文体研究,文本内容分析,文本归档等。2)KeyWords 的参数设置在Controller中的Adjust Settings/KeyWords 选项下,可以对以下的参数进行设置:a 最大的P值。b 关键词列表的最大数目。(缺省值是500)c 关键词在所考察文本中的最低出现频率。(缺省值是3次)3) 基本操作过程:u 在WordSmith Tools Controller窗口中选择Tools选项。当该选项打开,你就会看到KeyWords。单击它,KeyWords的窗口将打开。u 按下按钮,将出现一
22、个对话框,在对话框选择一个要进行研究的单词列表和一个作为参照的单词列表。 u 按 OK 按钮,检索开始。窗口上出现检索进行的状态条。检索结束,KeyWords出现一个窗口显示关键词列表。 u 如果要保留关键词列表的结果,按 按钮存盘。u 关键词列表的显示窗口包括以下内容(见下图):a 每个关键词。b 关键词在所考察的文本中的出现频率。c 要考察的文本的文件名及百分比。d 关键词在参照文本中的出现频率。e 参照文本的文件名及百分比。f 关键词的关键值。g p 值。4)对关键词列表的结果的编辑:u 按窗口中的按纽,将会显示关键词在文本中的分布图。u 每按一次按纽,关键词列表的结果将会按照下面的顺序循环排序:以关键值为序,以字母为序,以在考察文本中的关键词的频率为序,以在参照文本中的关键词的频率为序。III三个辅助工具主要功能简绍:4Splitter(文本分割工具)Splitter的用途是为了文本分析的目的将大的文件分割成小的文本。它通过在大的文本中插入某个符号,例如 , Splitter将自动识别这些符号,将大的文本分割成若干个小文本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桥梁隧道工程-试验检测师《桥梁隧道工程》黑钻押题1
- 03蠕形住肠线虫58课件讲解
- 2025年大型机具运输协议
- 2025年公寓购买协议
- 2025年加工承揽合同的要素
- 2025年度铝合金门窗出口贸易合同范本8篇
- 2025年度私人宅基地买卖转让及农村环境保护服务协议
- 二零二五年度2025年度消防报警系统改造清包工服务协议
- 2025年度新型矿粉资源开发与购销合作合同模版
- 二零二五年度土地承包种植与农业物联网合作合同
- 春节联欢晚会节目单课件模板
- 中国高血压防治指南(2024年修订版)
- 糖尿病眼病患者血糖管理
- 抖音音乐推广代运营合同样本
- 2024年电信综合部办公室主任年度述职报告(四篇合集)
- 微机原理与接口技术考试试题及答案(综合-必看)
- 湿疮的中医护理常规课件
- 初中音乐听课笔记20篇
- NUDD新独难异 失效模式预防检查表
- 内蒙古汇能煤电集团有限公司长滩露天煤矿矿山地质环境保护与土地复垦方案
- 排水干管通球试验记录表
评论
0/150
提交评论