IT运维专家题库与考试系统建设技术方案_第1页
IT运维专家题库与考试系统建设技术方案_第2页
IT运维专家题库与考试系统建设技术方案_第3页
IT运维专家题库与考试系统建设技术方案_第4页
IT运维专家题库与考试系统建设技术方案_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

IT运维专家题库与考试系统建设技术方案

1项目技术方案3

1.1服务总体理解3

1.1.1项目背景介绍3

1.1.2项目服务目标3

1.1.3项目服务原则3

1.2项目建设需求3

1.2.1总体建设内容3

1.2.2功能建设需求5

试题自动获取5

试题解析5

122.3智能试题归档及分类6

1.2.3项目服务需求6

1.3技术实现方案6

1.3.1互联网试题获取方案6

页面解析6

页面剔重下载13

文件下载18

信息归档22

1.3.2试题文档转换方案23

1.3.3试题解析方案25

L3.3.1试题语义解析26

1.3.4智能试题分类方案33

1.3.5试题归档方案34

2项目服务方案38

2.1项目服务期限38

2.2项目服务计划38

2.3服务支撑体系39

2.3.1服务实施支撑39

故障修友服务39

系统巡检服务43

版本管理和软件补丁服务44

辅助故障定位服务45

技术资料服务45

技术支持服务45

2.3.2服务流程支撑46

2.3.2.1月艮务方式46

2.322问题优先级46

2.3.2.3服务响应47

2.324每月的总结48

2.325服务流程49

2.3.3服务团队支撑49

人员备份机制49

2.4质量控制能力5()

2.5项目服务考核51

2.6信息安全保密58

1项目技术方案

1.1服务总体理解

1.1.1项目背景介绍

根据集团公司《运维专家平台智能化提升项目》的建设需求,为提高运维专家平台的臼

动化、智能化的水平和能力,需建设运维专家试题库能力,实现试题采集、试题答案解析、

试题智能分类功能。

1.1.2项目服务目标

木次项目将针对运维专家平台试题库功能进行增强开发,切实提高系统自动化、智能化

水平,具体包括:

1、针对题库依赖人工整理收集和分类,流程繁琐且耗时耗力的现状,试题库系统的建

设预期可以极大提升试题获取的效率,同时自动进行分类整理。

2、针对试题答案匹配率低的问题,通过模型算法实现自动化答案匹配。

3、试题库系统上线后,可以显著提升试题量并有助于题库分类标准化。

4、可为其他类似功能的系统开发建设作技术支撑。

1.1.3项目服务原则

本次项目的解决方案需需符合科学性,研究方案合理有效,具备创新性。

1.2项目建设需求

1.2.1总体建设内容

本系统功能的目标是结合互联网采集,自动答案匹配,智能文本识别能力,打造完整运

维专家题库。本功能主要研究内容包括:

1通过开发自动化采集工具和人工结合的方式才比量获取多个网络平台海量试题数据。

2)通过开发解析模块,将试题与答案进行一匹配,同步提供试题可靠性评估数据,

为后续选题提供依据。

3)通过开发智能试题分类算法,将从各来源获取的试题按照主机、数据库、存储、网

络等运维专业进行分类存诸。

运维专家试题库需包括以下试题类别:

专业大类专业小类

主机及操作系统管理

网络接入及管理

基础设施类

存储及备份

机房动力及环境

虚拟化技术

容器化技术

平台组件类数据库类

中间件类

分布式架构类

业务质量管理

业务连续性管理

业务服务类

私有云运营管理

流程管理类

DcvOps类监控技术类

测试验收类

发布变更类

运维工具及研发类

数据处理类

数据仓库类

智能分析类

训练学习平台类

AI算法类

1.2.2功能建设需求

L2.2.1试题自动获取

试题采集功能采用互联网自动采集方法,自动批量获取试题,并获取试题文件,底容包

括:

1.针对试题列表页面,下载页面,答案页面,进行自动数据采集。

2.支持定期数据采集,例如每月、每季度数据采集更新。

3.部分高质量题目稀缺性高,质量高网站进行人工采集。

1.2.2.2试题解析

针对采集的试题进行解析,将试题与答案进行一一匹配同步提供试题可靠性评估数据,

为后续选题提供依据,包括以下内容:

1.离线文档编码格式预处理,包括文字编码转化及文档格式转换,支持PDF、word,txt

多种格式转换。

2.试题与答案匹配:支持多种文件排版的解析,并将试题与答案进行准确匹配。

3.试题与答案匹配率评估:针对试题答案匹配结果进行数据评估,找出无法匹配答案,

或答案匹配错误的情况。

L2.2.3智能试题归档及分类

通过开发智能试题分类算法,将从各来源获取的试题按照主机、数据库、存储、阿络等

运维专业进行分类存储。

1.提取试题中的特征词,建立试题的知识点与分类字典,用于试题知识点归类及试题分

类。

2.采用分词算法,对试题进行分词并构建试题的词频矩阵

3.采用合适的算法,实现试题与分类字典相似度统计

4.确认试题分类。

1.2.3项目服务需求

,配备专业的技术团队支撑服务,必要时需提供现场服务支撑;

/提供7*24小时服务支撑;

/积极做好试题库的质量校验,保障试题可用性和质量要求。

1.3技术实现方案

1.3.1互联网试题获取方案

针对公开的互联网信息,提供完整高效的信息获取方案,方案包括页面解析、页面剔重

下载、文件下载、归档等。

1.3.1.1页面解析

BeautifulSoup介绍

BeautifulSoup提供一些简单的、python式的用来处理导航、搜索、修改分析树等功能。

特点

•简单:它是一个工具箱,通过解析文档为用户提供需要抓取的数据

•BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编

码。

BeautifulSoup的安装

•安装pip(如果需要):sudoeasy_installpip

•安装BeautifulSoup:sudopipinstallbeautifulsoup4

示例

本示例是抓取某公司的投资列表页面,页面如下图:

16O0JHSW£O丽1&00TO

个人消费贷集合个人经营贷集合个人消费雌合个人消费贷集合

171214-11171214-16171214-161712U-16

63儿2万/6乂72万32%48万,1Z70万19%2.68万/14JOI万30%5£6万/1952万

9.5%1210.5%3610.0%188.5%6

板内吟年化)ifl日明・旧)为正种4年化JiflBIMIiAi密*1年化।取日明限归)叫山利晔降化1◎目阴叫月)

168丽168和[«0加1e00JW

个人消费贷集合车辆周转贷集合个人消费货集合个人消费货集合

171214-16171214-161712147617121476

|”》创>-次还本付息||等。:创|«HH创

0%08万/G88万0%Q8万/4I2I万OHQ8万/0Q2万0%000万/5102万

7.5%37.5%27.5%26.5%1

妁定利则年化)WQMMim妁定内率1年化)iflUWHini的定1卿1年化)墓日m闪)081卿(年化1尊白穗如)

个人消费贷集合个人消费贷集合个人经营贷集合个人消费贷集合

171214*15171214*15171214*15171214*14

[St本金]樽4创1等一砌[IMWBI

完成合0OQ8万&V21255融毋完成.金■世用万百元成金般14.95万

7.5%27.5%310.5%2410.5%36

约定W典年化)项HWW旧)妁定利率1年化)哨评1年化)敏H期即川021卯(年化1"日班》(月)

确定获取数据范围

本示例是获取项目列表,打开Chrome的调试栏,找到对应的位置,如下图:

▼<divclass="containerproject-list">

::before

divclassrow>-$0

::before父容器

▼<divclass="span3*'>

▼<aclass="invest-item"href="/Proiect/ProiectSet?

DroiectSetUniaueId=-108201712141100000.09500。12.0030000004'target=

••_blank">

▼<div>

►<divclass-'invest-item-title">-</div>

►<divclass-'invest-item-subtitle">~</div>

►<divclass-'progressproject-progress">-.</div>

►<pclass="project-info">~</p>

►<divclass="invest-item-features">«.</div>

</div>

</a>

</div>

►<divclass="span3M>..</div>

►<divclass="span3,,>~</div>

►<divclass="span3M>-</div>

►<divclass="span3H>-</div>

►<divclass="span3,,>_</div>

►<divclass="span3”>.v/div>

►<divclass=,'span3,,>~</div>

►<divclass="span3,,>-</div>

►<divclass="span3u>..</div>

►<divclass="span3">~</div>

►<divclass="span3,,>..</div>

::after

</div>

::after

</div>

导包

importsys

importjson

importurllib2asHttpUtils

importurllibasUrlUtils

frombs4importBeautifulSoup

获取页面信息(分页)

defgethtml(page):

'获取指定页码的网页数据’

url='/Project/List

values={

'category':'',

'rate*:'

'range':'',

'page*:page

}

data=UrlUtils.urlencode(values)

#使用DebugLog

httphandler=HttpUtils.HTTPHandler(debuglevel=l)

httpshandler=HttpUtils.HTTPSHandler(debuglevel=l)

opener=HttpUtils.build_opener(httphandler,httpshandler)

HttpUtils.install_opener(opener)

request=HttpUtils.Request(url+'?"+data)

request.get_method=lambda:'GET'

try:

response=HttpUtils.urlopen(request,timeout=10)

exceptHttpUtils.URLError,err:

ifhasattr(err,'code'):

printerr.code

ifhasattr(err,'reason'):

printerr,reason

returnNone

else:

print'======HttprequestOK======*

relur-nresponse,redd(),decode(,uLf-8')

TIPS

•urlopen(url,data,timeout)

ourl:请求的URL

odata:访问URL时要传送的数据

otimeout:超时时间

•HttpUtils.build_opener(httphandler,httpshandler)

O开启日志,将会在调试控制台输出网络请求日志,方便调试

•必要的try-catch,以便可以捕获到网络异常

解析获取的数据

仓11建BeautifulSoup对象

soup=BeautifulSoup(html,'html.parser')

获取待遍历的对象

#items是一个<listiteratorobjectat0xl0a4b9950>对象,不是一个list,但

是可以循环遍历所有子节点。

items=soup.find(attrs={'class':'row')).children

遍历子节点,解析并获取所需参数

projectList=[]

foriteminitems:

ifitem=='\n':continue

#获取需要的数据

title=item.find(attrs={'class':'title')).string.strip()

projectld=item.find(attrs={'class':'subtitle'}).string.strip()

projectType=item.find(attrs={'class':'invest-item-

subtitle'}).span.string

percent=item.find(attrs=<*class':'percent,})

state='Open'

ifpercentisNone:#融资已完成

percent='100%'

state='Finished'

totalAmount=item.find(attrs={'class':'project­

info'}).span.string.strip()

investedAmount=totalAmount

else:

percent=percent.string.strip()

state='Open'

decimalList=item.find(attrs={'class':'decimal­

wrap'}).find_all(attrs={'class':'decimal'))

totalAmount=decimalList[0].string

investedAmount=decimalList[l].string

investState=item.find(attrs={'class':'invest-item-type'})

ifinvestState!-None:

state=investState.string

profitspan=item.find(attrs={'class':'invest-item-

rate')).find(attrs={'class':'invest-item-profit'))

profitl=profitspan.next.strip()

profit2=profitspan.em.string.strip()

profit=profitl+profit2

term=item.find(attrs={'class':'invest-item-

maturity')).find(attrs={'class':'invest-item-profit'}).string.strip()

project={

'title':title,

'projectld':projectld,

'type':projectType,

'percent':percent,

'totalAmount':totalAmount,

,investedAmount':investedAmount,

'profit':profit,

'term':term,

'state':state

)

projectList.append(project)

输出解析结果,如下:

B[

"term'-r'lS",

"investedAmount0:M18.30",

,,M,

totalAmount:"7.87',

“title“:”个人消费贷集合“,

"profit":M10.9V,

HaiM

projectld:171215-14"r

"percent":u43V,

“type”:”等fil本息”,

“state":“Open”

},

®Object{...

©Object{…},

®Object{..

00bject{..

®Object{..

®Object{..

©Object{…},

00bject{..

®Object{..

00bject{..

©Object{…}

TIPS

•解析html代码,主要是运用了BeautifulSoup的几大对象,Tag、

NavigableStringxBeautifulSoup.Comment

1.3.1.2页面剔重下彝

自动收集和筛选信息的网络爬虫让有效信息的流动性增强,让我们更加高效地获取信

息。随着越来越多的信息显现于网络,网络爬虫也越来越有用。

不同的网站间转载内容的情况很常见。即使在同一个网站,有时候不同的URL地址可

能对应同一个页面,或者存在同样的内容以多种方式显示出来,所以,网页需要按内容做

文档排重。

例如,一个企业商品搜索。搜商品名,有一家公司发的商品名字都一样,结果这家公

司发的商品都显示在前面,但是要求一家企业只显示一条相似的商品在前面,可以把近似

重复的文档权重降低,只;呆留一个文档不降低权重。

判断文档的内容重复有很多种方法,语义指纹的方法比较高效。语义指纹是直接提取

一个文档的二进制数组表示的语义,通过比较相等来判断网页是否重复。语义指纹是一个

很大的数组,全部存放在内存会导致内存溢出,普通的数据库效率太低,所以采用内存数

据库BerkeleyDB。可以通过BerkeleyDB判断该语义指纹是否已经存在。另外一种方法是

通过布隆过滤器来判断语义指纹是否重复。

提取网页语义指纹的方法是:从净化后的网页中,选取最有代表性的一组关键词,并

使用该关键词组生成一个音义指纹。通过比较两个网页的语义指纹是否相同来判断两个网

页是否相似。

网络上一度出现过很多篇关于"罗玉凤征婚”的新闻报道,具中的两篇新闻内容对比

如下表。

两篇新闻内容对比

文档ID文档1文档2

标也北大清华硕上北大的牛征姑女”1米4G科女征嫣求1米8减上力应征杵如云

内容24岁的罗KJ4,在匕海的头发放门300份征嫣传24岁的?'在上沏街头发放门300份M研传单

传小htr近乎带财的条件,要求方方北人或清华项传小1日了近7舟耨的条件,耍求朱方北大或清华北

I..身上1米76至1米为之东部沿海户ISrfuVK1.身岛1米76至1米83之间.东部沿海户能向罗IJ4

风本人.N(〃米46.中文大4学历.币:庆娱江人木人.小育1米46.中文大4学历.近庆/江人it'U

此W外M络密光质.引起很彩人的兴趣.“传大都外网络球龙方•引起「很匕人的兴趣."怔大都“打电

常打电话、发加信求证.或齐星W征。”罗K凤说,话、发力自求证•或%是应征,”罗K风说,她党日满

她党为涵意的却客室无儿.“到11前为止只仃2个.篮的却寥寥无几.“到H皆为止只何2个.那还不足计

:还不足外刑满怠”别满《丁

对于这两篇内容相同的新闻,有可能提取出同样的关键词:"罗玉凤""征婚""北

大""清华""硕士",这就表示这两篇文档的语义指纹也相同。

为了提高语义指纹的准确性,需要考虑到同义词,例如,"北京华联"和"华联商

厦”可以看成相同意义的词。最简单的判断方法是做同义词替换。把"开业之初,比这还

要多的质疑的声音环绕在北京华联决策者的周围"替换为"开业之初,比这还要多的质疑

的声音环绕在华联商厦决策者的周围”。

设计同义词词典的格式是:每行一个义项,前面是基本词,后面是一个或多个被替换

的同义词,请看下面的例子。

华联商厦北京华联华联超市

这样可以把“北京华联"或"华联超市"替换成"华联商厦"。对指定文本,要从前

往后查找同义词词库中每个要替换的词,然后实施替换。同义词替换的实现代码分为两

步。首先是查找Trie树结构的词典过程。

publicvoidcheckPrefix(Stringsentence,intoffset,PrefixRetret){

if(sentence==null||root==null||"".equals(sentence)){

ret.value=Prefix.MisMatch;

ret.data=null;

ret.next=offset;

return;

)

ret.value=Preflx.MisMatcb"/初始返回值设为没匹配上任何要替换的词

TSTNodecurrentNode=root;

intcharindex=offset;

while(true){

if(currentNode==null){

return;

)

intcharComp=sentence.charAt(charIndex)-currentNode.splitchar;

if(charComp==0){

charlndex++;

if(currentNode.data!=null){

ret.data=currentNode.data;〃彳层选最长匹酉己词

ret.value=Prefix.Match;

ret.next=charindex;

}

if(charindex==sentence.length()){

return;〃已经匹配完

}

currentNode=currentNode.eqKID;

}elseif(charComp<0){

currentNode=currentNode.loKID;

}else{

currentNode=currentNode.hiKID;

)

}

}

然后是同义词替换过程。

/腐入待替换的文本,返回替换后的文本

publicstaticStringreplace(Stringcontent)throwsException(

intlen=content.length();

StringBuilderret=newStringBuilder(len);

SynonymDic.PrefixRetmatchRet=newSynonymDic.PrefixRet(nullnull);

for(inti=0;i<len;){

〃检查是否存在从当前位置开始的同义词

SynonymDic.checkPrefix(content,i,matchRet);

if(matchRet.value==SynonymDic.Prefix.Match)//如果匹配上,则替换同义词

{

ret.append(matchRet.data)"/把替换词输出到结果

i=matchRet.ngiX,,/加一个匹配位置

)

else〃如果没有匹配上,则从下一个字符开始匹配

{

ret.append(content.charAt(i));

++i;

)

}returnret.toString();

)

语义指纹生成算法如下所示。

•第1步:将每个网页分词表示成基于词的特征项,使用TF*IDF作为每个特征项的权

值。地名、专有名词等,名词性的词汇往往有更高的语义权重。

•第2步:将特征项按照词权值排序。

•第3步:选取前n个特征项,然后重新按照字符排序。如果不排序,关键词就找不到

对应关系。

•第4步:调用MD5算法,将每个特征项串转化为一个128位的串,作为该网页的指

纹。

调用fseg.result.FingerPrint中的方法。

Stringfingerprint=getFingerPrint(""J昨日,省城渊明北路一名17岁的少年在6

楼晾毛巾时失足坠楼,摔在楼下的一辆面包车上。面包车受冲击变形时吸收了巨大的反作

用力能量,从而“救"了少年一命。目前,伤者尚无生命危险。据T立目击者介绍,事故

发生在下午2时40分许,当时这名在某美发店工作的少年正站在阳台上晾毛巾,因雨天阳

台湿滑而不小心摔下。记者来到抢救伤者的医院了解到,这名少年名叫李嘉诚,今年17

岁,系丰城市人。李嘉诚受伤后,他表姐已赶到医院陪护。据医生介绍,伤者主要伤在头

部,具体伤情还有待进一步检查。");

StringmdSValue=showBytes(getMDS(fingerprint));

System.out.println("FingerPrint:"+fingerPrint+"md5:"+md5Value);

MD5可以将字符串转化成几乎无冲突的hash值,但是MD5速度比较慢,

MurmurHash或者JenkinsHash也可以生成冲突很少的hash值,在Lucene的企'11,搜索软

件Solrl.4版本中提供了JenkinsHash实现的语义指纹,叫作Lookup3Signature。调月

MurmurHash生成64位的Hash值的代砾

1.3.1.3文件下载

就以百度图片为例,当你如下图在百度图片里搜索一个主题时,会为你跳出一大堆相关的图

片。

还有如果你想学英语,找到一个网站有很多mp3的听力资源,这些可能都是你想获取的内容。

现在是一个互联网的时代,只要你去找,基本上能找到你想要的任何资源。

怎样识别网页中的资源:

以上面搜索到的百度图片为例。找到了这么多的内容,当然你可以通过手动一张张的去保存,

但这样做既费力又费事。你当然更希望通过程序自动去下载所找到的资源。要想代码识别这

些资源,就要告诉代码这些资源有哪些特征,怎样在网页中找到它们。

打开浏览器的调试功能(不同浏览器可能有差别,不知道的百度一下吧1找出网页中你想

要下载资源的路径,如下图所示。如果有许多类似资源需要下载,则要找到识别这些资源地

址的规律,然后告诉代码。

如果不清楚规律怎么找的读者,可以看看《BcautifulSoup解析HTML》这篇文章。

OBeautifulSouD解析HTML

Bai痣E9片风景

网页晒贴吧知・BSRR!片暖频39支座■备■

十工内DeeST81t-M3〃,mc«bgq(m/M・E,&q2b«duMeb&<ra&cmJ223kMl2・^,A/2Mut£:&Ma・・一

A]E.E«ntJAuatiSov^onC0rSccunty

",1r8〜”4Jy»・43・

«a,“ctoe:”xy“•Wt:■「*>;'丫<4心工A_〃

2F4A班工5454a

eletent

鲤rp?〃虫:坞;

・u<。:5”

MS0i;beigiit:Z17*oi;becKgrouM-color:«c8tK9<MIE:2170XJ

■rlnd(M.sp<M.XMdMr«()x!»£!<*curd-color:fTBcatxM.

iyurlhttp$://ssl.M5t9tic.co®/・iM,yiMg(「R/JX八g「c

^QlVcMdcpcMCIHFWmy/it/Block;

即9。皿>Qtcccj

</«iv>

■"•!"_1■<{rewlt2X99<,c

-sp^tclttt**l*g-wover“1?”g・:Fr£.M

ttyledisplay:block;KT>

HcU51-iwgite*faddXex;Pi04;28px;co

3

资源下载方法一:

代码很简单,直接上代码:

fromurllib.requeslimporturlretrieve

urketrieve("图片URL","./image.jpg")

直接通过uHrelrieve函数就把URL对应的图片给下载到当前文件夹(./)中了,并把图片命名

为image.jpg。

夕Python爬虫之文件下载与

《资源下载方法一

4

资源下载方法二:

还是直接看代码:

importrequests

resource=requesls.gel("图片URL")

withopen("./image.jpg",mode="wb")asfh:

fh.write(resource.content)

此下载方法要安装pythonE勺requests库。从功能上来说与下载方法一是一样的。pylhon库的安

装方法用pip就好。很简单,这里都不啰嗦了。

(Python爬虫之文件下啜

k资源下载方法二)

5

资源下载方法三:

看代码:

importrequests

resource=requesls.gel("图片URL”,slream=True)

withopen("./image.jpg'\mode="wb")asfh:

forchunkinresource.iter_con(ent(chunk_size=100):

fh.write(chunk)

此方法与下载方法二的不同之处在于在get方法调用时使用了参数【stream二True]。而在写入

的文件的时候是分块写入的。

什么意思呢:

前两种方法是把一个文件全部下载到内存后,再一起写入到硬盘文件中。

方法三是下载一定的量(这里指的是10(序节)后,就写入到硬盘文件中,直到全部写完。

第三种方法的好处是,如果在下载大容量文件时,不会造成内存的过度使用。

dPython爬虫之文件下

资源下载方法三

6

资源下载说明一:

上述的代码都是通过下载图片度源为例子的,但所有其它度源,如文档,电影等的下载方式

是一样的。关键是要正确的识别出网页中资源所对应的URL地址才能够正确的下载(因为有

些资源是用的相对路径或加密后的路径1

我Python爬虫之文件下

资源下载说明一

7

资源下载说明二:

上面例子中的代码都是下载单一资源的。如果要在同一网页中下载多个资源的思路如下:

I.找出要下载资源的URL,并形成一个资源集合;

2.把下载函数中的资源URL与保存路径参数化;

3.遍历资源集合,依靠循环调用下载函数来达到多个资源下载的目的。

炉Python爬虫之文件下

资源下载说明二

1.3.1.4信息归档

网络爬虫是自动获取网络信息的主要工具,但是由于网络信息归档有较为严格的范围限

定和质量要求,因此还需辅之以人工采集和选择,才能基本实现网络信息归档的任务。

(一)网络爬虫方法

网络爬虫是一种按照一定规则、自动抓取互联网信息的程序,可分为聚焦爬虫和通用爬

虫。通用爬虫程序以某一个节点为起点,一旦遇到超链接就继续爬行,以此类推,便可以在

服务器中抓取大量网页信息资源,此种爬虫程序与全面采集法相对应。聚焦爬虫是一个自动

下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获

取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖面,而是将目标定为抓取某

一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

(二)人工方法

由于自身功能的限制,网络爬虫搜集到的网络信息难以全部符合归档的要求,同时也有

可能遗漏应该归档的网络信息。为保证档案的齐全和完整,就需要采用人工的方式进行补充

采集,或者剔除无用信息。

网络的大规模应用使得各种网络信息呈现爆发式增长,网络信息归档问题在档案界的分

量也逐渐加大。面对纷繁杂乱的网络信息,要根据实际情况,有选择性地采取不同的策略,

对各种网络信息进行收集、整理、归档,用最简单的方式记录下最完整、最有用的信息。

1.3.2试题文档转换方案

在本项目中,面向多种类试题文档,我们将提供全面的试题文档转换方案,支持对各种

文件类型及编码格式进行转换,确保构建统一、规范的试题文档库。

♦利用文件软件巨带功能

目前,较新版本的Word、PPT、Excel软件或者WPS软件都自带了转换为Pdf格式的功能,

比如下图这样的:

4储用:交E接pdf»BbC<

日mOD■下ti

百度云耳―

OoudOrtw

nB4U2452n2A.iotrc©d・.E6上1后

cb62444i1^60|g>u

应用is序

保存格式选择Pdf

onedrive

UCfQl

物・文仲典

♦调用在线转换服务接口

我们还可以采取在线转换格式的办法,调用相关在线文档格式转化服务接口,实现文档

转换。

Hi,你好!你可能感兴趣的文档转换:更多…,

入Fl

«»W*AWtRosh

在畿除投文枪JtHTML5Mtt平电网

我们看到,第一个反馈内容就是"在线转换文档成PDF",这个网站操作起来非常简单,

点击方块,上传你要转换的文档,然后等待一段时间,再把转换好的Pd及件下载下来就可

以了。

这个方法的优点是你不用安装fiH可软件,只要有个浏览器就可以进行文档转换了。缺点是只

适合用来转换小文档,文档一大,上传、转换需要等待的时间都特别长。此外,转换的效果

也不够文档,有时候效果很好,有时候效果很差。

♦使用虚拟打印机

以Word文档转换Pd功例,我们先用Word打开要转换的文档,然后选择打印文档,将打

印机选择为你安装的Pdf虚拟打印机,打印后就得到了一个相应格式的Pdt文件。

这种方法转换得到的Pd及档往往效果非常好,缺点是操作起来相对比较麻烦。

还有个比较小众的文档转换需求,就是把txt文档(文字内容居多的那种)转换为Pd睦式。

其实这种情况,最快捷的方法就是把txt文档的内容复制粘贴到Word文档里面,然后再把Word

文档转换为Pdf。

1.3.3试题解析方案

在本次项目中,我司将会利用语义理解相关技术,建立自动准确的试题解析能力。针对

各种不同试题格式,提供全面的试题解析服务,包括解析试题的题型题目、答案的匹配及检

验等。

自动识别多种试题格式

序号格式任g

*.*三交*

试期的序号月阿拉伯数字表示,数字后可以累Sl.WSffiO-

点、顿号、逗号、空格等.A.ifiS!交窿B.迎成交薜C.女性交桂。.阳话交房-

答*:A8J

期就崩

2.口能(安全生产/去》加定.一线从业人兄的(皿・•

选顶可以是一行也可以是畲行.选项字母序号与

*.谨笠守纪

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论