编译原理实验报告一_第1页
编译原理实验报告一_第2页
编译原理实验报告一_第3页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验一词法分析程序实现一、实验目的与要求通过编写和调试一个词法分析程序,掌握在对程序设计语言的源程序进行扫描的过程中,将字符流形式的源程序转化为一个由各类单词符号组成的流的词法分析方法二、实验内容基本实验题目: 若某一程序设计语言中的单词包括五个关键字begin、end、if、then、else ;标识符;无符号常数;六种关系运算符;一个赋值符和四个算术运算符,试构造能识 别这些单词的词法分析程序(各类单词的分类码参见表I)。表I语言中的各类单词符号及其分类码表单词符号类别编码类别码的助记符单词值begin1BEGINend2ENDif3IFthen4THENelse5ELSE标识符6ID字母

2、打头的字母数字串无符号常数7UCON机内二进制表示<8LT<=9LE=10EQ<>11NE>12GT>=13GE:=14IS+15PL-16MI*17MU/18DI输入:由符合和不符合所规定的单词类别结构的各类单词组成的源程序文件。输出:把所识别出的每一单词均按形如( CLASS,VALUE )的二元式形式输出,并将 结果放到某个文件中。对于标识符和无符号常数,CLASS字段为相应的类别码的助记符;VALUE字段则是该标识符、常数的具体值;对于关键字和运算符,采用一词一类的编码形 式,仅需在二元式的 CLASS字段上放置相应单词的类别码的助记符,VALUE字

3、段则为“空”。三、实现方法与环境词法分析是编译程序的第一个处理阶段, 可以通过两种途径来构造词法分析程序。 其一 是根据对语言中各类单词的某种描述或定义(如BNF),用手工的方式(例如可用 C语言)构造词法分析程序。 一般地,可以根据文法或状态转换图构造相应的状态矩阵,该状态矩阵连同控制程序一起便组成了编译器的词法分析程序;也可以根据文法或状态转换图直接编写词法分析程序。构造词法分析程序的另外一种途径是所谓的词法分析程序的自动生成,即首先用正规式对语言中的各类单词符号进行词型描述,并分别指出在识别单词时, 词法分析程序所应进行的语义处理工作,然后由一个所谓词法分析程序的构造程序对上述信息进行加

4、 工。如美国BELL实验室研制的LEX就是一个被广泛使用的词法分析程序的自动生成工具。处理过程简述:在一个程序设计语言中, 一般都含有若干类单词符号,为此可首先为每类单词建立一张状态转换图, 然后将这些状态转换图合并成一张统一的状态图,即得到了一个有限自动机,再进行必要的确定化和状态数最小化处理,最后添加当进行状态转移时所需执行的语义动作,就可以据此构造词法分析程序了。为了使词法分析程序结构比较清晰,且尽量避免某些枝节问题的纠缠,我们假定要编译的语言中,全部关键字都是保留字,程序员不得将它们作为源程序中的标识符;在源程序的输入文本中,关键字、标识符、无符号常数之间,若未出现关系和算术运算符以及

5、赋值符, 则至少须用一个空白字符加以分隔。作了这些限制以后,就可以把关键字和标识符的识别统一进行处理。即每当开始识别一个单词时,若扫视到的第一个字符为字母,则把后续输入的字母或数字字符依次进行拼接,直至扫视到非字母、数字字符为止,以期获得一个尽可能长的字母数字字符串,然后以此字符串查所谓保留字表(此保留字表要事先造好),若查到此字符串,则取出相应的类别码;反之,则表明该字符串应为一标识符。采用上述策略后,针对表 I中的部分单词可以参考教材 P80的图3-22 (见图1)START1MTCATGETCHAR» I WdRETRACTLOOKUPCATGETCHARu = Q 时,OUT

6、 (ID,TOKEN)CAT GETCHAROUT CINT.TOKEN)'ey retractCAT GETCHAR、GETCHAROUT CLEt* "iRETRACTOUT(EQ)ERRORGETCHAR>GETCHARJ _葛它OUT (GE* ->OUT <GTt*RETRACT13) GOTO START图 1 中所出现的语义变量及语义函数的含义和功能说明如下:函数GETCHAR :每调用一次,就把扫描指示器当前所指示的源程序字符送入字符变量ch,然后把扫描指示器前推一个字符位置。字符数组 TOKEN :用来依次存放一个单词词文中的各个字符。函数

7、CAT :每调用一次,就把当前 ch中的字符拼接于TOKEN中所存字符串的右边。函数 LOOKUP :每调用一次, 就以 TOKEN 中的字符串查保留字表, 若查到, 就将相应关键字的类别 码赋给整型变量c;否则将c置为零。函数 RETRACT :每调用一次,就把扫描指示器回退一个字符位置(即退回多读的那个字符) 。函数OUT: 般仅在进入终态时调用此函数,调用的形式为OUT(c,VAL)。其中,实参c为相应单词的类别码助记符;实参 VAL 为 TOKEN (即词文)或为空串。函数 OUT 的功能是,在送出一个单词的内 部表示之后,返回到调用该词法分析程序的那个程序。总的来说,开发一种新语言时

8、,由于它的单词符号在不停地修改,采用 LEX 等工具生 成的词法分析程序比较易于修改和维护。 一旦一种语言确定了, 则采用手工编写词法分析程 序效率更高。四源程序#include <stdio.h>#include <ctype.h>#include <string.h>#include <math.h>#define ID 6#define INT 7#define LT 8#define LE 9#define EQ 10#define NE 11#define GT 12#define GE 13#define IS 14#define P

9、L 15#define MI 16#define MU 17#define DI 18#define MAX_KEY_NUMBER 20/ 关键字的数量#define KEY_WORD_END "waiting for your expanding"/ 关键字结束标记char *KeyWordTableMAX_KEY_NUMBER="begin","end", "if", "then", "else", KEY_WORD_END;char TOKEN20="&quo

10、t;char ch=' '/ 用于存储带判断的字符int row=1;/row 标识错误在第几行#define DIGIT 1#define POINT 2#define OTHER 3#define POWER 4#define PLUS 5#define MINUS 6#define UCON 7/ 假设无符号常量的类数是7#define ClassOther 200#define EndState -1int index=0;/ 保存已读的字符串的索引int w,n,p,e,d;int Class; /用于表示类的词int ICON;float FCON;static i

11、nt CurrentState;/用于目前的当前状态 ,初始值 :0int EXCUTE (int state, int symbol,FILE *fp,char JudgeStr,int row,int index);int GetChar (char ch);int HandleError (char StrJudge,int row);/ 查保留字表,判断是否为关键字int lookup (char *token)int n=0;while (strcmp(KeyWordTablen, KEY_WORD_END) /strcmp 比较两串是否相同,若相 同返回 0if (!strcmp(

12、KeyWordTablen, token) / 比较 token 所指向的关键字和保留字表中哪个 关键字相符return n+1; /根据单词分类码表I,设置正确的关键字类别码,并返回此类别码 的值break;n+;return 6; /单词不是关键字,而是标识符/ 输出分析结果void out (int i, char* pStr)char Mnemonic5;if(1=i)strcpy(Mnemonic,"BEGIN"); else if(2=i)strcpy(Mnemonic,"END"); else if(3=i)strcpy(Mnemonic,

13、"IF"); else if(4=i)strcpy(Mnemonic,"THEN"); else if(5=i)strcpy(Mnemonic,"ELSE"); else if(6=i)strcpy(Mnemonic,"ID"); else if(7=i)strcpy(Mnemonic,"INT"); else if(8=i)strcpy(Mnemonic,"LT"); else if(9=i)strcpy(Mnemonic,"LE");else if(1

14、0=i)strcpy(Mnemonic,"EQ");else if(11=i)strcpy(Mnemonic,"NE");else if(12=i)strcpy(Mnemonic,"GT");else if(13=i) strcpy(Mnemonic,"GE");else if(14=i) strcpy(Mnemonic,"IS");else if(15=i)strcpy(Mnemonic,"PL");else if(16=i)strcpy(Mnemonic,"MI

15、");else if(17=i) strcpy(Mnemonic,"MU");else if(18=i)strcpy(Mnemonic,"DI");elsestrcpy(Mnemonic,"Unkown Type");printf("(%s) 对应 %sn",Mnemonic,pStr);/ 报错void report_error (int row)printf("%s Error! In the %d rown",TOKEN,row);/ 扫描程序void scanner(FILE

16、*fp)/ 总的判断函数开始就应该判断已读取的字符是否为空字符, 不为则不 用再读,直接进行判断,否则再读int i, c;fseek(fp,-1,1);/ 首先回溯一个字符, 就是将文件所有的字符都在 scanner 内部判断, 外部 while 循环不会浪费任何字符ch=fgetc (fp);/scanner 中要想判断字符,必须开头先读一个字符 while(' '=ch|'n'=ch|'t'=ch)/ 将文件中的所有空字符浪费在这里 if('n'=ch)row+; ch=fgetc (fp);if(EOF=ch)return

17、;/ 必须在这里判断一下if (isalpha (ch) /*it must be a identifer!*/TOKEN0=ch; ch=fgetc (fp); i=1; while (isalnum (ch)TOKENi=ch; i+; ch=fgetc (fp);TOKENi= '0' fseek(fp,-1,1); /* retract*/ c=lookup (TOKEN);if (c!=6) out (c,TOKEN); else out (c,TOKEN);else if(isdigit(ch)| '.'=ch)fseek (fp,-1,1);/ 首

18、先回溯一个字符, 下面为了循环内部使用先读字符后判断的格式。 int Type;CurrentState=0;i=0;do ch=fgetc(fp); TOKENi=ch; i+;TOKENi='0'/ 为随时输出字符串做准备 Type=GetChar(ch);EXCUTE (CurrentState,Type,fp,TOKEN,row,i); while(CurrentState!=EndState); elseswitch(ch)case '<': ch=fgetc(fp); if(ch='=')out(LE,"<=&q

19、uot;); else if(ch='>') out (NE,"<>"); elsefseek (fp,-1,1); out (LT,"<");break;case '=': ch=fgetc(fp); if('='=ch) out(EQ, "="); else fseek (fp,-1,1); out(IS, "=");break;case '>': ch=fgetc(fp); if(ch='=')out

20、(GE,">="); else fseek(fp,-1,1); out(GT,">");break;case '+':out(PL,"+");break;case '-': out(MI,"-");break;case1*1.out(MU,"*");break;case '/':out(DI,"/");break;default: report_error(row); break;return;/ 判断矩阵执行程序i

21、nt EXCUTE (int state, int symbol,FILE *fp,char JudgeStr,int row,int index)/row用于指示出错的行数, index 用于为待输出的字符串赋结束符 0'时用switch (state)case 0:switch (symbol)case DIGIT: n=0;p=0;e=1;w=d;CurrentState=1;Class=UCON;break; case POINT: w=0;n=0;p=0;e=1;CurrentState=3;Class=UCON;break; default:Class=ClassOther

22、;CurrentState=EndState;printf(" 无符号数的第一个字符是非法的! n");break;case 1:switch (symbol)case DIGIT: w=w*10+d;break; /CurrentState=1case POINT: CurrentState=2;break;case POWER: CurrentState=4;break; default:if (ch!=EOF)/ 如果是因为读到文件结束字符而终止识别, 就不应该回退, 否则可能造成死循环fseek(fp,-1,1);/ 遇到其他的字符, 可能是一条语句中的其他字符,

23、需 后退, 因为主函数外层循环每次都要读一个字符进行判断, 而这个判读不回溯, 所以在内部把这个多读的字符回溯ICON=w;CurrentState=EndState;JudgeStrindex-1='0'printf("(UCON,%i) 对应 %sn",ICON,JudgeStr);break;break;case 2:switch (symbol)case DIGIT: n+;w=w*10+d;break;case POWER: CurrentState=4;break;default:if (ch!=EOF)fseek(fp,-1,1);FCON=w

24、*pow(10,e*p-n);CurrentState=EndState;JudgeStrindex-1='0'printf("(UCON,%f) 对应于 %sn",FCON,JudgeStr);break;case 3:switch (symbol)case DIGIT: n+;w=w*10+d;CurrentState=2;break;default:HandleError(JudgeStr,row);CurrentState=EndState;/ 识别无符号数产生错 误时, 不应该再回溯, 应该把造成错误的那个字符算到错误的无符号数字符串中, 再向下面

25、 识别单词时跳过这个字符,不回溯就能达到这个目的break;case 4:switch (symbol)case DIGIT: p=p*10+d;CurrentState=6;break;case MINUS: e=-1;CurrentState=5;break;case PLUS: CurrentState=5;break;default:/* if (ch!=EOF)fseek(fp,-1,1);*/HandleError(JudgeStr,row);CurrentState=EndState;break;case 5:switch (symbol)case DIGIT: p=p*10+d

26、;CurrentState=6;break;default: HandleError(JudgeStr,row);CurrentState=EndState;/ 判断一个无符号数的 最后一个字符应该都是多余读取的, 所以为了防止引起后面再次判断下一无符号数时产生呑 字符的现象,都应该回溯一个字符break;case 6:switch (symbol)case DIGIT:p=p*10+d;break;default:if (ch!=EOF)fseek(fp,-1,1);FCON=w*pow(10,e*p-n);CurrentState=EndState;JudgeStrindex-1='0'printf("(UCON,%f) 对应 %sn",FCON,JudgeStr);break;break;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论