摘 要
英语一直以来是国际政治、经济交流的重要表达工具。在未来较长的时间内,英语仍将长时间占据世界语言的主导地位。故对于英语的研究,特别是英语文献的语义及特征分析,对非英语母语国人的学习和研究提供重要的语言信息支撑。由于国内通过计算机技术支撑进行语言学语料库短语学特征分析的软件相当匮乏,从而导致基于信息的语言学研究成果质量差强人意,国内着名的英语语言学学者只能通过使用国外的语言学软件进行研究分析,这些软件使用方法繁琐,需要付费,还必须通过一些特殊途径才能获得使用权,并且不同的相关软件之间还存在着格式不兼容,集成性差的问题,因而加大了科研成本,延长了科研周期,科研效率大幅度降低。
本论文利用 Java Web 的安全性、广泛性和稳定性,结合现有的短语学特征的研究手段和系统需求,进行了统一设计和二次开发,建立了语言分析系统,在系统中包括如下功能:词频分析、MI 值、Z值、T 值、MI3 值、对数似然函数值、检索、主题词、制作词表等,以达到一站式解决多层次语言分析和应用的目的,同时使得研究不受地域的限制,摆脱单机使用的局限;由于现存的软件存在研究结果版本格式不统一,研究手段没有延续性和连贯性,通过创立新的功能流程来方便专业人士进行语言特征分析的研究;利用数据库的技术特点,建立了《东华大学科技英语语料库》,为分析研究的深入奠定了较好的研究基础;引入英国兰卡斯特大学的赋码功能,结合本系统中的分析功能模块,增加了对添加赋码后的文章进行进一步分析的功能,从而弥补了赋码后文章研究的空缺,为语言学研究增加了新的分析手段;相比较已有分析系统中只存在语料库与语料库的比对手段,本系统增加了语料上传对比功能,使得系统增加了语料库与上传语料以及上传语料与上传语料的对比分析功能,扩展了系统的应用范围。
论文最后总结了对于系统设计和实现中的一系列问题和需要改进优化的问题,并且提出了在功能上和技术上没有较好解决的问题以及初步的解决方法。总之,该系统的实现弥补了计算机支撑国内短语学特征分析上的空白同时在这个系统中增加了新型研究手段和方法的实现。
关键词:Java Web;语言学;语料库;集成开发;Spring
ABSTRACT
English has been an important tool for the expression of international political and economic exchanges. In the next longer period of time, English will remain for a long time to dominate the world languages. Therefore, the study of English, especially the computer-assisted analysis of its semantic features, can provide an important statistic basis for the language learning and research on the part of the non-native English speakers. Since there is a paucity of the computer-assisted and corpus-based linguistic feature analysis software, leading to a lower efficiency of the English linguistic study, quite a few scholars have to bother themselves to the purchase of the higher-priced linguistic analysis softwares abroad with cumbersome registration and subscription Besides, there are incompatibilities between the software formats, highly-paid but poorly-integrated, hindering the quality of the scientific research, extending the research period, thus leading to a significant reduction in the efficiency of research.
With the advantages of Java Web security, breadth and stability, this paper fully combines with the existing linguistic research methods and system requirements, a unified design and secondary development, the establishment of a system of linguistic analysis, including the following functions in the system: word frequency analysis, MI value, Z value, T value, MI3 value,the log-likelihood function value, retrieval, keyword, making vocabulary, so as to achieve the one-stop solution linguistic analysis application. The use of database technology features the well-built Donghua University of Science and English Corpus for the in-depth linguistic analysis with reference to the Lancaster University-endowed introducing functions and the system analysis function module. This software informs the added tagging code scheme into the further analysis of the functions, which makes up the vacancy for the in-depth linguistics-related study. As regards comparing alignment, the system is specifically designed to increase the contrast corpus upload function which enables the comparative analysis of the corpus and uploaded corpus, highlighting the most prominent words or phrased for the relative linguistic research, expanding the scope of application of the system. Finally, the paper summarizes the system design and implementation of a range of issues and the need to improve the optimization problem, and proposes a functional and technical no better way to solve problems and initial solutions. In short, implementation of the system to make up for the domestic computer support linguistic features analysis on the blank while increasing implementation of new research tools and methods in this system.
KEY WORDS:JavaWeb;Linguistics; Corpus;Integrated Development;Spring
信息化技术是现今社会非常有用的 IT 技术,也是未来发展的必要工具,同时也是企业或者高校科研机构获得可持续发展的重要手段。相对于传统的方法,信息化技术的介入使各类学科的科研和建设如虎添翼,研究手段和方式更趋于完善和精确,因为科研手段的创新,所以研究前的设计规划能够极大的优化,方便研究后的记录统计。在研究进行中的信息自动采集和模块分析,其数据处理效率和精度是传统研究手段难以望其项背的[1]。语言学语料库发展了几十年,在英语语料库的建设上取得了长足的发展,语言共性特征研究也有很大的提升,这也是常规语言教学和研究的落脚点,从而语料库语言学研究的基本面得到保障[2]。当下,语言学科发展都有跨学科的技术和资源诉求,专门用途的语言数据库和相应的软件开发和研究尚有很大需求空间。通过文献检索,我们发现在专门用于英语短语学研究方面尚未获得令学界肯定的学术成果可资参考[3]。
基于科技英语语料库的语言特征研究问题包括如下几个方面:①科技英语中同义词或近义词不同的语言搭配特征探究;②科技英语中实词基形和其相应的屈折变形搭配的异质性问题研究;③科技英语中次基数词的语义框架对词语搭配异质性理解的参照作用;④科技英语中语义韵的评价意义的显性化和单一化的特征等。简而言之,例如英文词典的编写,众所周知,词典是工具书,在词典编写的时候,主要注意 1)收录单词、短语和释义,提供同义、反义,相关词和例证。
除核心词汇外,还涵盖大量反映语言动态的新词,如 botnet(僵尸网络),carbonfootprint(碳足迹)等;2)增收各种具有鲜明文化特色的条目,以便在辅助语言学习的同时帮助读者解读英美文化,如 Man Booker Prize(曼氏布克奖),Red Nose Day(红鼻子日)等;3)纳入许多科技、经济等领域的专业词汇,如googlewhack(谷歌纯命中),interactive whiteboard(交互式电子白板)等,使得词典适用性更加广泛;4)各种助力英语学习的专栏设置更加实用详尽,编排方式更加人性化;5)扩充“词语辨析”(THESAURUS)和“语法”(GRAMMAR)专栏,解释更加详尽,编排更加合理。如 change 词条下的词语辨析专栏,给出了 alter、adjust、transform 等 11 个与“改变”有关的同义词之间的区别,并按照改变程度不同将词分为两大类进行讲解,让辨析的脉络更加清晰;6)增设“词语搭配”(COLLOCATIONS)专栏,详解词语之间的搭配用法,并辅以丰富例证,丰富读者的语言表达,有助于加强口语、写作等多种技能。如 accident 词条下的词语搭配专栏,列明了 accident 与各种形容词、动词、名词的搭配用法,并用大量例句加以说明;7)增设“语体”(REGISTER)专栏,为读者解析英语词汇的使用语境,指导如何得体地加以运用。如 alien 词条下的语体专栏,提示该词用于正式语境,在日常英语中一般用 foreigner,但后者有贬义色彩或显得不友好,因此,人们实际上常用短语 people from other countries。以上七条内容、编排和词表建立收取,都是语言特征研究后带来的结果,词典工具书中的单词讲究实效性,通过语言特征对当前语言篇章进行分析,容易得出现阶段的流行语已经使用频率较高的新词汇,纳入词典编撰中。词典的发展和版本的更新与语言特征研究的发展紧密相连,每一种研究结果带来不一样的词典编写和模块设计,更新词典下的语料库。
就语言特征研究软件,综合来看,研究成果尚存四个方面的不足:缺乏科技学术语篇的类型语料库支撑;基于频率的词形检索和计算方法单一;短语学研究方式缺乏有效性,综合性不足;运用的计算机技术过于陈旧,运行计算效率低下。目前的语料库语言学研究中,通常所使用的软件 Antconc、BFSU_Colloctor1.0、WordSmith5.0、KfNfram、Claws4 在实现语料库语言学研究中的基本功能,包括词表制作、词语搭配计算和提取、基于频率的词块提取、文本的主题词提取和词性赋码(part of speech,position tagging)[4],在语言特征研究的深度和广度上没有做到有效的整合,特别是围绕着“短语学”相关研究,没有深入进行功能上的拓展。
针对语言学语料库以及语言特征研究方面所存在的现状和问题,本论文将借助原有的语言检索、搭配计算、词块提取和词性赋码等软件的特点,深入研发更多的针对短语学研究的功能,优化算法,提高计算速度和效率,更好地为语料库语言学的相关研究服务;整合现有的语义分析研究手段,进行二次开发,使已有的研究手段能够通过重新整合,提供一站式解决与词语关联的语言特征研究途径;借助数据库技术建立东华大学科技英语语料库;增加研究对比样本,使研究更具多样化。
论文工作的完成将为语言学语料库的研究和分析应用提供方便、便捷的技术手段,在加快该应用领域研究的进程、提高研究的精度和深度以及有效性等方面发挥积极的作用,并将弥补我国在这一领域所留下的空白。
语言分析系统功能演示:
系统构架
语料与语料的模块功能
上传与上传的模块功能
语料与上传的模块功能
PC 端系统主页面
手机端系统主页面
密度与黑白位置图
对数似然函数值计算结果
目 录
第 1 章 绪论
1.1 选题背景和意义
1.2 国内外研究与应用现状
1.3 现状总结
1.4 研究内容及章节安排
1.5 本章小节
第 2 章 相关理论与关键技术概述
2.1 Java Web 概述
2.2 Spring 概述
2.3 Bootstrap 概述
2.4 本章小结
第 3 章 系统需求分析
3.1 系统需求分析
3.2 功能模块需求分析
3.3 语料库的需求分析
3.4 本章小结
第 4 章 系统的设计
4.1 系统总框架设计
4.2 功能设计
4.3 语料库设计
4.4 本章小结
第 5 章 系统的实现
5.1 系统框架实现
5.2 功能模块实现
5.3 本章小结
第 6 章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
(如您需要查看本篇毕业设计全文,请您联系客服索取)