摘 要
本文以 SPCE061A 单片机为核心处理器,利用其适用于数字语音识别的特点,设计了医疗特定领域的语音问答交互系统。本文以心血管内科常见疾病和用药为研究主题,结合常见疾病和用药的问题知识库和答案知识库作支撑,为用户提供"寻医问药"的问答交互硬件平台。
语音问答交互系统功能的实现主要分为知识库的建立、语音训练和识别、正确答案提取三个部分,知识库的建立部分利用网络爬虫技术获取常见疾病和用药资料建立离线知识库,并以此作为系统底层数据的支撑;语音的训练和识别部分通过调用单片机 API 函数对常问问题进行训练和识别,并设置相应的问答语句建立常问问答库;正确答案提取部分针对问题分类中的复杂类问题,对其进行问题解析、信息检索、答案抽取等操作,分别通过基于规则和句法分析的方法、基于向量空间模型的 TF-IDF 算法、基于窗口模型的答案抽取算法等将识别出的问题匹配置信度最高的答案,最终以语音播报的形式反馈给用户。
本文通过大量的应用实验对系统的功能进行测试,以问题识别率和答案匹配率评价系统的性能,经过数据分析和统计,系统的问题识别率和答案匹配率分别达到 86.3%和 84.9%,由此可见,本文最终实现了系统"寻医问药"的问答交互功能。
关键词:SPCE061A 单片机;医疗领域;语音识别;问答交互
ABSTRACT
This article takes SPCE061A single-chip microcomputer as the core processor and uses its characteristics suitable for digital voice recognition to design a voice question answering interactive system in a specific medical field. This article takes the common diseases and medications of cardiovascular medicine as the research theme, and combines the knowledge base and answer knowledge base of common diseases and medications to provide users with a question-and-answer interactive hardware platform.
The realization of the function of the voice question answering interactive system is mainly pided into the establishment of a knowledge base, voice training and recognition, and the extraction of correct answers. The establishment of the knowledge base uses the web crawler technology to obtain common diseases and medication information to build an offline knowledge base, and As the support of the underlying data of the system; the training and recognition part of the voice trains and recognizes frequently asked questions by calling the single chip API function, and sets up the corresponding question and answer statements to establish the frequently asked question and answer library; Perform question analysis, information retrieval, answer extraction and other operations on it, and use the rules and syntax analysis methods, vector space model-based TF-IDF algorithm, and window model-based answer extraction algorithm to match the identified questions with confidence The highest answer is finally fed back to the user in the form of voice broadcast.
This paper tests the function of the system through a large number of application experiments, and evaluates the performance of the system with the question recognition rate and answer matching rate. After data analysis and statistics, the system's question recognition rate and answer matching rate reached 86.3% and 84.9%, respectively. This shows that this article finally realized the question-answer interactive function of the system "seeking medical advice and medicine".
Key Words: SPCE061A MCU;The medical field;Speech recognition;Q&A interaction
目 录
第 1 章 引言
1.1 研究背景和意义
互联网的飞速发展和广泛普及,使人们从互联网上获取大量信息变得前所未有的容易,但是如何过滤用户不需要的信息或从大量信息中获取有用信息却一直没有很好的解决方案。现有的搜索系统,无论是开放式领域检索还是 Internet搜索引擎,通常都基于关键字搜索。这种搜索通常有以下缺点:首先,搜索返回的结果通常与标准答案相关或接近,距离真实意图较远的文本或网页需要用户进一步筛选和过滤,这给用户带来极大的不便;其次,用户搜索意图往往更为复杂,不能单纯用多个关键词的逻辑组合来表达搜索需求本身,也不能清楚地表达真实的搜索意图,因此不能直接检索出满足用户的标准答案。另外,从最根本的角度来看,基于关键字的索引匹配算法虽简单易行,但毕竟它停留在语言表层并不触及语义,因此难以进一步提高检索效果。
而自动问答系统[1](Question Answering,QA)允许用户以自然语言提问并直接返回准确答案,其设计概念、操作机制与现有关键字搜索完全不同,且预期结果优于传统的关键字搜索。目前,问答系统是人工智能和自然语言处理领域备受瞩目的研究方向。问答系统的分类,按照问题维度,可分为领域内和开放域问答系统。
在国际文本检索会议(Text Retrieval Conference,TREC)和跨语言评估论坛(Cross Language Evaluation Forum,CLEF)等组织的推动下,基于文本的大规模开放域问答系统已经取得了长足的进步,继而出现了 NUS [2],BBN [3],Columbia [4]和其他定义的问答系统参与了 TREC 评估,同时在研究热潮和行业竞争的背景下产生了一系列评估指标[5],其中哈尔滨工业大学借鉴国际上对搜索算法的评价机制就常问问题集[6]的问答系统研究出了中文语言类的评价方法。但是,这类开放式问答系统严重依赖于网络资源,而网络资源的实时性、开放性和复杂性决定其搜索的准确率不高。因此相比之下,领域内问答系统在某些方面具有其独特的优势:
1、由于领域问答的专业资源限制,可以应用该专业的领域知识来提高问答系统问题分析和答案提取模块的准确率。
2、可以更容易地推广该限制领域中成熟的问答解决方案,并将其应用于其他限制领域,例如智能业务和公共管理。
基于上述优势,本文以心血管内科常见疾病和用药为研究主题,以常见疾病和用药的问题和答案知识库作支撑,为用户提供"寻医问药"的问答交互硬件平台。当用户简单地以自然语言的形式对系统进行疾病和用药的咨询时,该系统便会快速返回用户置信度最高的精确答案以供用户参考,免除了用户自身对繁杂信息的检索和筛选过程,令操作更加省时便捷;同时利用语音识别技术达到最理想的人机交互方式,实现用户和系统之间的"一问一答"[7],为用户答疑解惑。
而近年来基于单片机硬件的问答系统在医疗、教育等受限领域的场景应用偏少,且大多数系统的研究是基于 Internet 搜索引擎,其问题识别率和答案匹配率皆不太理想。因此本文迫切需要对基于 SPCE061A 单片机[8]的智能语音问答交互系统进行理论和实践的研究。
1.2 国内外研究现状
1.2.1 问答系统的国外研究现状
问答系统的历史可以追溯到 1950 年代由 Turing 在论文《ComputingMachinery and Intelligence》[9]中提出的"机器智能"概念。从那时起,问答系统的发展可以大致分为以下四个阶段。
第一阶段是 1960 年代基于模式匹配的专家库,例如 LUNAR,MACSYMA,BaseBall 等。此类系统的特点是它可以通过自然语言完成问答,但具有自动获取知识的功能仍存在瓶颈。同时,由于使用定制模板的方法限制,导致知识面覆盖率低,不易扩展。
第二阶段是 1990 年代基于信息检索技术的问答系统,例如 Textract,Webclopedia 和 TREC 的 QA Track[10]等衍生的评估系统,其基础数据主要是非结构化的原始文档,网页和其他自由文本。这类系统的特点是不需要建立大规模的知识库,但是不能保证相对语音数据的准确性。
第三阶段是 2000 年代基于网络搜索的问题解答系统。典型的系统,例如START,Encart,ASKJeeves 等[11]通过分析网页将答案返回给用户。START [12]是世界上第一个基于 WEB 的问答系统。它是由麻省理工学院计算机科学与人工智能实验室联合开发的,其主要创建者是 Boris Katz.它与仅提供一系列结果的信息检索系统不同的地方在于该系统致力于为用户提供"最准确的答案",目前该系统可以回答有关地理,电影,任务和词典等领域知识内数以万计类问题。STAR会优先使用自己的两个数据库进行答案检索,如果问题能在数据库中查询并匹 配,则会直接返回答案;否则,它将提取关键字并返回相关的网页链接。与传统的搜索引擎不同,这种类型的系统通常会对用户的问题进行浅层语言分析,并根据手动维护的模板库将语义最接近的答案返回给用户。
第四阶段是 2010 年代出现的基于知识图谱的问答系统,其底层是庞大的知识库。典型的系统包括 IBM Wason 和 WolframlAlpha.WolframlAlpha 是由 StephenWolfram 开发的新一代知识计算引擎。它与 Google 搜索类似,但两者运行机制存在差异,且两者最大的检索效果差异在于它可以根据问题直接给出正确答案。
WolframlAlpha 首先使用公共和授权资源作为数据基础,其次通过数据挖掘来构建异常大且有组织的数据库,最后使用高级自然语言算法对查询数据进行处理。
基于知识库的问答是当今问答系统的发展趋势。其中开放域知识库在业界已经出现很多成熟的发开平台,如 YAGO [13],DBpedia [14],FreeBase [15],NELL[16]等,同时受限领域知识库在日益竞争的激烈环境下也涌现出大量相关的研究。
Frank 等[17]提出了一种基于健壮语义分析的混合 NLP 系统架构,其研究明确了自然语言处理和知识提取之间的关系,并最终实现了领域内结构化知识库的问答。该方法不需要太多的领域知识,问题分析过程还将产生高质量的量化原型问题,并且从原型问题生成的查询语句中有效地计算知识库的最小生成树。Zhang等人[18]提出了一种整数线性规划(ILP)模型,该模型将对齐构造和查询构造过程集成在一起,从而系统地解决了多个知识库的联合查询问题。Fader 等人[19]首先将问题分解为子问题,然后经过问题扩展,查询生成等步骤,结合知识库中的语料库和数百万条查询匹配规则,以精心构建的知识库为基础,抽取出 WEB 知识库的问题和答案。
1.2.2 问答系统的国内研究现状
与国外研究时期相比,国内研究起步相对较晚,主要是由中文自然语言表达的灵活性决定。首先,中文自然语言处理工具无法从根本上解决这一问题,而且很难直接完全应用某一成熟的国外技术;其次,中文领域的语料库非常缺失,同时缺乏相应的评估机制。
根据"Agent 和本体论是常识知识库的两大支柱"的观点,国内的陆汝铃等[20]建立了一个大型常识知识库" 盘古",并在其基础上构建了一个自动通话系统。此外由中国科学院计算技术研究所的曹寸根等[21]研发的 NKI(国家知识基础设施)知识问答系统包含地理和人文 16 个学科领域的 23 个知识库,并支持自然语言查询。再者诸如百度之类的搜索引擎也已经开始基于知识图谱提供简单的自然语言问题答案集进行研究。ASQA[22]是中国台湾的智能中文问答系统,该系统包括人物,地点,组织,时间,数量和 artifact 的 fatctiod 类等重要问题。该知识库主要是从 1998-1999 年 CIRB[23]发表集合中提取的,并且在受限领域中,大多数研究是基于社区问答和基于 FAQ 的问答[24].当然,也存在一些基于部分实验知识的问答系统,例如基于食物本体论和农业本体论的问答,但是这类系统基础数据很少,尚未在实践中得到应用。
综上所述,问答系统在搜索引擎方面的技术已经趋于成熟,但是实现一个全面的知识网络结构的问答仍是一个漫长而艰巨的过程,缺乏底层基础数据支撑的现状仍导致许多实际的应用领域受限。对此,本文通过基于网络爬虫的方法获取相关领域权威的、相对完备的知识库作支撑,应用于教育和医疗等限制领域,以下便是基于 SPCE061A 单片机的智能语音问答交互系统的详细描述。
1.3 问答交互系统概述
问答交互系统按照其功能的递进顺序可以划分为三个模块:问题理解模块-理解用户意图,信息检索模块-检索相似文档,答案提取模块-提取最精确答案。
问题理解是指从用户提出的问题着手,理解出用户问题的真实意图,进一步转化为计算机能够理解的自然语言;信息检索是指从现存知识库的文档(例如各种离线网页列表,文本列表,文件文档等)中检索出涉及带有用户真实意图的关键文档,并将这些文档依据相应检索规则组合在一起,利用检索相关度按照从高到低的顺序将结果返回给系统。答案提取是指以信息检索提供的文本为基础,依据相关算法计算出与用户的问题匹配置信度最高的答案句子,继而达到以最精确的答案提供给用户。
问题理解是自动问答系统中处理用户问题的首要步骤,问题理解模块提取的关键词将作为信息检索模块的输入,而信息检索模块得到的相似类文档又作为答案提取模块的目标,因此问题理解的准确性将直接决定系统的性能。问题理解的首要工作是对用户提出的问题进行词法分析,通过问句词性分词和句法结 构分析的结果确定用户问题类型(该过程即为问题分类),然后从用户问题中提取关键字以及结合问题类型和现有知识库来扩展关键字。但只有当关键词的定义扩展到一定程度时,才能为后续的信息检索提供帮助。词法分析包括句子分段和词性标注的处理,词性标记为之后的关键词提取奠定基础。在提取关键词时,通常仅提取动词,名词和语音词的其他部分,这就意味着在自动问答系统中,不能使用相同的标准来处理所有类型的用户问题,因此有必要对问题进行分类。同时,用户问题中包含的所有单词都不能用作信息检索的关键字,例如属于停用词的某些语气词,诸如"啊","哦","吗"等疑问词可以直接删除。再者在匹配用户短问题文本时,通常面临相同语义的单词和表达形式不唯一的情形,因此需要适当地扩展关键字以提高信息检索的准确性。
问题理解得到的关键词将直接作为信息检索的输入,自动问答系统中信息检索的主要功能是提供检索目录和方法以获取可能包含用户提出的问题答案的文档或段落信息。在信息检索过程中,系统根据领域、词性等信息的不同,对不同的关键词赋予不同的权重,通过计算整个文档中关键词的权重,即问题与文档两者之间的相关程度,得到文档的分数--文档和用户的问题相似度。
由于自动问答系统要求简洁明了的答案才能返回给用户,因此信息检索模块仅提供大量与用户问题相关的文档。实际上,用户问题的答案有时可能只是一个句子,几个单词或一个短语,例如"中国的英文是什么?"这个问题的答案只有一个单词"China".此时答案提取便是问答系统功能实现的"落脚点",首先该模块接收问题理解模块中得到的段落信息,并从中提取出 n 组(n 由窗口模型设置的宽度决定)关键词短语,对应生成 n 组候选答案集,然后根据算法从这 n组候选答案集中提取出一组最佳答案即可。
1.4 常见的问答
交互系统根据所属答案的知识领域划分,当前实际应用最广泛的自动问答系统便是基于现有知识库或知识图谱[25]的自动问答系统和基于 Internet 搜索引擎的自动问答系统。这两者的本质区别在于:前者建立了属于该特定领域的离线知识库,而后者则依赖于网站服务器的后台数据库资源。通常包含一个或多个人工构建的知识库,并通过句子相似度计算,信息检索,答案提取等方法获得用户问题答案的自动问答系统,被认为是一种基于知识库或知识图谱的自动问答系统。由于通过纯人工总结完善知识这种方式显得过程异常繁琐,而且损耗大量资源,其知识库的完整性和准确性又是该自动问答系统的关键,因此开发者普遍选择构建知识图谱这种方式来达到完善底层数据库的需求。
目前基于知识库的问答系统在医疗、教育、卫生等领域得到广泛应用,其中FAQ(基于常问问题库)的自动问答系统便是典型的代表。其工作原理是:FAQ中存储了大量的常见问题及其相应的答案,当用户向系统提交问题时,系统首先计算用户问题与存储在常问问题数据库中的问题之间的句子相似度,当两个句子相似度大于系统设置的阈值时,将与 FAQ 中最相似问题对应的标准答案直接提供给用户。
Wataru Sakata 等人[26]在 2019 年提出了一种查询问题相似与基于 Bret 模型[27]的 FQA 检索系统。该系统以地方政府常见问题作为测试数据集,采用了一种机器学习中无监督的方法改进信息检索过程中计算查询与问题之间相似度的算法。相比于传统的 FAQ 检索模型,他们首次将用户查询(q)与常问问题(Q)之间的相关性以及查询问题(q)与答案(A)之间的相关性综合地纳入评测系统的标准中。以往的检索模型都只能使用 q 与 QA 对之间具有相关性标签的数据集,只因其具有代表性特征,能反应系统检索信息时的总体性能指标。而实际在构造这些标记数据的过程中需要投入大量资源,其结果往往不能达到预期的设想,他们的方法不仅有效地解决了这一通病,而且显示了给定 q 的 FAQ 答案的合理性和创新性。因此论文利用 localgovFAQ(从地方政府常见问题解答页面收集的质量检查对)和 StackExchange(FAQ 的公开数据集)两个数据集来训练模型,最终使用 Bert 计算 q-A 的相关性,将排名较高的质量检查对用作搜索结果,证明了给定 q 的 FAQ 将明显提高问答系统中信息检索模块的检索效率。
基于Internet搜索引擎的自动问答系统在日常生活中普遍得到应用。像Baidu、Google、Bing 等搜索引擎,都有其完备的数据库作支撑,将依靠网络爬虫得到的大数据信息通过网页存储到服务器中,用户通过向服务器发送请求,访问网页链接的方式得到问题搜索的答案,这类系统往往并不能直接得到用户最理想的答案,当然随着人工智能和深度学习技术在其领域的广泛应用,将数据库中庞大的数据集进行模型训练和深度学习之后,系统可以实现对用户正确答案的范围预测,极大地提高了检索效率。
Eric 在 2018 年设计出基于多搜索引擎和深度学习的自动问答机器人,系统目前已实现知识问答、闲聊、运价查询等功能。基于多搜索引擎是为了得到信息更全面的语料库,利用搜索引擎固有的技术框架对获取的信息进行初步筛选和统一格式化管理。基于深度学习是为了训练出能从数据量庞大的语料库中快速选取正确答案的模型。首先作者利用网络爬虫技术从百度、谷歌、雅虎、微软、阿里巴巴五大搜索引擎中收集语料信息,然后将这些资源统一整理构建问答对组成语料库,并将语料库的后续操作分为训练集、开发集和测试集三个部分。其次作者在训练系统时将候选答案集从语料库中抽取出来,通过把所有答案存放到多个向量空间中实现分组分类的功能,通过在语料库中采集样本,收集每个问题对应的 500 个答案集合,随机挑选出一些负向样本存放在集合中以突出正向样本的作用。最后作者利用 CNN 卷积神经网络[28]对文本序列的全局信息进行问题和候选答案的 cos 距离计算,距离越小则相似度越大,以此实现对正确答案的预测。
同时百度在今年 7 月的 AI 开发者大会上开源了首个工业级基于语义计算的FAQ 问答系统 AnyQ,针对 FAQ 问答的各种技术难题给出了高效的解决方案。
首先在框架设计方面,AnyQ 采用配置化和插件化的方式,其所有功能都是以插件形式进行配置,如 Question 分析方法、检索方式、匹配相似度、排序方式等。
以相似度计算为例,包括字面匹配相似度 Cosine[29]、Jaccard[30]、BM25[31] 等,同时包含了语义匹配相似度。AnyQ 系统的配置化和插件化设计,使用户可以自主配置选择系统的功能,此外,用户也可根据场景需求便捷地将定制化的功能加入系统,实现了系统的灵活性和多样性。其次在信息检索方面,与基于倒排索引的 FAQ 问答系统相比,AnyQ 采用了语义检索技术,将用户问题和 FAQ 集合的相似问题通过深度神经网络映射到语义表示空间的临近位置,检索时,系统通过高速向量索引技术对相似问题进行检索。再者在问题相似度算法方面,AnyQ使用 SimNet 语义匹配模型构建文本语义相似度,其中系统包含一个基于百度海量搜索数据训练的 SimNet-BOW 模型[32],在一些真实的 FAQ 问答数据集上,该模型效果相比基于字面的相似度方法 AUC 提升 5% 以上,有效解决特定领域由于标注数据少而无法训练出准确语义匹配模型的问题。
综上所述,如今常见的问答交互系统是将自然语言处理、统计机器学习和深度学习相结合的产物。
第 2 章 问答交互系统的相关技术和算法
2.1 语音压缩算法
2.2 网络爬虫技术
2.2.1 资源爬取
2.2.2 资源处理
2.3 句子相似度算法
2.4 答案提取算法
第 3 章 系统的设计
3.1 系统的硬件设计
3.2 系统的软件设计
3.2.1 语音训练和识别
3.2.2 正确答案提取
3.3 系统的工作原理
3.4 系统软、硬件交互的实现
第 4 章 系统的功能实现
4.1 系统环境
4.2 系统应用实验
4.2.1 实验过程
4.2.2 数据分析和总结
第 5 章 总结与展望
本文研究了一种基于 SPCE061A 单片机的语音问答交互装置。目前还处于应用测试阶段,该系统涉及医疗领域心血管外科的常见疾病,在日常生活中,当用户以自然语言的方式向系统询问相关疾病的情况和用药时,系统便会快速以语音的方式提供给用户准确、专业的答复。期间免除了用户自身对问题信息的检索过程,同时以底层建立的知识库作为数据支撑,返回给用户置信度最高的答案,极大地提高了以用户真实意图为目的的检索效率,达到最理想的人机交互状态。
该装置可应用于各大药房、医院以及疾病康复中心,方便于用户或患者了解疾病的基本信息,同时提供相关疾病的用药建议供用户参考。
本文针对问答系统在医疗领域的研究提供了良好的解决方案,较于传统关键字检索的问答系统,该系统的优势和创新性主要体现在以下几点:
1、研发了一种新型"寻医问药"语音问答交互装置,为用户答疑解惑。 2、相对基于互联网搜索引擎的开放式领域检索,该问答系统可以应用领域知识提高问题分析和答案抽取的准确率。
3、该系统建立了一个离线、相对完备的知识库,可以满足用户在寻医问药时所涉及的大部分问答需求且识别速度较快。
该系统功能的实现主要依靠相关算法的软件设计,因此算法的优化在应用后期就显得格外重要,然而系统仍存在些许不足,主要体现在系统的语音识别部 分是针对特定人而言。本文通过前期的语音训练形成特定人的语音模型,当系统要识别出非特定人的语音时都要先进行一到两次的语音训练,这样在实际运用中会显得操作繁琐而不够智能化。基于系统的不足之处,还望在往后的不断学习中取得改善,可以通过向老师和专家请教、利用网络各种学习资源、参与公司或科研团队项目等途径来提高自身的能力,我相信通过坚持不懈地努力,一定能够研究出一种应用于医疗领域的在线、知识库全面的智能问答交互装置。目前语音识别技术已经相当得成熟,也成功地应用于人们的各类生活场景,其中最受瞩目的还是智能机器人,它不仅能完成各种复杂的动作和知识问答,还能利用机器学习来丰富自身的技能。这样智能化的设备将很大程度上提高生产效率和生活质量,当然这也是我将来为之奋斗的目标和方向,未来将是科技改变生活的时代!
致谢
三年的研究生生涯即将结束,期间的校园生活充满了温暖和快乐。在这里我要感谢老师们的悉心指导、家人们的倾力支持和同学们的真诚相待使我度过了这段充实的大学岁月。
首先,我要特别感谢我的导师。导师为人谦和,平易近人,给我的学习和生活提供了很大的帮助。每当我在学习和生活中有困难时,都将第一时间地寻求导 师的帮助,而导师也会第一时间地给我提供帮助;每当我犯错时,导师也会耐心地帮我分析问题的原因,并要求我进行深刻的自我反省。我的论文也是在导师悉心指导下完成的,从论文选题到写作,导师都给予了细心指导,帮助我分析和梳理论文的思路;在我初稿完成之后,又在百忙之中抽出时间对我的论文进行修改把关,给我提出很多建设性的指导意见,使我能顺利的完成论文。导师严肃的科学态度、严谨的治学精神和精益求精的工作作风将影响和激励我的一生,他对我的关心和教诲我将永远铭记于心。借此机会,我谨向导师致以深深地谢意。
其次,我还要感谢本学院所有专业课的授课老师,正是因为有了他们严格、无私、高质量的教导,我才能在这三年的学习过程中汲取专业知识和迅速提升能力,从而为论文的写作打下扎实的理论基础;我还要感谢这三年来与我共同学习与生活的学院 17 级的同班同学们,衷心地感谢他们在学习上和生活中给予我的鼓励和帮助,愿友谊长存!
与此同时,我要感谢我的父母。他们永远是我生活中坚强的后盾,是他们的无私付出让我能顺利地完成硕士学业。最后,我还想对在百忙之中评审这篇论文的各位专家教授致以诚挚的谢意!
主要参考文献
[1] Dang H T, Kelly D, Lin J J. Overview of the TREC 2007 Question Answering Track[C].TREC,2007,7:63.
[2] CuiH, Kan M Y, Chua T S. Soft pattern matching models for definitional question answering.
ACM Trans Inf Syst(TOIS)[J]. Acm Transaction son Information Systems,2007,25(2):107~108.
[3] Wang M, Smith N A, Mitamura T. What is the Jeopardy model? A quasi-synchronous grammar
for QA[C]. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language
Processing and Computational Natural Language Learning,2007:22~32.
[4] Bollacker K D, Evans C, Paritosh P, et al. Freebase:a collaboratively created graph database for
structuring human knowledge[C]. Sigmod Conference.ACM,2008.
[5] Yang Y, Yih W, Meek C. Wikiqa:a challenge dataset for open-domain question answering[C].
Proceedings of the 2015 conference on empirical methods in natural language processing,2015:2013~2018.
[6] Feng M, Xiang B, Glass M R, et al. Applying deep learning to answer selection:A study and an
open task[C]. 2015 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU)。 IEEE,2015:813~820.
[7] Tapaswi M, Zhu Y, Stiefelhagen R, et al. Movieqa:Understanding stories in movies through
question-answering[C]. Proceedings of the IEEE conference on computer vision and patternrecognition,2016:4631~4640.
[8] Yih W T, Chang M W, Meek C, et al. Question Answering Using Enhanced Lexical Semantic
Models[C]. Meeting of the Association for Computational Linguistics,2013.
[9] Yadav V, Sharp R, Surdeanu M. Sanity Check:a Strong Alignment and Information RetrievalBaseline for Question Answering[J],2018.
[10] 申晨。 中草药问答系统的设计与实现[D]. 浙江大学,2014.
[11] Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C].
Conference on Empirical Methods in Natural Language Processing,2014.
[12] Katz B, Borchardt G C, Fdshin S. Natural Language Annotations for Question Answering[C].
FLAIRS Conference,2006:303~306.
[13] Yu L, Hermann K M, Blunsom P, et al. Deep learning for answer sentence selection[J]. ArXiv
preprint arXiv 2014:1412~1632.
[14] Severyn A, Moschitti A. Learning to Rank Short Text Pairs with Convolutional Deep Neural
Networks[C]. The 38th International ACM SIGIR Conference.ACM,2015.
[15] Tan M, Santos C D, Xiang B, et al. Improved Representation Learning for Question Answer
Matching[C]. Proceedings of the 54th Annual Meeting of the Association for Computational
Linguistics (Volume 1:Long Papers),2016.
[16] Yang L, Ai Q, Guo J, et al. ANMM:Ranking Short Answer Texts with Attention-Based Neural
Matching Model[C]. The 25th ACM International.ACM,2016.
[17] Frank A, Krieger H U, Xu F, et al. Question answering from structured knowledge resources[J].
Journal of Applied Logic,2007,5(1):20~48.
[18] Liu K, Zhao J, He S, et al. Question Answering over Knowledge Bases[J].Intelligent SystemsIEEE,2015,30(5):26~35.
[19] Fader A, Zettlemoyer L, Etzioni O. Open question answering over curated and extracted
knowledge bases[C]. Proceedings of the 20th ACM SIGKDD international conference of
Knowledge discovery and data mining.ACM,2014:1156~1165.
[20] Cui W, Xiao Y, Wang H, et al. KBQA:learning question answering over QA corpora and
knowledge bases[J]. ArXiv preprint arXiv2019:1903~2419.
[21] Dong L, Wei F, Zhou M, et al. Question answering over freebase with multi-column
convolutional neural networks[C]. Proceedings of the 53rd Annual Meeting of the Association
for Computational Linguistics and the 7th International Joint Conference on Natural Language
Processing (Volume 1:Long Papers)。2015:260~269.
[22] Devlin J, Chang M W, Lee K, et al. Bert:Pre-training of deep bidirectional transformers for
language understanding[J]. ArXiv preprint arXiv2018:1810~4805.
[23] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. Advances in neural
information processing systems.2017:5998~6008.
[24] Garg S, Vu T, Moschitti A. Tanda:Transfer and adapt pre-trained transformer models for answer
sentence selection[J]. ArXiv preprint arXiv2019:1911~4118.
[25] He H, Lin J. Pairwise word interaction modeling with deep neural networks for semantic
similarity measurement[C]. Proceedings of the 2016 Conference of the North American
Chapter of the Association for Computational Linguistics:Human Language Technologies.2016:937~948.
[26] Wang B, Liu K, Zhao J. Inner attention based recurrent neural networks for answerselection[C].
Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics
(Volume 1:Long Papers)。 2016:1288~1297.
[27] Chakraborty N, Lukovnikov D, Maheshwari G, et al. Introduction to neural network based
approaches for question answering over knowledge graphs[J]. ArXiv preprintarXiv2019:1907~1936.
[28] Zhang D, Lee W S. Question classification using support vector machines[C]. International
Acm Sigir Conference on Research&Development in Informaion Retrieval,2003:26~32.
[29] Bae K, Ko Y.An effective category classication method based on a language model for question
category recommendation on a cQA service[C]. Proceedings of the 21st ACM international
conference on Information and knowledge management. ACM,2012:2255~2258.
[30] Huang Z H, Thint M, Qin Z. Question classification using head words and their hypernyms[C].
Proceedings of the Conference on Empirical Methods in Natural Language Processing.
Association for Computational Linguistics,2008:927~936.
[31] Zhang Y, Liu K, He S, et al. Question Answering over Knowledge Base with Neural Attention
Combining Global Knowledge Information[J]. 2016(2):1533~1569.
[32] Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs[C].
Proceedings of the 2013 conference on empirical methods in natural language processing.2013:1533~1544.
[33] 牛彦清, 陈俊杰, 段利国, 等。 中文问句分类特征的研究[J]. 计算机应用与软件,2012,29(3):108~111.
[34] Phan X H, Nguyen L M, Horiguchi S. Learning of classify short and sparsey text&web with
hidden topics from large-scale data collections[C]. Proceedings of the 17th internationalconference on World Wide Web.ACM,2008:91~100.
[35] 霍延冬, 王康平, 张东狐, 等。 一种基于 WordNet 的短文本语义相似性算法[J]. 电子学报, 2012,40(3):617~620.
[36] Liang P, Jordan M I, Dan K. Learning Dependency-Based Compositional Semantics[J].
Computational Linguistics,2011,39(2):89~446.
[37] Zettlemoyer L S, Collins M. Learning to Map Sentences to Logical Form:structured
Classification with Probabilstic Categorial Grammars[J]. Eprint Arxiv,2012:658~666.
[38] Wong Y W, Mooney R J. Learning Synchronous Grammars for Semantic Parsing with Lambda
Calculus[J]. Annual Meeting,2007,960~967.
[39] Yih W, Chang M W, He X et al. Semantic parsing via staged query graphgeneration: Question
answering with knowledge base[C]. Association for Computational Linguistics(ACL),2015.
[40] Bordes A, Weston J, Usimier N. Open Question Answering with Weakly Supervised
Embedding Models[M]. Machine Learning and Knowledge Discovery in Databases. SpringerBerlin Heidelberg,2014:165~180.
(如您需要查看本篇毕业设计全文,请您联系客服索取)