24小时论文定制热线

热门毕设:土木工程工程造价桥梁工程计算机javaasp机械机械手夹具单片机工厂供电采矿工程
您当前的位置:论文定制 > 代做毕业设计 >
快速导航
毕业论文定制
关于我们
我们是一家专业提供高质量代做毕业设计的网站。2002年成立至今为众多客户提供大量毕业设计、论文定制等服务,赢得众多客户好评,因为专注,所以专业。写作老师大部分由全国211/958等高校的博士及硕士生设计,执笔,目前已为5000余位客户解决了论文写作的难题。 秉承以用户为中心,为用户创造价值的理念,我站拥有无缝对接的售后服务体系,代做毕业设计完成后有专业的老师进行一对一修改与完善,对有答辩需求的同学进行一对一的辅导,为你顺利毕业保驾护航
代做毕业设计
常见问题

Java实现音频片段检索系统

添加时间:2018/09/08 来源:东南大学 作者:邱昱翔
本系统采用音频片段预测分类与特征相似度比较结合的方法,给出解决方案以及系统代码,不简单停留在理论研宄,而是能够提供基础功能的代码层面实现。
以下为本篇论文正文:

摘要

  音频检索作为获取信息的重要手段之一,如何快速准确地从海量音频片段中获取所需内容成为音频检索发展的主要瓶颈。音频指纹技术的引入有效地解决了海量音频数据存储的容量问题,但在音频相似度上只能做到模糊匹配。因此,为了解决海量音频数据检索的精度与速度的矛盾,本文主要研究了音频特征的提取,设计了一种基于层次SVM多分类及模糊聚类的音频片段检索方法,并采用Java语言实现音频片段检索原型系统。

  本文设计实现的基于特征相似度的音频片段检索原型系统,实现了高速、有效的音频片段检索,具有良好的扩展性。本文实现在普通配置服务器设备存储的大规模音频样例数据源中,对未知信息音频片段进行相似音频检索,在保证检索准确率良好的同时,缩减了检索时间。论文实现的音频片段检索原型系统是一个实验性的检索平台,本文进行了大量的性能测试验证了其可用性和可靠性。

  本文首先探讨了音频特征向量的构成。其次通过对目前常用的音频分类方法作比较,设计了一种修正后的层次SVM多分类方法,将分类精度提高到90%以上,并能保持在实际应用中对未知数据的分类正确率。采用音频分类技术的目的是压缩检索范围,减少音频比对次数,以缩减检索时间。然后本文探讨了音频片段相似度的计算方法,实现了基于模糊聚类的一种音频片段检索系统。模糊聚类将单个音频片段庞大的特征数据矩阵聚类形成K个质心,使用这K个质心表征音频片段大幅缩减了音频特征数据复杂度,减少了音频相似度比对时间。

  最后根据测试结果对音频片段检索系统的发展进行了展望。

  关键字:音频检索,Java,特征提取,层次SVM

Abstract

  Audio retrieval is one of the most important means to obtain information. How to get the content from the massive audio clips quickly and accurately becomes the main bottleneck in the development of audio retrieval. The use of audio fingerprinting technology can effectively solve the problem of the storage of huge audio data. However, it can only fuzzy match the similar audio. Therefore, the paper focuses on how to select audio features,design retrieval methods based on a method combined by Hierarchical SVM classification and fuzzy clustering, set up an audio retrieval system and test the performance of the system, in order to solve the contradiction between audio retrieval precision and retrieval speed in the case of large amount of audio data, The paper uses Java language to design and implement a prototype system of audio clip retrieving based on feature similarity. The system realizes high speed and effective audio clip retrieval and it has good expansibility. The prototype system is an experimental platform, and the performance test verified its usability and reliability.

  In the paper, we first discuss the structure of audio feature vector. Secondly, it designs a modified hierarchical SVM classification method by comparing the commonly used audio classification methods, which can improve the classification accuracy to more than 90%. In addition, it can maintain the classification accuracy of unknown data in practical application. The purpose of using audio classification technology is to reduce the search range, reduce the number of audio comparison, and reduce the retrieval time. After that, the paper discusses the method for calculating the similarity of audio clips, and implements an audio segment retrieval system based on fuzzy clustering. The paper also carries out many experiments to verify the performance of the system. Finally, according to the final test results, the paper prospects the development of audio retrieval system.

  Key Words: Audio retrieval, Java, Feature extraction, Hierarchical SVM

  借助计算机网络,人们在生活工作中接触、浏览、使用、交流的音频信息日益增加,信息的存储量也由最初软盘的MB数量级发展到如今的GB乃至TB、PB数量级。音频作为多媒体数据的一种重要类型,语音、歌声、乐器声乃至噪音,只要人耳能听到的都算在音频范畴内,占总信息量的20%左右11]。由于目前行之有效的音频检索技术手段较为单一,因此如何在海量音频数据中精确快速地检索定位到有效信息,成为目前多媒体技术发展的关键点,对于充分利用多媒体资源具有重大的意义。

  传统的信息检索技术主要基于文本内容。文本检索始于20世纪50年代,早期的代表性工作是由IBM公司LuhnW提出的,他指出可以利用词对文挡构建索引,这是经典倒排索引的雏形。经过长期研宄,文本检索目前发展得较为成熟,例如经常被使用的Yahoo、Google、AltaVista和百度等搜索引擎都采用了大量文本检索技术,许多中英文分词算法以及衡量网页重要性算法(如PageRank等W)也应运而生。基于文本的信息检索常使用一组关键词来定位相关文档,如果某篇文档包含较多的关键词则认为该文档与待搜索文本较为匹配。某些改良算法将这些关键词按照某种规则添加权重,在检索库中文档时考虑加权因子影响,最终将文档按照相关度降序排序作为结果反馈给用户。

  20世纪90年代以前W,音频检索类似文本检索,将音频库中音频人工添加标签,标签包括音频名、音频创建时间、音频创建者信息和音频描述性词语。文档中搜索标签的出现率与搜索结果成正相关。这种做法将音频文件当作黑匣子处理,不必关心音频内容,只需获取人工标注的标签信息,再使用文本检索的手段即可完成检索。基于文本的多媒体检索方式在一定程度上的确解决了音频检索问题。但是随着多媒体数据量的不断增多,人工标定的过程耗时耗力,加上人类对于音频的感知本身就具有很大程度的主观性,标签的设置也极为困难,这些都是基于文本标签的音频检索所固有的无法克服的困难。

  早期基于内容的音频信息检索技术研宄工作是从20世纪90年代中后期开始的。近年来,随着部分公司和研宄机构的重视,很多研宄成果相继产出,使得基于内容的音频检索得到了长足的发展。基于内容的音频检索是指从音频内容本身提取特征并进行检索,主要体现在对特定领域内某个目标音频的获取[5],是继基于内容的图像检索之后发展起来的一个新兴研究方向。一般基于内容的音频检索可以分为两个方向,语义级检索和声学级检索。语义级检索的对象主要是具有明确语义内容的音乐或语音数据,首先在查询输入中提取语义内容或者查询输入本身就是语音内容,在此基础上从检索库中检索与查询输入语义相同或近似的音频数据。声学级检索往往查询输入的内容是一个声学例子,通过分析声学特征从检索库中检索特征相同或类似的音频数据。由于基于语义特征的音频特征提取计算复杂度大,并且基于语义的特征掺杂了一定主观性,对于同一个音频,不同的人会也许会有不能的语义理解,另外某种语义特征不一定具有普适性。因此,目前的音频检索研究主要是围绕非语义特征进行[6]。

  McKay.cW于2010年提出使用jMIR软件套件进行自动音频分类的尝试,文章中提出了使用Java语言搭建音频检索系统对音频进行分类处理,在网络上远程操作就可以处理音频。

  Java语言作为一种优秀的面向对象编程语言,具有简单、可移植、多线程等特点W。Java提供了丰富的类库,对音频检索系统实现提供了完善的支持,使用Java语言处理音频的应用越来越多。使用Java语言实现的音频片段检索可以部署在各种服务器上,整个系统也具备了高可移植性、高跨平台性。

  目前,音频特征提取与匹配算法在实验室阶段己经达到了很高的准确率,但是应用于海量音频数据,投入商用的为数不多。主要问题在于,商用化的音频检索引擎需要支持海量音频数据的高并发、实时匹配、高反馈速度,并且需要兼容各个服务器软硬件平台。本文在研宂音频分类以及音频相似度比对方法的基础上,提出了一种基于层次SVM分类及模糊聚类的音频片段检索方法,使用Java语言完成系统原型实现,并在普通配置服务器1W条音频数据规模下进行试验测试,证明了方法的可用性和有效性。

  音频检索系统原型最早由美国的Muscle Fish公司推出。Muscle Fish的Erling \\^〇〇(119]等完成了具有历史意义的基于内容的音频分类工作,先将音频数据进行加窗处理,对每帧数据提取了音频的区别性特征,包括响度(loudness)、音调(pitch)、亮度(brightness)、谐度(harmonicity)等,并对属性序歹[|求均值、方差和自相关值,力口上能量总计13个特征。此13维特征即为音频数据特征矢量,根据最邻近准则和马氏距离进行音频数据检索,最终输出结果。Muscle Fish分析音频数据的基音、振幅、带宽、倒频谱系数和声音亮度等听觉特征,可以对语音、音乐和其他音频数据分类,并对语音和音乐做深入的分析。

  2005年以后,经过长期发展音频检索己经汇集了众多的专业研宄机构,并进行频繁规律的学术交流活动。至此音频检索技术逐渐为国际学者重视,许多音频检索技术成果在此后纷纷问世。目前代表音频检索最高水准的是国际音乐信息检索学会(The International Society ofMusic Information Retrieval, ISMIR)举办的年度会议。第十七届ISMIR会议于2016年8月7曰至11日在美国纽约由纽约大学和哥伦比亚大学共同举办。会议上Jakob AbeBer等对音乐信息检索、音乐心理学与爵士乐研宄的爵士乐独奏进行分析。EmiliaG6mez、香港大学XiaoHu等对音乐信息检索进行了综述分析,讲述了音乐信息检索概述、最近发展和未来的挑战Sebastian Stober等发表了对音乐信息检索EEG解码导论的研究。Sergio Oramas等提出了基于信息提取、文本挖掘、主题建模、情感分析和词向量嵌入的MIR自然语言处理。2017年10月23日至28日,该会议将会在中国苏州举办。此外,由ACM举办的国际多媒体检索会议(ACM International Conference on Multimedia Retrieval)也汇聚了许多基于内容的音频检索研究领域的最新思想,关注解决多媒体内容管理、用户交互,解决搜索和检索的主要问题。

  本文在研宄音频分类以及音频相似度比对方法的基础上,提出了一种基于层次SVM分类及模糊聚类的音频片段检索方法,使用Java语言完成系统原型实现,并在1W条音频数据规模下进行试验测试,证明了方法的可用性和有效性。层次SVM多分类器的采用,缩减了检索范围,减少了音频比对次数,提髙了检索效率。模糊聚类将单个音频片段庞大的特征数据矩阵聚类形成K个质心,使用这K个质心表征音频片段大幅缩减了音频特征数据复杂度,减少了音频相似度比对时间。

  音频片段检索系统实现:

相似音频片段结果展示
相似音频片段结果展示

不采取层次SVM,音频检索准确率柱状图
不采取层次SVM,音频检索准确率柱状图

采取层次SVM,音频准确率柱状图
采取层次SVM,音频准确率柱状图

采用层次SVM与不采用层次SVM检索耗时比较图
采用层次SVM与不采用层次SVM检索耗时比较图

目录

  摘要
  Abstract
  第一章 绪论
    1.1 研宄背景
    1.2 音频检索研究现状
    1.3 论文研宄内容和论文结构
  第二章 音频片段检县统框架
    2.1 系统应用场景
    2.2 音频片段检索系统框架
      2.2.1 系统框架
      2.2.2 系统部署框架
      2.2.3 音频片段检索系统实现重难点
    2.3 音频样例数据源和音频检索评价指标
      2.3.1 音频样例数据源
      2.3.2 音频检索评价指标
    2.4 本章小结
  第三章 一种基于特征提取的音频多分类方法
    3.1 分类方法流程
    3.2 音频分帧
    3.3 音频特征选取
      3.3.1 音频基础特征
      3.3.2 音频信号时域、频域特征
      3.3.3 Mel倒谱系数
      3.3.4 音频特征向量构成
    3.4 基于层次SVM的音频片段多分类方法
      3.4.1 层次SVM方法
      3.4.2 层次SVM多分类实现
      3.4.3 分类器参数训练
      3.4.4 特征加权层次SVM分类器
      3.4.5 模型加权层次SVM分类器
    3.5 基于层次SVM的音频片段多分类测试
      3.5.1 交叉验证
      3.5.2 未知音频分类试
      3.5.3 性能对比
    3.6 本章小结
  第四章 基于模糊聚类的音频片段检索实现
    4.1 音频片段质心提取
      4.1.1 初始聚类质心选取
      4.1.2 模糊聚类与聚类质心形成
    4.2 音频样例相似度计算
      4_2.1 音频相似度比较
      4.2.2 相似度距离度量
    4.3 —种基于层次SVM分类及模糊聚类的音频片段检索方法
      4.3.1 检索步骤
      4.3.2 实验结果
    4.4 本章小结
  第五章 音频片段检索系统实现
    5.1 系统性能
    5.2 系统功能
    5.3 Java编程技术应用
      5.3.1 Java Sound API
      5.3.2 JSP简介
      5.3.3 Spring框架运用
      5.3.4 系统Java设计模式使用
    5.4 数据库设计
    5.5 音频特征XML文件Java处理
    5.6 检索系统结果展示
    5.7 本章小结
  第六章 音频片段检索系统性能测试结果与分析
    6.1 软硬件测试平台
    6.2 音频片段检索准确率测试
      6.2.1 不采取层次SVM分类
      6.2.2 采取层次SVM分类
      6.2.3 对比分析
    6.3 音频片段检索耗时检测
      6.3.1 不采用层次SVM分类
      6.3.2 采用层次SVM分类
      6.3.3 对比分析
    6.4 本章小结
  第七章总结与展望
    7.1 论文总结
    7.2 展望
  致谢
  参考文献

(如您需要查看本篇毕业设计全文,请您联系客服索取)

相关内容
相关标签:Java毕业设计
好优论文定制中心主要为您提供代做毕业设计及各专业毕业论文写作辅导服务。 网站地图
所有论文、资料均源于网上的共享资源以及一些期刊杂志,所有论文仅免费供网友间相互学习交流之用,请特别注意勿做其他非法用途。
如有侵犯您的版权或其他有损您利益的行为,请联系指出,论文定制中心会立即进行改正或删除有关内容!