24小时论文定制热线

热门毕设:土木工程工程造价桥梁工程计算机javaasp机械机械手夹具单片机工厂供电采矿工程
您当前的位置:论文定制 > 毕业设计论文 >
快速导航
毕业论文定制
关于我们
我们是一家专业提供高质量代做毕业设计的网站。2002年成立至今为众多客户提供大量毕业设计、论文定制等服务,赢得众多客户好评,因为专注,所以专业。写作老师大部分由全国211/958等高校的博士及硕士生设计,执笔,目前已为5000余位客户解决了论文写作的难题。 秉承以用户为中心,为用户创造价值的理念,我站拥有无缝对接的售后服务体系,代做毕业设计完成后有专业的老师进行一对一修改与完善,对有答辩需求的同学进行一对一的辅导,为你顺利毕业保驾护航
代做毕业设计
常见问题

一种精准扶贫数据分析系统的研发

添加时间:2020/08/13 来源:中国科学院大学 作者:夏艳姣
为了完成精准扶贫数据分析系统,本论文深入研究了数据挖掘的主要分析方 法,特征选择算法,分类预测技术的过程以及常用的分类算法。
以下为本篇论文正文:

摘 要

  自改革开放以来,在党和政府的正确领导下,我国的经济发展迅速,人民的 生活水平日渐提高,在满足物质生活的同时也在追求着精神生活。人们的出行方 式,购物方式,支付方式等发生着天翻地覆的变化,由此带来的数据激增引起了 相关学者的关注。近些年来,数据挖掘技术在我国火热进行,机器学习算法在竞 赛界热火朝天,人工智能的发展研究在科技界如日中天。人们历经忽视数据,关 注数据,重视数据,分析数据,利用数据的历程,本论文正是依托实验室项目通 过分析数据获得相关需求。这几年,尽管社会大背景发展良好,我们大部分人通 过奋斗都过上了不愁吃不愁穿的生活,但是仍旧存在一部分群体处在贫困之中, 他们需要政府的帮助,社会的救济来摆脱贫困。由于我国幅员辽阔,人口众多, 再加上历史发展原因,我国的贫困人口总数不能清晰给出,贫困人民生活状况无 法准确评估。尽管我国扶贫事业不断发展,扶贫体系不断完善,扶贫力度不断加 大,但是会出现一些地区年年扶贫年年贫的现象,申请的扶贫资金犹如天女散花 的形式到达贫困户手中。为了反贫困事业的顺利进行,习近平总书记提出了"精 准扶贫"思想。要想扶贫工作有成效,就要重视精准二字。那么如何精准识别贫 困户成为了首要问题,本论文就是利用数据挖掘技术构建贫困等级评价模型来实 现贫困户的精准识别。

  为了完成精准扶贫数据分析系统,本论文深入研究了数据挖掘的主要分析方 法,特征选择算法,分类预测技术的过程以及常用的分类算法。经过研究,本论 文提出了一种基于 REAHCOR 特征选择和 GBDT 的贫困等级评价模型,创新之 处在于 REAHCOR 特征选择算法。同时介绍了 JavaEE 开发平台,B/S 架构和相 关框架开发技术。从整体上看,本论文首先介绍了扶贫信息管理的发展现状和贫 困分类预测研究现状,然后介绍了相关技术知识,在此基础上对整个系统的需求, 可行性进行分析,设计精准扶贫数据分析系统的结构和功能,最后依靠系统拥有 的数据加上实验室优质设备实现了该系统并进行了测试,同时验证了贫困等级评 价模型的有效性。

  关键词:多维贫困,特征选择,相关性,分类算法,贫困等级评价

精准扶贫数据分析系统

Abstract

  Since the reform and development, under the correct leadership of the party and the government, China's economy has developed rapidly, and the people's living standard has been improving day by day. While satisfying the material life, they are also pursuing the spiritual life. People's trip mode, shopping mode, and payment mode are changing dramatically. The resulting data explosion has attracted the attention of relevant scholars. In recent years, data mining technology is hot in our country. Machine learning algorithm is hot in the field of competition, and the development of artificial intelligence research is booming in the field of science and technology. People have experienced the process of neglecting data, focusing on data, attaching importance to data, analyzing data, and using data. This paper is based on the laboratory project to obtain relevant needs by analyzing data. In recent years, despite the good development of the social background, most of us have lived a life of not worrying about food and clothing through struggle, but there are still some groups in poverty and they need the help of the government and social relief to get rid of poverty. Due to the vast territory, large population of our country and historical development, the total number of poor people in our country can't be clearly given, and the living conditions of poor people can't be accurately evaluated. Despite the continuous development of poverty alleviation in China, the continuous improvement of the poverty alleviation system, and the continuous increase of poverty alleviation efforts, there will be annual poverty alleviation in some regions, and the poverty alleviation funds applied for will reach the poor households in the form of scattered flowers. In order to carry out the cause of poverty alleviation, general secretary Xi Jinping put forward the idea of "accurate poverty alleviation". To be effective in poverty alleviation, we must pay attention to the word "precision". So how to accurately identify the poor households has become the primary problem. This paper is to use data mining technology to build a poverty level evaluation model to achieve the accurate identification of the poor households.

  In order to complete the data analysis system of precision poverty alleviation, this paper studies the main analysis methods of data mining, feature selection algorithm, the process of classification and prediction technology and the commonly used classification algorithm. After research, this paper proposes a poverty level evaluation model based on REAHCOR feature selection and GBDT. The innovation lies in the algorithm of REAHCOR feature selection. At the same time, JavaEE development platform, B/S architecture and related framework development technology are introduced. On the whole, this paper first introduces the development status of poverty alleviation information management and the research status of poverty classification and prediction, then introduces the relevant technical knowledge.On this basis, analyzes the demand and feasibility of the whole system, designs the structure and function of the accurate poverty alleviation data analysis system, and finally realizes the system by relying on the data owned by the system and high-quality laboratory equipment. At the same time, the validity of the model is verified.

  Key Words: Multidimensional Poverty, Feature Selection, Correlation, Classification Algorithm, Poverty Level Evaluation

目景

  第 1 章 绪论

  1.1 研究背景与意义

  1.1.1 研究背景

  贫困一直以来是困扰各个国家的重要难题之一,也是一个不可回避的问题。 自人类社会诞生,物质需求由此出现,后随着社会进步,精神需求渐渐衍生。当 物质和精神需求二者出现贫乏窘困之时,贫困就悄然而至。在人类社会的早期, 大自然变幻莫测致使人类受其影响较大,当生存环境略微发生消极变化时,贫穷 就威胁着早期人类的生命健康。后来人类社会不断进步,人们对自然的把控能力 逐渐增强,但是贫困却从未远去。中国共产党自新中国成立以来对贫困问题的重 视从未减弱,一直想办法把它彻底解决。起初,恢复和发展经济成为了党和政府 提高人民生活水平的一种重要途径。1978 年改革开放之后,社会面貌幡然一新, 特别是近 30 年,反贫困事业取得了前所未有的成就,令世界惊叹,"两不愁" 问题已经得到根本解决。

  进入 21 世纪,科学发展观的引入使人们更加重视资源 优化,继续实施的扶贫方略转向缩小发展差距,帮扶农村发展,争取早日让农村 贫困人口过上小康生活。在党和国家领导人的正确号召下,中国的反贫困战略历 经几十年的不断调整,内容不断丰富,标准逐渐清晰,目标不断升级,人民的生 活水平也在蒸蒸日上。习近平总书记在 2013 年第四季度去湖南湘西考察的时候 初次提出了"精准扶贫"的思想(顾小丽,2019),这一思想的提出,使得反贫困 的思路有了更为细致的突破。精准扶贫贵在精准识别,而后精准发力才会有精准 成效。它相对于以前粗犷式的扶贫,有效的解决了扶贫路程漫长,扶贫数据不清, 扶贫资金不到位等现象。2015 年元月份,中共中央总书记习近平在南方一省市 考察时提到,扶贫开发虽然是一项艰巨的任务,但它是我们第一个百年奋斗目标 的重点工作。为了全面实现小康社会,我们必须毫不动摇的走好精准扶贫之路, 要用更加有力有效的措施和行动,深入地实施精准扶贫,精准脱贫。2018 年 2 月,辽宁省办公厅在《辽宁省支持深度贫困地区脱贫攻坚行动方案》中指出要落 实精准扶贫、深度扶贫。方案中提到 2018 年至 2020 年,辽宁省将加大对深度贫 困县(市)和贫困村的扶持力度,确保第一个一百年如期解决区域性整体贫困问题。

  随着扶贫工作的深入开展,针对贫困户的家庭信息、健康状况、经济来源和 扶助措施等信息采取建档立卡方式进行动态管理。该举措的实施是从传统纸质资 料记录管理走向数据挖掘智能电子档案管理的一个过渡阶段。在传统的扶贫方式 中,难免存在一些弄虚作假的人利用裙带关系等将本不应在贫困名单中的人员纳 入贫困库。所以精准识别,智能认定贫困人口也将推进扶贫工作的有效实施。为 了落实十九大精神、响应辽宁省精准扶贫的政策,提高精准扶贫的效率及准确度 成为了扶贫工作的重点。在科技潮流的推动下,如何充分的利用互联网资源来帮 助政策的更好落实变得势在必行。利用科学技术可以改进扶贫管理的传统工作方 式,使流程变得更为正规和透明,而且建档立卡工作的推进也使得扶贫数据更加 全面和完善,如何利用好这些数据发现更多科学规律也变得尤为重要。

  1.1.2 研究意义

  我国大规模的扶贫开发工作于 1986 年拉开帷幕,经过这么多年的努力,我 国取得了非常不错的扶贫成就,但是也存在一些比较明显的问题。比如自新中国 成立以来,对于贫困居民的总人数确定是由国家统计局根据农村住户调查样本的 数据推测估算而来,没有一个统一的明确数据,造成贫困人数不清,贫困户的具 体情况也不明了,由此也带来一系列诸如扶贫资金发放合理性欠缺,扶贫效果对 比性不明显等问题。而精准扶贫是针对不同贫困地域的生存环境和不同贫困户的 家庭情况,使用因户施策的方法,对贫困群体进行精准识别并帮扶和管理的一种 思想方式。精准扶贫策略能够医治中国人民奔小康的短板之处,搞好精准扶贫, 才能让全国人民共同过上小康生活。 对于传统的扶贫方式而言,一方面,人为的统计、识别和数据整理等势必为 当地工作人员带来大量繁琐而又低效的劳动,既不能够对扶贫对象的相关数据做 到精准操作,也造成了人力、物力和财力的多方面浪费。另一方面,因为透明性 存在欠缺,所以会存在一些人利用关系暗箱操作导致一些应扶未扶的家庭困难户 出现。另外也存在一些扶富不扶穷,扶贫扶表面,扶贫名单人为的由基层干部推 测估算得出,扶贫资金不到位等现象。这些弄虚作假,监管不到位的行为致使国 家资源浪费,国家贫困问题得不到根本解决。因此设计一款能够智能识别贫困户, 并对每户信息进行电子化归档管理和统计的数据分析系统恰逢其时。

  近些年来, 建档立卡工作的有序进行,政府相关部门的监测与统计以及计算机科学技术的迅猛发展,为该系统的筹备和运行提供了数据基础和技术保障。经过各方调研和汇 总以及结合当地实际情况,数据分析系统不仅可以将当地农户信息,扶贫成效, 扶贫建议等进行信息化管理,而且可以通过数据挖掘技术,将前者得到的数据进 行贫困等级分类预测。该系统的开发可以更好的辅助扶贫团队进行精准识别贫困 户,精准帮扶贫困人群,减少了由扶贫干部推测估算贫困名单造成的部分贫困户 遗漏或非贫困人员上榜的现象,同时也节省了国家财力资源,使国家相关部门能 更好的分配资金去向。另外,对于贫困户而言,该系统可以让扶贫人员清晰的了 解其贫困状况,能更快捷的得到及时救助;对于相关工作人员而言,该系统不需 要复杂的操作,友好的图形化界面能使其很快掌握并运用所识来处理问题;对于 扶贫人员而言,该系统能够准确识别贫困户,落实扶贫责任人,记录扶贫过程, 并记录被帮人员满意度,可以提高其扶贫工作的效率和记录扶贫成效。对于当地 政府而言,该系统的研发可以最大程度上降低农村信息化程度弱带来的一系列问 题,为分析农村特点,了解农民生活现状等提供的便捷的渠道。另外,该项工程 不仅落实了十九大精神,更是响应了辽宁省精准扶贫的政策,大大提高了扶贫效 率,有利于精准扶贫工作的顺利推进。

  1.2 国内外研究现状

  1.2.1 扶贫信息管理的发展现状

  古今中外近千百年来一直存在绝对贫困的问题,它成为各国人民心中想要驱 除的灰影。贫困笼罩着地球村,尽快地消除贫困成为了人类共同的心愿和目标。 国外对贫困的研究工作在持续进行,帮扶力度只增不减,也采取了多项措施来解 决贫困。经过多年的演变和发展,目前美国已形成了以保障性福利减贫项目为主, 区域开发政策为辅,政府、企业和社会组织广泛参与,覆盖重点区域和重点人群 的综合减贫政策体系,对于贫困人群的准确识别,则采用现代信息技术手段和家 计调查方式进行申请人资质的确定。英国、法国等通过不断完善社会保障制度和 建立信息技术平台来监管帮扶措施的实施来进行大规模的反贫困斗争,发展中国 家比如巴西有扶贫信息平台进行社会救助和帮扶(杜鸿飞,2018),印度尼西亚 通过 Badan Pusat Statistika(BPS)平台工具调查贫困状况继而进行贫困救助。虽然 国外对扶贫工作的投入力度不小,但是缺少"精准"的扶贫模式。

  中国作为世界大家庭的成员之一,也一直在努力消除贫困。2020 年是脱贫 攻坚决胜之年,尽管新型冠状病毒肺炎疫情的发生使前进的道路又增加了荆棘, 但是中国人民打赢这场反贫困战役的决心和信心是坚定不移的。为了等来这场来 之不易的胜利,中国人民付出了一代又一代的努力。从新中国刚成立的初期到改 革开放之前,人民的生活重心一直在温饱问题上。改革开放之后,经济得到复苏, GDP 产值逐步提升,政府的扶贫政策不断放宽,扶贫的精确度逐渐细致。随着互 联网科学技术的迅速发展,利用信息化手段动态扶贫也成为了一种潮流。各大扶 贫相关系统日渐增多,如省级扶贫地理信息系统(吴学伟,2004)、区块链精准 扶贫系统(林钞,2018)、海南省精准扶贫大数据管理平台、"地理信息"+精 准扶贫管理系统(潘宸 等,2019)、西宁市精准扶贫信息管理系统、甘谷县精 准扶贫系统(何永刚,2017)、西双版纳州精准扶贫管理系统、山东省滨州市大 数据+扶贫信息系统等等。各个系统依据当地的实际情况和扶贫记录需求进行系 统的开发和设计,本系统的开发也参照辽宁省某区的实际情况进行设计实现,并 且能够对贫困家庭进行智能识别贫困等级。

  1.2.2 贫困分类预测的研究现状

  人类社会不断进步,科技高速发展,但是贫困问题的解决仍是一大难题,各 国政府实施了各种法案来帮助贫困人群脱贫。那么解决该问题的前提是如何把贫 困人口提取出来,只有知道了谁是贫困人口,才能对症下药,缓解贫困。目前世 界各地也在积极运用科学手段研究贫困问题,大部分学者或政府把各地划分的贫 困线作为依据来继续深入研究,在寻求的参考文献和相关资料中很多都是从经济 学或政治学的视野来探讨该问题,利用计算机科学技术手段进行扶贫的文献较 少。近些年来,在"互联网+"大背景的烘托下,贫困问题的研究开始陆续借助 计算机的优势进行,贫困分类预测的研究以数据挖掘方式进行,借助机器学习的 方法预测家庭的贫困程度(胡蝶,2019),帮助政府更好的辨识贫困人口,该科 技手段的使用在一定程度上起到了积极作用。 贫困是一个复杂的社会现象,已经成为世界范围内的一个大问题,当衣食住 行教育等方面无法满足一个人最基本的生活需求时,他可能陷入了贫困。国外很 多学者对于贫困分类的研究大多基于机器学习算法来预测贫困线以上或以下家 庭。Sarwosri 等(2016)提出 K-均值聚类法评估贫困等级;B.Yu 等(2015)利用 NPP-VIIRS 数据采用线性回归模型讨论了 ALI 值和 IPI 值的关系进而进行贫 困分类;Jean N 等(2016)通过训练卷积神经网络结合高分辨率卫星图像来实现 贫困户识别;Janelyn A. Talingdan(2019)采用朴素贝叶斯、KNN、决策树、Logistic 回归和 ID3 五种算法对贫困户和非贫困户进行预测,最后使用 Naive Bayes 分类 器得出了分类效果不错的模型。这些学术文献的研究为后续学者继续深入探讨该 问题提供了非常有效的思路。 国内学者最初开始进行贫困分类预测是从高校贫困生积累的数据开始进行 分析,例如谢成枫(2011)将收集到的数据使用累计 logistic 回归方法把贫困结 果分为不贫困、较为贫困、一般贫困、特别贫困四类;陆桂明等(2019)使用 XGBoost 模型来预测贫困生的分类。

  近年来利用数据挖掘方法对贫困人群进行分 类的文献开始增多。李雪(2008)提出了多层次模糊系统方法进行贫困分类;徐 姝婧等(2019)提出了基于神经网络模型的方法实现贫困分类;崔璐等(2019) 提出了使用有序多分类回归模型进行贫困户贫困程度识别的方法。这些文献提出 的方法可以有效的解决传统扶贫方式中存在的漏报,错报,伪报等现象,但是也 存在一定问题,回归分析法虽然考虑到了因素间的相互依赖和相互影响关系,但 是实验次数过于冗繁,模糊系统方法在指标集较大时,会出现超模糊现象,无法 区分隶属度,神经网络虽然具有高度自学和自适应能力,但是它黑匣子的性质使 得结果的可解释性不强,不利于后续的扶贫分析,所以本文提出了一种基于 REAHCOR-GBDT 的贫困等级评价模型,可以很好的结合当地实际数据进行贫困 人口的分类识别。

  1.3 论文研究的主要内容

  本文旨在实现精准扶贫数据分析系统,该系统可对收集到的农村家庭信息数 据进行录入,维护,查询以及统计工作,并以实验室项目"精准扶贫数据分析系 统"所得数据经过预处理,特征选择,模型构建等采用数据挖掘方法进行分类预 测家庭贫困等级,做到精准识别而后才能精准施策,减少识别贫困人口中出现的 消极人为干预现象,努力做到"扶真贫"、"真扶贫".为了实现此家庭信息电子化 归档管理以及精准识别贫困人口的数据分析系统,本论文主要研究了以下几个方 面:

  (1)首先明确系统开发用途,并对精准扶贫相关工作的流程进行了解,分析与其相关的各类工作,完善系统的功能性需求和非功能性需求,为设计出适合 客户使用的友好系统做铺垫。

  (2)精准扶贫工作关键之首在于精准识别,所以本论文深入研究了贫困分 类算法模型,将它应用于精准扶贫数据分析系统之中。首先通过文献阅读,书籍 资料阅读,广泛了解之前学者在分类预测方面的研究成果,对于一些经典的分类 评价模型进一步探讨,掌握其算法原理,了解其适合应用的场景以及该算法的优 缺点。然后学习近几年比较火热的集成学习算法,尽可能全面的熟悉相关算法, 并对可能用于贫困等级评价模型中的算法再进一步分析研究。最后结合本系统的 真实背景,考虑算法的适用性,提出一种基于 REAHCOR 特征选择和 GBDT 的 贫困等级评价模型算法,经实验验证,其稳定性好,灵活性强,分类结果准确率 高。

  (3)本论文需要将上述得到的贫困等级评价模型应用在精准扶贫数据分析 系统之中,在考虑到适用的系统架构之外还要设计分类预测常用的一些功能模 块。另外对于系统的承载力,高扩展性,高响应以及数据安全性之数据的读写分 离等方面进行研究和应用。

  (4)根据需求,对精准扶贫数据分析系统进行详细设计和整体架构设计, 用户接口设计及其他核心类设计,同时对数据库的设计也不能缺少。在实现该系 统后,使用不同身份的登录人进行系统测试,对系统功能的实现,系统运行状况, 服务器抗压能力以及安全性进行检验。

  1.4 论文的组织结构

  本论文将基于 REAHCOR 特征选择和 GBDT 的贫困等级评价模型算法与扶 贫管理系统相结合,实现精准扶贫数据分析系统。该系统可以通过数据分析实现 贫困人口的智能识别以及扶贫流程的电子化归档管理。包括调查问卷表单的录 入,村基本信息以及村所属村民信息,贫困户的管理,扶贫责任人的日常工作流 程等,使政府更快速方便地掌握农村经济现状、农民生活状态,以及扶贫状态, 同时依靠数据说话也减少了"扶亲不扶贫",漏报,错报贫困名单等现象的发生。 本论文总共分六章进行论述:

  第一章:绪论。作为论文的首章,本部分介绍了精准扶贫数据分析系统的项 目背景,重点介绍了项目意义,深入研究了有关扶贫信息管理的国内外发展现状以及贫困分类预测的研究现状,并简明扼要的介绍了本文主要研究哪些内容,做 了哪些工作。

  第二章:相关知识及技术。本章主要介绍了精准扶贫数据分析系统用到了哪 些关键技术点,一一对这些技术点进行介绍。首先对数据挖掘技术进行了简单概 述,然后对扶贫系统中用到的分类预测技术相关知识进行详细论述,最后对本系 统在开发过程中所需的平台进行了介绍。

  第三章:精准扶贫数据分析系统的需求与分析。介绍了项目背景和项目有哪 些需求,把功能性需求和非功能性需求都考虑在内,明确开发目标的同时分析该 项目实施的可行性,从整体上进行宏观把控。

  第四章:贫困等级评价模型算法研究。本章介绍了利用该系统收集到的农村 数据,进行相关的数据分析,将原始数据进行数据预处理操作,并对常用的特征 选择算法进行研究,最后经过多方实验后,最终确定了一种基于 REAHCOR 算 法的新型特征选择算法用到贫困等级评价模型的研究中。该模型的研究经过多个 模型对比实验,最终选择出最优的一种模型使用到精准扶贫数据分析系统中。

  第五章:精准扶贫数据分析系统的设计与实现。在前面章节需求分析的确定 和贫困分类模型算法优化的基础上,本章节对系统进行了设计开发和实现,包括 对系统的总体设计,功能模块的详细设计以及数据库的设计。将系统使用 Java 进行实现之后,对系统进行整体上功能页面测试,稳定性和可靠性测试。

  第六章:总结与展望。对整篇论文进行总体性分析,完成了哪些工作,另外 还需要完善的地方有哪些,并对精准扶贫数据分析系统做进一步开发构想和展 望。

  1.5 本章小结

  本章主要介绍了精准扶贫数据分析系统研究的背景和意义,对于国内外的研 究状况也进行了深入分析,包括扶贫管理和贫困分类方面的学术文献研究,很好 的对项目开发做好前提准备,同时对论文主要的研究内容、需求目标和整体文档 结构做了介绍,明确的阐述了论文的研究方向,为下文做铺垫。







  第2章相关知识及技术
  2.1数据挖掘技术
  2.1.1数据挖掘简介
  2.1.2数据挖掘的发 展现状
  2.1.3数据挖掘的主要分析方法 与功能
  2.2分类预测技术
  2.2.1分类的基本概念和过程
  2.2.2常用的分类算法-
  2.3 JavaEE平台的相关技术
  2.3. 1 JavaEE 体系结构
  2.3.2 B/S 架构
  2.3.3 SSM 系统架构
  2.4本章小结

  第3章精准扶贫数据分析系统的需求与分析
  3.1项目背景以及需求目标
  3.2功能性需求
  3.2.1用户功能需求
  3.2.2系统功能需求
  3.3非功能性需求
  3.4可行性分析
  3.4.1技术可行性
  3.4.2经济可行性
  3.4.3开发环境可行性
  3.5本章小结

  第4章贫困等级评价模型算法研究
  4.1 数据预处理方法
  4.2特征选择算法
  4.2.1常用特征选择算法
  4.2.2 REAHCOR 算法研究
  4.3随机森林算法的研究---_
  4.4 GBDT 算法的研究
  4.5模型预测
  4.6评价标准
  4.7实验分析
  4.8本章小结

  第5章精准扶贫数据分析系统的设计与实
  5.1精准扶贫数据分析系统的设计
  5.1.1 系统总体设计
  5.1.2系统功能模块详 细设计+
  5.1.3 数据库设计
  5.2精准扶贫 数据分析系统的实现与测试
  5.2.1系统实现
  5.2.2系统测试
  5.3 本章小结

第 6 章 总结与展望

  6.1 论文总结

  在我国,20 世纪 50 年代末,计算机的出现和普及,促使社会对信息数据的 接触和获取变得频繁。随着社会的进步,信息数据几何式增长。信息化时代随之 而来,促使我们在浩如烟海的数据中大显身手。数据挖掘技术的流行热度便反映 了这一点。本论文就是利用数据挖掘技术建立模型进行相关需求的开发。开发内 容为精准扶贫方面。提到精准扶贫,这一思想是中国在反贫困斗争中独出心栽的 一笔。脱贫攻坚战的号角声已经吹起,脱贫攻坚战役到达最关键的时刻,本论文 研究的系统为脱贫工作的开展增添了助推剂。虽说 2020 年的到来,离我们实现 现行标准下农村贫困人口全部脱贫、贫困县全部脱去贫困帽的日子越来越近,不 过扶贫工作依然在有序进行,防止非贫困人员再次返贫等依旧是反贫困事业过程 中不可忽略的点。本论文开发的系统可以记录农户信息,村镇信息以及将获得的 数据进行数据挖掘,分析其应用价值。另外,通过贫困等级评价模型可以进行贫 困预测,能够及时地对农户进行定位,清晰的得出脱贫人员是否再次返贫的信息, 在政策上不仅积极的落实了十九大精神,更是响应了辽宁省精准扶贫政策,它为 政府部门等相关人员了解农民生活现状,分析农村特点,精准识别贫困人群等提 供了便捷的渠道,有助于政府部门开展工作,提高扶贫准确度,提升农民幸福感。 为此,本论文主要作了以下工作:

  (1)首先,为了更加清晰明确的把握好精准扶贫数据分析系统研究的方向, 本论文的开始篇章便对系统的研究背景和研究意义进行阐述,该系统的开发可以 更好的辅助扶贫团队进行精准识别贫困户,精准帮扶贫困人群,提高了扶贫工作 的效率和响应政策号召。接着对国内外的研究现状进行分析,包括精准扶贫信息 管理的发展现状以及贫困分类预测的研究现状,更全面的对项目进行解析,加深 对贫困有关内容的了解,有助于后续章节的进行。

  (2)为了更好的实现精准扶贫数据分析系统,在前期做了大量工作。比较 重要的研究内容就是对实现系统所需的相关技术进行深入研究,透彻掌握。本论 文的特色之处在于建立了贫困等级评价模型,它是通过前期采集到的农户信息数据并基于数据挖掘技术完成的。所以本论文对数据挖掘技术进行了简单介绍,通 过阅读大量文献,总结了数据挖掘目前的发展现状,并对数据挖掘技术采用的主 要分析方法进行了研究。本文的贫困等级评价模型被定性为分类模型,故本论文 针对常用的分类算法进行了深入学习和研究,并掌握其原理和使用方法。另外, 本实验项目使用的 Web 系统基于 JavaEE 平台进行开发,文中对 JavaEE 平台的 系统结构进行了整体的研究学习,并结合本系统的需求对 B/S 架构和 SSM 系统 框架进行了相关阐述。为精准扶贫数据分析系统的顺利开展做好前提准备。

  (3)本系统项目开始前,需要对项目进行需求分析。所以本论文又对项目 背景以及需求目标做了清晰阐述,针对系统的功能性需求和非功能性需求做了说 明,并对系统进行了可行性分析。

  (4)接下来,对贫困等级评价模型算法进行了详细论述,从数据准备,特 征选择,到模型构建,模型完成这几个方面开展。数据预处理能够使数据质量得 到一定程度的提高,所以做好预处理工作不可缺少。本论文在对数据预处理方法 进行介绍后,又研究了特征选择算法。虽说常用的特征选择算法有很多,但是都 有一定范围的适用性,结合本系统提供的数据,以及在前人研究的基础上,本文 提出了一种新型 REAHCOR 特征选择算法,非常适合于贫困数据研究。对于该 算法的详细介绍已经在论文中给出。在分类器选择上,本论文又对随机森林算法 和 GBDT 算法进行了研究,最后通过实验分析给出最终模型,此过程在论文中 进行了说明。

  (5)最后就是对系统的实现,通过前面章节的需求描述和可行性分析之后, 大胆的开始进行项目建设。系统从普通用户和系统管理员用户的角色出发,一一 实现相应功能。最后对整个系统进行测试,验证了系统的可靠性和实用性并证实 了贫困等级评价模型准确率高,泛化能力强,模型运行稳定的优点。

  6.2 展望

  本章本系统已经完成,并满足了精准扶贫数据分析系统的现阶段需求,但是 还存在一些方面的不足有待提高。

  (1)本系统只是实现了农户信息和扶贫信息的管理以及对所采集到的数据 进行贫困分类预测等功能,虽然能很好的满足现阶段的工作要求,但是还有很大 的扩展空间。比如利用前期积累的数据继续进行数据分析,不仅对贫困户数据分析,也可以对当地居民进行数据分析,比如用户画像建设,老龄化预测建设等, 使平台的可利用空间变大。

  (2)本系统目前只存在网页版,通过 PC 端或手机端浏览器进行访问。后 续本系统可以专门在 Android 和 ios 上进行 APP 的开发,实现随时随地信息查询 和使用。

  (3)在模型建立时,数据源的获取规模不够宏大,后续可以采集整个省, 多个省乃至全国的数据进行分析,此时一定会存在更多的影响因素,到时可以一 并纳入训练体系中。

  (4)当加入的数据量增多时,系统的信息安全也成为了一个难点。在今后 的研究中应向此方向倾斜。 2020 年是一个让人痛为记忆的一年,新型冠状病毒的来袭让中国及世界各 地加入了新型冠状病毒疫情防控的保卫战,医护人员舍生取义,逆向而行为我们 守护着家园。

  在此,向奋斗一线的广大医护人员道生诚挚的感谢:"您们辛苦了! 感谢有您!"伴随着疫情的发展,各地延迟复工复课的趋势却极大地刺激了科技 的进步,异地网络办公,智能对话,网上教育,在线签约等迅猛发展,网络平台 可能面临上百万人同时访问,多人实时通话更要保证网速质量等问题,这些现实 的社会现象是利用科技之便时不可忽略地,相信未来的科学技术会越来越强,一 些棘手问题比如网络信息安全等都会被解决,本论文提及的不足之处在不久的将 来也将得到完善。

  参考文献
  曹正凤。 随机森林算法优化研究[D].首都经济贸易大学,2014.
  陈逸杰。 数据挖掘技术在征信数据中的应用研究[D].南京邮电大学,2019.
  崔璐,岳书铭。基于有序多分类回归模型的贫困户贫困程度影响因素分析[J].农村经济与科 技,2019,30(05):143-146.
  丁雪梅,王汉军,王炤光,周心圆。基于改进 ReliefF 的无监督特征选择方法[J].计算机系统应 用,2018,27(03):149-155.
  杜鸿飞。 精准扶贫数据管理平台的设计与实现[D].电子科技大学,2018.
  顾小丽。"人工智能+"贫困生精准识别工作探析[J].科技创新与生产力,2019(09):44-46+49.
  何永刚。基于地理信息的甘谷县精准扶贫系统设计与实现[J].矿山测量,2017,45(03):42-44.
  胡蝶。 基于机器学习的贫困等级分类[D].华中师范大学,2019.
  胡昕韵。 数据挖掘算法的改进研究[D].安徽大学,2019.
  康建伟。 基于灰色模型的农民工资性收入预测[J].大众科技,2015,17(04):135-136+141.
  李雪, 刘洋, 叶伟铭。 基于多层次模糊系统的贫困等级认定模型。中国新技术新产品, 2008, (11): 99-101.
  林钞。 基于区块链的精准扶贫系统的研究与实现[D].西安电子科技大学,2018.
  李 叶 紫 , 周 怡 璐 , 王 振 友 . 基 于 互 信 息 的 组 合 特 征 选 择 算 法 [J]. 计 算 机 系 统 应 用,2017,26(08):173-179.
  李娜娜。 中国农村多维贫困研究[D].山西财经大学,2012.
  陆 桂 明 , 张 源 , 周 志 敏 . 基 于 机 器 学 习 的 贫 困 生 分 类 预 测 研 究 [J]. 计 算 机 应 用 与 软 件,2019,36(01):316-319.
  毛莹。 基于医疗信息系统的数据挖掘算法研究[D].内蒙古科技大学,2019. 牟舜禹。 基于 Spring 框架的客服系统的设计与实现[D].北京交通大学,2019.
  潘 宸 , 严 瑞 , 仇 海 亮 . " 地 理 信 息 + " 精 准 扶 贫 管 理 系 统 的 设 计 与 实 现 [J]. 工 程 勘 察,2019,47(03):47-50+71.
  任江涛,黄焕宇,孙婧昊,印鉴。基于相关性分析及遗传算法的高维数据特征选择[J].计算机应 用,2006(06):1403-1405.
  陶 常 勇 , 高 彦 钊 , 王 元 磊 , 张 兴 明 . 人 工 神 经 网 络 加 速 方 法 综 述 与 研 究 [J]. 天 津 科 技,2019,46(S1):28-30.
  魏仕轩,王未央。SVM 和集成学习算法的改进和实现。计算机系统应用,2015,24(7):117-121.
  吴学伟。省级扶贫地理信息系统的设计与实现[J].测绘通报,2004(06):53-55.
  谢成枫。 贫困生数据的累积 logistic 回归分类[D].东北师范大学,2011.
  熊肖磊,王春伟,赵炯,周奇才。基于 Redis 与 SSM 的大型设备数据运用系统设计[J].现代机 械,2018(06):29-34.
  徐姝婧,陆一啸,徐嘉瑞。基于机器学习的贫困户识别指标体系模型研究[J].上海立信会计金融 学院学报,2019(04):108-120.
  杨秀港。数据挖掘算法综述[J].科技经济导刊,2019,27(05):166.
  杨 剑 锋 , 乔 佩 蕊 , 李 永 梅 , 王 宁 . 机 器 学 习 分 类 问 题 及 算 法 研 究 综 述 [J]. 统 计 与 决 策,2019,35(06):36-40.
  虞成斌。 基于 B/S 架构的计量仪器检测管理系统的设计与实现[D].浙江工业大学,2019.
  张平。 基于过滤法的信息论特征选择算法研究[D].吉林大学,2018.
  张尧。 基于互信息的特征选择方法研究[D].西安理工大学,2019. A logical calculus of the ideas immanent in nervous activity[J].
  Warren S. McCulloch,Walter Pitts. The Bulletin of Mathematical Biophysics . 1943 (4)。 B. Yu, K. Shi, Y. Hu, C. Huang, Z. Chen and J.
  Wu. Poverty Evaluation Using NPP-VIIRS Nighttime Light Composite Data at the County Level in China.
  IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(3): 1-13. Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S.
  Combining satellite imagery and machine learning to predict poverty. Science, 2016, 353(6301): 790-794. Kochetov Vadim. Overview of different approaches to solving problems of Data Mining[J].
  Procedia Computer Science,2018,123. Mark A. Hall.Correlation-based Feature Selection for Discrete and Numeric Class Machine Learning[J],2000: 359-366.
  Sarwosri, D. Sunaryono, R. J. Akbar and R. D. Setiyawan. Poverty classification using Analytic Hierarchy Process and k-means clustering. 2016 International Conference on Information & Communication Technology and Systems (ICTS)。
  Surabaya: IEEE. 2016. 266-269. Talingdan, J. A. Performance Comparison of Different Classification Algorithms for Household.
  Poverty Classification. 2019 4th International Conference on Information Systems Engineering (ICISE)。 2019.
  Yu L, Liu H. Eficient Feature Selection Via Analysis of Relevance and Redundancy[J]. Journal of Machine Learning Research, 2004, 5(12):1205-1224.

致 谢

  时光如白驹过隙,三年的研究生学习生涯即将结束。三年前的备研过程仍历 历在目,正是由于日复一日的努力与坚持,我最终敲开了研究生的大门,能够在 学业上更进一步。对于取得的成绩,我相信所有的付出都是值得的。回顾这三年 的研究生生活,有喜悦,有彷徨,也有过挫折,但最重要的还是收获。无论是专 业技术,还是生活感悟,自己都学到很多,相比大学时代,自己前进了一大步, 我相信这三年的积淀将使我终生受益。 研一有幸在中国科学院大学雁栖湖校区学习和生活一年,优美的校园环境, 浓厚的学习氛围,强大的师资力量,多彩的校园生活,都给研究生生涯留下了浓 墨重彩的一笔。国科大为学生提供的高平台让大家有了更多进步的空间,比如举 办各个领域专家学者的讲座,开阔了视野,拓展了知识面,让我获益匪浅。研二 和研三回到沈阳计算所度过了两年充实的科研生活,静下心专心于科研,专业能 力得到不断提高。感谢国科大和研究所提供良好的学习环境,让我收获颇丰,顺 利完成研究生学业,并在此基础上开启人生新篇章。 感谢我的导师孙咏老师,孙咏老师不仅在学术领域上指引我前进,同时也教 会了我如何去思考问题,解决问题。孙咏老师负责、认真、严谨的科研态度深深 影响着我,在我硕士论文撰写的过程中给予了很多帮助,感谢孙老师的悉心指导。

  感谢我的二导师高岑老师,高岑老师非常的友善和有耐心,从开题准备、中 期答辩一直到现在,高老师每次都会对我们提交的材料认真审阅并提出修改意 见,帮助我们顺利度过一个又一个门槛。在我的小论文书写过程中,她给我提供 了参考方向,提出了一些事先并没有考虑到的问题,并为我解答疑惑,感谢高老 师的帮助。 感谢系统集成实验室的王美吉老师,王老师待人和蔼,乐于助人。远离家乡 的我来到东北上学,在这里感受到了王老师带来的温暖,她善解人意,给我们提 出人生建议,帮助我们更好发展,让我们少走弯路,感谢王老师。 感谢丁老师、宁老师、王老师、罗老师以及研究生部其他老师,您们处处为 学生着想,尽力解决学生在学习或者生活上遇到的问题,为我们营造了一个良好的学习生活氛围,感谢您们在学业上认真负责的指导以及生活中细致的关心。

  感谢研究生期间的每一位同学们,我们有着共同的经历,在参与科研生活的 同时也积极参与学校提供的精彩校园活动,比如篮球比赛,129 大合唱等,让我 们结下了深深的友谊。特别感谢我的室友,一路走来她们陪伴我成长,我们一起 欢笑,一起奋斗,青春的日子里感谢有你们的参与。 感谢我的父母,感谢你们一直以来对我的关怀、教育与支持。父母在我人生 的每个重要阶段,都会理解并坚定地支持我的决定。在我整个的学习生涯中,你 们一直在默默地支持与付出,无论是遭遇挫折时的鼓励与开导,还是取得成绩时 由衷的喜悦与赞赏,你们一直都是我最坚强的后盾,我的人生因你们而精彩。 同时也要感谢参与我论文评审的各位评委老师,感谢您们的认真审阅,您们 的意见是对我研究工作的最好的肯定与帮助。 最后衷心祝愿各位老师、同学,身体健康,工作顺利、万事如意。

(如您需要查看本篇毕业设计全文,请您联系客服索取)

相关内容
好优论文定制中心主要为您提供代做毕业设计及各专业毕业论文写作辅导服务。 网站地图
所有论文、资料均源于网上的共享资源以及一些期刊杂志,所有论文仅免费供网友间相互学习交流之用,请特别注意勿做其他非法用途。
如有侵犯您的版权或其他有损您利益的行为,请联系指出,论文定制中心会立即进行改正或删除有关内容!