摘 要
互联网是一个自由、开放的空间,任何人都可以自由进入,各种社会群体、文化类型、价值观念、利益诉求、生活准则都在网络中有着各自的位置,这样的多元化与兼容并蓄,使得互联网内容非常庞大,海量数据充斥其间。然而,这海量数据之中,有积极的,也有消极的,有合法的,也有非法的,鱼龙混杂,加之接受这些信息的网友,通过论坛、博客、微博、微信、新闻跟贴、转贴等网络媒体发表言论,形成有着浓郁互联网特色的网络舆情。
网络舆情是互联网发展到一定阶段的产物,是通过互联网表达和传播的,它们的传播速度和范围,要远远超过传统纸质媒体形态,影响力很广,时间也更为持久,通过复制、转发形成链式效应,有时候一个小小的事件,就能引爆整个互联网。网络的开放性造就了它的复杂性,针对网络媒体,我们缺乏类似传统媒体那样严格的管理机制,实际中的网络舆论也是各种言论混杂其间,不容易分辨真伪,给人以可乘之机,也容易引发社会的不稳定因素,网络舆情的重要性毋庸讳言。如果仍然采用传统的方式对舆情进行监管分析,那是难以想象的,有鉴于此,网络舆情监控技术应运而生。
本文对当前我国网络舆情监管的现状进行了简要论述与分析,对国内外研究方法进行了介绍,并分析列举了传统舆情监管的不足之处,并提出系列改进方案。
即建设舆情监管系统,通过建立本地网络媒体数据库,利用计算机快速高效的特点,在相关关键词算法方面进行大胆创新,设计合适的中文分词算法,充分利用聚类算法和分类算法,提取最有代表性的关键词,通过关键词进行综合判断,以进行快速分类处理。处理定时轮询、抓取、分析所在地媒体发表的热点文章、最新文章,通过内容分析提炼,进行关键词筛选比对,定位违规文章,存档并及时报警。从而实现网络舆情监管的高自动化、高扩展性。系统在小范围内试用反响良好,有一定的可借鉴性。
社会舆情关系到国家安全与社会稳定。互联网并没有无限制的自由,对网络舆情有必要进行有效的监管。摒弃假恶丑,弘扬真善美,不仅需要全社会的共同努力,还需要技术上的大力支持,更需要广大社会民众的积极参与。“共筑诚信,清朗网络”是责任更是义务。在通过技术进行网络舆情监管的同时,也呼吁广大民众从自身做起,共同打造清朗网络。
关键词:PHP;算法;网络;舆情监管;信息系统
Abstract
The Internet is a free and open space that anyone can freely enter. All kinds of social groups, cultures, values, interests, and living standards can find their own position in the network. The inclusive and equitable feature makes the Internet content in huge number andflooded with massive data. However, among the huge amounts of data, there are positive and negative, legal and illegal data.In addition, Internet users accept the information, and express their comments through the forum, blog, micro-blog, WeChat, news comments, forwarded comments to form a network of public opinions with strong characteristics of internet.
Network public opinion is the product of a certain developmental stage of the Internet. It achieves the purpose of expression and communication through Internet. Its speed and scope of propagation are far exceedly than the traditional paper media forms. The influence is very wide, and the time is more durable. Through copying, and forming a chain effect by forward, a small event can detonate the entire internet.The openness of the network leads to its complexity. In the view of network media, we lack a strict management system that traditional media have. In fact, there are various comments and speeches in the network of public opinion and it is difficult to tell the right from wrong. Consequently, it will create some unstable elements to the society. Thus, the network of public opinion is undoubted important. If we continue to adopt the traditional means to supervise and analyze public opinion, the result can be unthinkable. Under this situation, the monitoring technology of network public opinion appears.
This paper briefly discusses and analyzes the current status of network public opinion supervision in our country andintroduces the domestic and foreign research methods. Also it analyzes the inadequacies of traditional public opinion supervision and proposes a series of improvements. The construction of public opinion supervision system establisheson the local network media database. It utilizes the high speed and efficient character of computer to make bold innovations in the relevant keywords algorithm, and designs the suitable Chinese segmentation algorithm, especially using the clustering algorithm and classification algorithm, to extract the most representative keywords. Through the comprehensive judgment of the keywords, it can achievea rapid classification. Meanwhile, it make the network public opinion supervision in high- automation and high -scalability by processing regular polling, collecting and analyzing the popular and latest articles, extracting and analyzing the contents, selecting and comparing the key words, position the illegal articles, achieving and alerting in time. Now the system is tested in a small scope and has received good response.
The social public opinion is closely related to national security and social stability. The Internet does not have unlimited freedom, and it is necessary to supervise the public opinion on the network effectively. To abandon the evil sideand promote the good and beautiful side in life, we need the joint efforts of the whole society, the vigorous support of technology and the active participation of social public. Building credibility and cleaning network" is the compulsoryresponsibility but also the obligation. It is important to conduct network supervision of public opinion through the technology and also appeal to the public to create a clean network space.
Key words:PHP; algorithm; network; public opinion supervision; IMS
随着近几年国家的扶持和技术的进步,国内互联网的发展可谓突飞猛进,尤其是以智能手机为代表的移动互联网从无到有,已经每时每刻都在影响着我们的工作生活。人们已经脱离了老式台式机的传统有线上网模式,移动设备已经成为互联网载体中一颗耀眼明星,人们可以通过移动设备拍摄周围发生的事情,并直接上传到互联网中,短短几个小时,就可以传播到世界任何地方。而随着“互联网+”概念的提出和国家“大众创业万众创新”战略的推进,以各类自媒体、直播平台为代表的新兴内容生产模式席卷网络,互联网目前正处于一个“百花齐放,百家争鸣”的局面。
公众网络舆情一定程度上能够最直接地反映我国社情民意,社会大众对公共事务有着怎样的意见和态度,网络舆情有着最直接的反映。它一定程度上反映了当前民众的意愿,如果有关部门没有引起足够的重视,处置轻率不当,就有可能将原本细小的事态放大,从而引发公众无意识的不良情绪,如果被别有用心的人加以利用,极有可能引发大型群体事件,让政府疲于应对,从而影响现实社会的稳定,最终酿成严重后果。
互联网每天生产出来的海量数据,良莠不齐,如果没有合理的监测与甄别,任由其自由出现在网络上,一些虚假的、反动的、煽动性的文字与视频,非常容易影响到广大群众的判断,没有正确的舆论导向,民众思想和行业就有可能向错误的方向迈进,从而导致危害到社会治安。如何从海量数据中进行挖掘、分析,实现对敏感信息及舆情热点话题的持续追踪,已经成为学界重要研究课题。
本文所研究的目的,就是为县区级有关部门建设一个可行的公众舆情监管系统解决方案,通过 PHP 相关技术,对县区级属地网站进行建档,建立关键词库,并不定时抓取网站关键页面,记录、分析和总结页面变化情况,建立一个网络蜘蛛模型,首次运行时通过递归和内部链接,爬行抓取网站所有页面,对页面内容进行关键词比对与分析,对触及关键词的页面进行深入智能分析,若的确存在违规行为的页面,系统将进行记录与自动提醒,并可通过引入第三方的形式,对整改期限内未处理的网站采取一定的措施等。
本文的研究思路,立足于县区级的舆情,通过建立关键词库,甄别属地网页的舆情和违规情况。对属地网站地址入档。在网络舆情监管系统中,相关算法非常重要,本文试图将算法应用到基于 Hadoop 的云计算平台中,采用垂直搜索引擎,进行网络舆情的抓取和分析工作,再通过智能聚合系统对抓取来的舆情进行内容分析,归类。
通过舆情监管系统,动态抓取网站页面,并对页面进行关键词比对分析,对疑似违规信息进行记录并上报,实时提醒网站管理人员。并对拒不改正的管理人员,通过接入第三方平台,对相应页面或网站进行特殊处理,以确立正确的舆论导向。
本文研究立足于打造健康、文明、和谐的网络环境,通过调查研究法、定性分析法和总结归纳法,从技术上对网站页面及网络舆情进行实时监控,以确保网络信息的安全。
舆情监管系统测试与实现:
某微博大 V 主页源代码
某门户网站文章页面代码
舆情监管系统工作流程图
垂直搜索引擎结构图
舆情监管系统分层示意图
舆情监控系统基本流程
网络舆情监管流程图
目 录
摘 要
Abstract
目录
第 1 章绪论
1.1 选题背景及研究意义
1.2 国内外研究现状
1.3 研究目的
1.4 采用的研究方法和创新点
第 2 章舆情监管系统需求分析
2.1 现有监管系统存在的问题
2.1.1 网络舆情监控公信力不高
2.1.2 网络舆情监控覆盖不全面
2.1.3 网络舆情工作部门对突发事件处置不当
2.2 如何解决网络舆情监控系统存在的问题
2.2.1 确立网络舆情工作制度
2.2.2 建立长期有效网络监控
2.2.3 做好舆情危机应对预案
2.3 开发环境及工具
2.3.1 PHP 编程语言
2.3.2 Apache 服务器
2.3.3 MYSQL 数据库
2.4 本章小结
第 3 章舆情监管系统功能与技术分析
3.1 舆情监管系统整体功能
3.2 舆情监管系统的分层
3.2.1 数据层
3.2.2 处理层
3.2.3 监管层
3.2.4 表现层
3.3 舆情信息检索设计思路
3.3.1 信息检索
3.3.2 关键词推荐
3.3.3 舆情监测与预警
3.4 本章小结
第 4 章舆情监管系统数据库与算法设计
4.1 数据库设计
4.2 相关技术及算法
4.2.1 基于 Hadoop 云计算平台
4.2.2 垂直搜索引擎
4.3 文本处理算法
4.1.1 中文分词算法
4.3.2 聚类算法
4.3.3 分类算法
4.4 舆情监管流程
4.5 本章小结
第 5 章舆情监管系统实现与测试
5.1 舆情监管系统实现
5.1.1 采集提炼目标数据
5.1.2 存储指定页面内容
5.1.3 监管报警系统实现
5.2 舆情监管系统测试
5.3 本章小结
总 结
参考文献
致 谢
(如您需要查看本篇毕业设计全文,请您联系客服索取)