首页
会员中心
到顶部
到尾部
Java毕业设计

基于Java的网络爬虫实时新闻监测分析系统毕业论文+任务书+翻译及原文+设计源码及数据库+辅导视频

时间:2020/10/13 14:54:38  作者:  来源:  查看:0  评论:0
内容摘要: 基于Java的网络爬虫实时新闻监测分析系统摘  要自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。利...

基于Java的网络爬虫实时新闻监测分析系统

摘  要

自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。

利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,并利用中文分词算法和中文相似度分析算法进行一些归纳整理,得出相关的新闻发展趋势,体现网络新闻数据的挖掘价值。

如果商业公司能选取其中与自身相关的新闻进行分析,则可以得到许多意想不到的收获,例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网络新闻负面效应,动用公关力量,及时修正错误,平息负面新闻,这对当今的企业来说价值是巨大的。

关键词:网络爬虫;网络新闻;数据挖掘


Netnews Analysis Based On Web Spider Technology

Abstract

Since the concept of the big data is put forword, data on the Internet became more and more scientific research units for the object of data mining. Netnews data occupies half of Internet data, compared with traditional media, it has spread rapidly, short exposure time and contains the related characteristics of public opinion.

The related web spider technology and algorithm, to realize the Netnews automatic data collection and structured storage, and summarizes some finishing, draw related news development, reflect the value of Netnews data mining, is the main purpose of this paper.

If a business can choose news which related to their own and to do some professional analysis, they can get many unexpected gains, for example, if there is someone behind deliberately smear, or a competitors. First to master relevant negative effects of Netnews, the use of public power, timely and correct mistakes, to calm the negative news, which is the value of today’s enterprise is enormous.

Key words: web spider; Netnews; data mining


目  录

1  绪论1

1.1论文研究背景与意义1

1.2 论文研究内容2

2  系统需求分析4

2.1 系统需求概述4

2.2 系统需求分析4

2.2.1 系统功能要求4

2.2.2 系统IPO图5

2.2 系统非功能性需求分析5

3系统概要设计7

3.1 设计约束7

3.1.1需求约束7

3.1.2设计策略7

3.1.3 技术实现8

3.3 模块结构8

3.3.1 模块结构图8

3.3.2 系统层次图10

3.3.3 面向对象设计UML图10

4 系统详细设计13

4.1 系统模块设计13

4.1.1 数据采集模块13

4.1.2中文分词模块18

4.1.3相似度匹配模块22

4.1.4数据展示模块25

4.2系统异常处理29

4.2.1爬虫异常总体概况29

4.2.2爬虫访问网页被拒绝29

5 软件测试32

5.1 白盒测试32

5.1.1 爬虫系统测试结果32

5.1.2 中文分词系统测试结果33

5.1.3 中文文章相似度匹配系统测试结果34

5.1.4 相似新闻趋势展示系统测试结果36

5.2黑盒测试37

5.2.1 爬虫系统测试结果37

5.2.2 中文文章相似度匹配系统测试结果37

5.2.3 相似新闻趋势展示系统测试结果38

6  结  论40

参考文献42

致  谢43

外文资料44

中文翻译48

基于Java的网络爬虫实时新闻监测分析系统毕业论文+任务书+翻译及原文+设计源码及数据库+辅导视频
基于Java的网络爬虫实时新闻监测分析系统毕业论文+任务书+翻译及原文+设计源码及数据库+辅导视频
基于Java的网络爬虫实时新闻监测分析系统毕业论文+任务书+翻译及原文+设计源码及数据库+辅导视频
基于Java的网络爬虫实时新闻监测分析系统毕业论文+任务书+翻译及原文+设计源码及数据库+辅导视频
基于Java的网络爬虫实时新闻监测分析系统毕业论文+任务书+翻译及原文+设计源码及数据库+辅导视频
基于Java的网络爬虫实时新闻监测分析系统毕业论文+任务书+翻译及原文+设计源码及数据库+辅导视频
基于Java的网络爬虫实时新闻监测分析系统毕业论文+任务书+翻译及原文+设计源码及数据库+辅导视频

  


相关评论
Java毕业设计
    本类推荐
      广告联系QQ:45157718 点击这里给我发消息 电话:13516821613 杭州余杭东港路118号雷恩国际科技创新园  网站技术支持:黄菊华互联网工作室 浙ICP备06056032号