一、 研究的现状及其意义 随着社会日新月异和互联网进入大数据时代,自媒体得到了迅猛的发展,人们获取新闻资讯的方式越来越多,接触和使用新闻信息的方式正在逐渐改变,受众从被动接受信息到按需主动搜索信息,而新闻的种类繁多杂乱,各类人需要的新闻也不尽相同,为此当前以今日头条为代表的各大媒体通过数据分析,数据挖掘等方式,在内容生产上做到精确定位用户需求,着力打造消费痛点等特点。因此,开发一款新闻定制推送系统有助于为人们提供更为优质的新闻信息推送服务,人们完全可以根据自己的喜好定制报纸和杂志,随着人们使用时间的增长,可以做到“机器越来越懂你”。 二、 研究目标、研究内容和拟解决的关键问题 (一) 研究目标 该课题研究的目标是使用Python+MySQL+HTML5技术实现一个新闻定制推送系统,并将此系统部署在云服务上实现数据的爬取和保存,用户登录可根据过往行为进行定制推送。 (二) 研究内容 1. 新闻图文的分类,定义好数据的维度。 2. 数据的爬取。 3. 用户行为的分类。 4. 定制化的推送。 (三) 拟解决的关键问题 1. 用python爬虫程序爬取网上新闻。 2. 后台与前端的互动。 3. 对新闻数据进行整理。 4. 利用knn算法进行相似度的推荐。 5. 定制化推送,用cross validate进行交叉验证。 |
三、 研究的基本思路和方法、技术路线、实验方案及可行性分析 (一) 基本思路和方法 1. 数据库的建立 确定模块与模块之间的关系,遵循数据库设计的原则,设计好数据库表、字段,并且要方便后期的维护。 2. 系统框架的搭建 在系统中搭建Python环境,下载PyCharm 集成开发工具,配置服务器,为服务器设计后台系统以方便管理。 3. 网页前端的设计 通过HTML5及相关技术设计新闻定制系统的页面,进行排版,优化页面显示,提高阅读质量。 4. 系统各大功能模块的开发 本系统的主要实现功能模块包括: 1) 实现后台管理权限验证模块。 2) 实现新闻图文分类模块。 3) 实现新闻爬取模块。 4) 实现用户行为分析模块。 5) 实现搜索功能模块。 (二) 技术路线 1) 操作系统:Windows 10、Ubuntu16.04 2) 系统开发IDE:PyCharm、Sublime Text 3) 系统开发语言:Python(flask框架) 4) 数据库:MySQL 5) Web服务器:Python搭建 6) 通讯协议:HTTP、WebSocket (三) 实验方案 1. 后台管理权限验证模块实现方案 此模块关系到系统整体的安全性,首先在数据的储存和交互上,对数据表密码字段、Cookie、Session等信息要加密处理,并且需要过滤用户输入,防止SQL注入等漏洞。其次要对后台主要功能模块的入口作权限验证。 2. 新闻图文分类模块实现方案 用HTML5实现新闻菜单分类,可以自主添加想要的新闻分类自菜单,设计新闻显示div模板,使每条新闻排列齐整显示。 3. 实现新闻爬取模块 通过Python爬虫对新闻进行爬取,将新闻存储到Mysql数据库中或存储到服务器中。 4. 实现用户行为分析模块 在用户登录之后,通过对用户点击查看新闻的种类及数量进行记录分析,以及设置“不感兴趣”等互动按钮,收集用户的浏览新闻数据,精确定位用户的喜好,利用knn算法做相似度高的新闻推荐。 5. 搜索功能模块实现方案 提供关键字搜索功能,通过python中的MySQLdb库对数据库进行访问,从爬取的新闻中找到与关键字相似内容的新闻,显示到页面上呈现给用户。 (四) 可行性分析 1. 社会技术可行性 该系统提供新闻定制推荐功能,对注册过的用户进行定制化推送,在当今信息爆炸的社会中,能够为人们过滤无用信息,提高浏览信息效率,合理管理信息,满足了绝大多数人的需求,从需求上来讲是可行的。 2. 技术可行性 本系统的开发平台为Windows,软件开发平台为PyCharm,使用Python语言进行编写,编写调试成功后再部署到云服务器上,服务器系统为ubuntu16.04,本人学习过python语言,对其有一定的了解,对搭建服务器有一定的心得,学过HTML5,技术上可行。 四、 研究计划及进度安排 第一阶段:(2017.12.28—2018.01.02)进行题目的确定,开题报告和任务书的撰写。 第二阶段:(2018.01.3—2018.02.01)系统需求分析与系统概要设计。 第三阶段:(2018.02.02—2018.04.14)系统各功能模块编码实现,以及进行最终的测试。 第四阶段:(2018.04.15—2018.04.25)毕业论文撰写、定稿,完善系统。 第五阶段:(2018.04.26—2018.05.10)完成电子讲稿,准备毕业设计答辩。
|
五、 参考文献 [1] 大卫·比斯利 布莱恩·K.琼斯:《Python Cookbook(第3版)中文版》人民邮电出版社 2015年版 [2]陆凌牛:《HTML 5与CSS 3权威指南》 机械工业出版社 2015年版 [3]王军:《Linux系统命令及Shell脚本实践指南》 机械工业出版社 2013年版 [4] Baron Schwartz :《高性能MySQL(第3版)》电子工业出版社 2013年 [5] Zed Shaw:《笨方法学Python(第四版)》 2017年版 [6]刘增杰:《MySQL5.7从入门到精通》清华大学出版社 2016年版 [7]范传辉:《Python爬虫开发与项目实战》机械工业出版社 2017年版 [8]刘长龙:《Python高效开发实战 Django、Tornado、Flask、Twisted》电子工业出版社 2016年版 [9]鸟哥:《鸟哥的Linux私房菜》人民邮电出版社 2010年版 [10]唐汉明:《深入浅出MySQL 数据库开发 优化与管理维护 第2版》人民邮电出版社 2014年版 |
指导教师意见:
指导教师签名: 年 月
|