设计内容: 1、 设计的主要任务 主要任务:基于python语言,设计面向腾讯新闻网的网络爬虫,利用分词工具jieba分词对新闻文本进行分词以及词频统计。 2、 设计的主要内容 (1)使用多线程技术实现爬虫,让爬虫具备更强大的抓取能力。 (2)网络爬虫要实现对特定网页的爬取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出标题、时间、责编、正文等。对网络爬虫的连接网络设置在及读取时间,避免无限制等待。研究网络爬虫的原理并实现爬虫的相关功能。 (3)最终实现的网络爬虫应该能根据设定的主题,实现对URL进行分析,从设定的url进行一定深度的搜索,并最终得到需要的数据。 (4)对爬取结果进行中文分词。 |
设计要求及主要技术参数:(可另附纸) 1、设计要求: (1)总体阶段可以根据需求设计出满足特定需求的总体设计方案。 (2)详细阶段能够针对复杂软件问题设计出满足特定需求的详细设计方案,并且选出最优的设计方案,能够体现创新意识。 (3)编码阶段能够根据软件的应用场景,选则合适的开发工具与技术标准进行编程。 (4)测试阶段能够对运行结果进行预测和模拟,从而验证是否满足需求。 2、 技术参数: python;jieba分词;tkinter |
专家意见: 毕业设计题目具有现实意义,设计内容有一定的难度,工作量适中,技术参数合理,建议下达。 专家签字: 年 月 日 |