毕业设计题目:主题搜索引擎的设计与实现
随着计算机技术和互联网技术的飞速发展,网络上的信息量急剧增长,要在浩如烟海的网络世界中寻找需要的信息,作为现代信息获取技术的主要应用,那么搜索引擎是必不可少的。通过搜索核心,可以很方便的构建起搜索引擎,本毕业设计除了考查使学生综合运用以前所学知识的能力,同时也使学生了解当今搜索及编程的一些新技术,并模拟简单的搜索引擎开发。
现状:国内对搜索引擎的专注和对中文的理解能力也是中国本土搜索引擎行业独特的竞争力。国内比较著名的比如百度,更专注对中文的处理。中文的意思多种多样,是很难用程序处理的。目前国内外都在做中文引擎,门户网站、非门户网站也都在进军搜索业,成立搜索门户。
研究目标、研究内容和准备解决的问题:
1、内容:本设计要实现的功能:
1.能够对Internet上的网页内容、标题、链接等信息按链式收集。
2.能够实现一定链接深度的网页收集,也就是在Internet上实现一定的URL级的数据收录。
3.网站信息库中的信息会不断的变动,对收集到的数据需要定期的自动维护,做到定期的删除、从新收集。
4.对收集到的数据进行关键词的检索。
5.对检索出的数据要可定位性,即可以显示对数据的出处的链接。
6.实现中英文分词功能,能够按中文或者英文单词检索数据。
7.实现无刷新的显示搜索结果,对搜索用时的计算、显示,关键字高亮显示等。
主题搜索引擎准备解决的问题:
精度:
1.对收集到的信息需要一定的完整性,即对链接层次里的每个链接页面都能够收集得到,并写入收集的存储区里。
2.对搜索出的内容需要包含有关键字信息
1.时间特性要求:
2.数据收集时,因为是对Internet网上Web信息的收集,并且采用URL级链式的网页收集。收集数据时不能够出现无响应的等待。
3搜索时响应时间应不超过3秒,无论搜索的记录多少。
3.灵活性
1具有良好的中文切词功能。