首页
会员中心
到顶部
到尾部
计算机

Web信息搜集系统优化

时间:2020/10/27 9:20:21  作者:  来源:  查看:0  评论:0
内容摘要:        搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的...

        搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。
 最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新的体系结构的探讨。
        面对浩瀚的WWW信息资源,用户在感到进入信息社会的兴奋之后,立刻觉得不知所措,太多的信息使我们很难迅速定位我们真正需要的信息,而跟随超链在WWW上漫游则会浪费大量的时间,而且很可能徒劳无功。因此,人们迫切需要有效的信息发现工具来为他们在WWW上进行导航。
        在1994年,第一代搜索引擎出现了,例如Lycos, Infoseek, AltaVista和Exite。这时,它们还处在研究阶段,数据量少,检索速度慢是它们的突出缺点。最近这几年里,搜索引擎技术有突飞猛进的发展,出现了AltaVista,Inktomi ,Google ,Inktomi的Directory Engine ,Inktomi , FAST, Northern Light 等成熟的搜索引擎产品,它们日趋变的好用,成为WWW用户必不可少的工具之一。
“北大天网(Webgather)” 是CERNET在“九五”攻关项目“计算机信息网络及其应用关键技术研究”中设立了“中文编码和分布式中英文信息发现”子专题,北京大学网络研究室承担了该子专题的部分研究开发工作,设计开发了“天网”中英文搜索引擎(WebGather)[3]。1997年10月29日,天网搜索引擎正式在CERNET上提供查询服务。《软件世界》(1998年7月)将天网评为国内最值得关注的搜索引擎,1998年12月,天网通过了CERNET的鉴定。之后,天网又进行了大量的技术创新和系统的完善。到目前为止,天网总访问量已经突破5,000,000,并且仍以每天大于30,000的访问量递增。
 

Tags:web 搜索



相关评论
广告联系QQ:45157718 点击这里给我发消息 电话:13516821613 杭州余杭东港路118号雷恩国际科技创新园  网站技术支持:黄菊华互联网工作室 浙ICP备06056032号