首页
会员中心
到顶部
到尾部
计算机

CWT200g之文档集的构建

时间:2020/10/27 9:20:18  作者:  来源:  查看:0  评论:0
内容摘要:        在信息检索领域中,信息检索系统评估对于信息检索系统的研究、开发和应用有着显著的影响。大规模的测试集被认为是信息检索系统评估工作的基础,其质量决定着评估工作的效率和评估结果的准确定。CWT200g...

        在信息检索领域中,信息检索系统评估对于信息检索系统的研究、开发和应用有着显著的影响。大规模的测试集被认为是信息检索系统评估工作的基础,其质量决定着评估工作的效率和评估结果的准确定。
CWT200g文档集是在CWT100g的构造经验的基础上,针对CWT100g中所存在的问题进行改进并构造的新的Web测试集,它不仅在容量上对CWT200g进行了扩展,相比CWT100g它还有如下特征:
1. 分别采用了自动和手动的垃圾站点消除来提高文档集中数据的质量;
2. 采用了全新的抓取程序和抓取策略。新的抓取程序避免了对单个主机抓取的容量限制,采用广度优先,抓取三层的方式进行抓取,不仅能够充分的抓取网站上的网页,还可以很好的体现出网站的规模和结构特点。
3. 采用了全局MD5消重来进一步消除数据集内的重复网页,避免数据集出现冗余信息;
4. 采用了先抓取后采样的制作方法,使得采样能够依据实际抓取所确定的网站规模进行,提高了采样的准确性;
5. 采用压缩的天网格式,提供更高的信息量。
通过如上改进,我相信CWT200g能够更好的为信息检索评测工作服务。
 

Tags:搜索



相关评论
广告联系QQ:45157718 点击这里给我发消息 电话:13516821613 杭州余杭东港路118号雷恩国际科技创新园  网站技术支持:黄菊华互联网工作室 浙ICP备06056032号