您的位置:
首页 >
资讯信息 > 行业动态基于Heritrix的网络爬虫实现
行业动态基于Heritrix的网络爬虫实现
发布时间:2025-05-09 09:08:46
本系统的网络爬虫为要包括:网页分类器 (根据主题策略将网页分为主题相关和主题不相关两类) 、信息提取器 (以主题相关网页作为提取对象, 提取文本信息和链接信息) 和网页抓取器 (抓取“筛选”过的网页) 。
基于Heritrix的网络爬虫实现。 网络爬虫, 是一种可以根据网页之间的链接关系, 在Internet中自动抓取网页的程序, 它可以有条理的, 自动的遍历万维网信息空间。它通过HTTP协议来访问网页, 同时, 通过跟踪链接来遍历整个Web空间。本系统的网络爬虫, 基于Heritrix实现。Heritrix是一个由Java开发的、开源的Web网络爬虫框架。 本系统的网络爬虫为要包括:网页分类器 (根据主题策略将网页分为主题相关和主题不相关两类) 、信息提取器 (以主题相关网页作为提取对象, 提取文本信息和链接信息) 和网页抓取器 (抓取“筛选”过的网页) 。
本文所属tags
版权声明
1.除非注明,网站内容均为
网站建设的原创文章,转载或引用请以超链接形式标明本文地址!谢谢合作!本文地址:
http://www.hfwwjx.com/news/5275.html
2.本网站所发布、转载、摘编的文章如果来源于互联网,我会尽量标注来源和作者。如果作品内容、版权或其它问题侵害到您的权益,我感到很抱歉,并将火速处理。联系方式:QQ:1084057080(微信同号),也诚挚地欢迎您给我们投稿,谢谢!
与本文相关的文章
无相关信息