网站地图 专辑地图 DJ舞曲 网址导航 时间查询 词典查询 问答查询 邮编查询 万年历查询
  • 二级建造师各省报名时间
  • 低学历学历提升指南
  • 注册消防工程师报考指南
  • 学历提升的多种途径和方法
  • 学历提升的方法和技巧
  • 二级建造师,报名条件查询
  • 初中学历能报名吗
  • 无学历想考专科
  • 学历提升哪家好
  • 上班族学历提升首选
  • 初中文化也可以自考本科吗
  • 无学历升专科
  • 挖掘机找活二手买卖APP
  • 免费在线实用工具查询网站
  • 学历教育提升方式
  • 初中学历毕业后升本科
  • English | 简体中文 | 繁體中文

    heritrix

    Heritrix是一个开源的网络爬虫,主要用于在互联网上抓取和归档网页内容。它是由Internet Archive(互联网档案馆)开发的,旨在帮助机构和个人建立自己的网络内容归档。

    Heritrix的设计目标是支持大规模的、可持续的网页抓取,并且具有高度的可配置性和灵活性。它使用模块化的架构和可扩展的插件系统,可以根据用户的需求进行定制和扩展。

    Heritrix被广泛应用于数字图书馆、档案馆、新闻机构等领域,用于创建和维护大规模的网络内容归档,以便长期保存和检索互联网上的信息资源。

    不过对于国内网站来说不会带来什么流量,可以选择robots.txt协议禁止。

    User-agent: heritrix

    Disallow: /

    如果还是禁止不了,可以选择nginx规则禁止访问,如下:

    if ($http_user_agent ~* "heritrix") {

     return 403;

    }

    补充纠错
    上一蜘蛛: YouBot
    下一蜘蛛: EtaoSpider