网站地图 专辑地图 DJ舞曲 网址导航 时间查询 词典查询 问答查询 邮编查询 万年历查询
  • 二级建造师各省报名时间
  • 低学历学历提升指南
  • 注册消防工程师报考指南
  • 学历提升的多种途径和方法
  • 学历提升的方法和技巧
  • 二级建造师,报名条件查询
  • 初中学历能报名吗
  • 无学历想考专科
  • 学历提升哪家好
  • 上班族学历提升首选
  • 初中文化也可以自考本科吗
  • 无学历升专科
  • 挖掘机找活二手买卖APP
  • 免费在线实用工具查询网站
  • 学历教育提升方式
  • 初中学历毕业后升本科
  • English | 简体中文 | 繁體中文

    Robots.txt文件生成工具

    限制目录 (每个目录必须以/开头)
    Sitemap 文件 (留空为无)
    检索间隔 (单位秒)留空为不限
    所有搜索引擎
    国内搜索引擎
    百度爬虫
    搜狗爬虫
    有道爬虫
    SOSO爬虫
    头条爬虫
    神马爬虫
    国外搜索引擎
    Google爬虫
    Bing爬虫
    雅虎爬虫
    Ask/Teoma爬虫
    Alexa爬虫
    MSN爬虫
    Scrub The Web爬虫
    DMOZ爬虫
    GigaBlast爬虫
    MJ12 爬虫
    Maui 爬虫
    BLEX 爬虫
    Ahrefs 爬虫
    Dot 爬虫
    Semrush 爬虫
    MegaIndex.ru 爬虫
    华为花瓣 爬虫
    Zoominfo 爬虫
    ExtLinks 爬虫
    俄罗斯 爬虫
    特殊搜索引擎
    Google Image爬虫
    Google Mobile爬虫
    Yahoo MM爬虫
    Yahoo Blogs爬虫
    MSN PicSearch爬虫
    Robots.txt文件生成工具

    在线robots.txt文件生成工具,可以帮助站长快速生成标准的robots.txt文件,支持一键导出,直接传到网站根目录即可。

    小经验:强烈建议每个站根目录都放置一个robots.txt的文件,可以直接留空,但一定要放,避免因程序问题导致/robots.txt返回其他错误响应内容造成不可预知的结果,如搜索引擎不收录等。

    Robots协议(爬虫协议)是国际互联网界通行的道德规范,一般是在一个web站点的根目录下写的robots.txt文件,用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取,可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

    robots.txt基本用法

    User-agent

    User-agent是用来匹配爬虫的,每个爬虫都会有一个名字,如果你有安装awstats统计工具,你就能查看到爬虫的名字,比如百度的爬虫叫BaiDuSpider,Google的爬虫叫Googlebot,*表示所有爬虫。

    Disallow

    Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

    Allow

    Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

    Sitemap

    Sitemap用来指定sitemap的位置。

    Crawl-delay

    Crawl-delay用来告诉爬虫两次访问的间隔,单位是秒。爬虫如果爬得很勤,对动态网站来说,压力有点大,可能会导致服务器负载增高,用户访问变慢。

    还可以使用通配符

    *:匹配任意多个字符

    $:表示URL的结尾

    Robots.txt举例

    不管是Disallow,Allow还是Sitemap,每行只能写一条规则。

    拦截部分文件或目录

    User-agent: *

    Disallow: /cgi-bin/

    Disallow: /aaa.html

    允许爬虫访问所有的目录,有两种写法

    User-agent: *

    Disallow:

    User-agent: *

    Allow: /

    通配符的使用,拦截.gif文件

    User-agent: *

    Disallow: /*.gif$

    拦截带有?的文件

    User-agent: *

    Disallow: /*?

    Sitemap例子

    Sitemap: http://www.djks321.cn/too/sitemap.xml

    分享链接