Page 1 of 1

主要 HTML 机器人命令

Posted: Sat Dec 21, 2024 8:34 am
by tannatannatanu
相反,通过编写 name=”robots” 该命令会被所有爬虫接收。

需要强调的是,只有在插入的页面未被 robots.txt 文件阻止时,搜索引擎才会接收 robots 元标记给出的命令。显然,如果爬虫被告知不要分析页面,它甚至无法读取任何“noindex”。

X 机器人标签:这是什么?
x robots 标签应用于向 阿根廷 WhatsApp 资源迷 包含图像或 PDF 文档(即非 HTML 内容)的文件发出与元机器人相同的命令。

谷歌就这个话题表示:

“X-Robots-Tag 可以用作特定URL的HTTP标头响应元素。机器人元标记中可用的任何语句也可以指定为 X-Robots-Tag。”

x robots标签-noindex的示例如下:

HTTP/1.1 200 OK
日期:2010 年 5 月 25 日星期二 21:42:43 GMT (
… )

Image 


您可以将多个指令组合在一个 HTTP 响应中,并在指令前指明特定的用户代理,从而给出有针对性的非通用指示。

谷歌示例:

HTTP /1.1 200 OK
日期:2010 年 5 月 25 日星期二 21:42:43 GMT (
… )



如果没有向搜索引擎提供指示,则页面默认被理解为索引和跟随,因此可索引和可​​跟随。

相反,可以发出一系列命令来使爬虫按照我们的意愿运行。我们来看看主要的。