robots.txt

robots.txt是一个用于网站管理的文本文件,其目的是告诉搜索引擎哪些页面可以被抓取和索引,以及哪些页面不应被抓取。此文件通常位于网站的根目录下,并由网络管理员创建和维护。搜索引擎的爬虫在抓取网站内容之前会先查看此文件,以确定哪些页面是可以抓取的。


在了解robots.txt是怎么运作之前,我们先看看robots.txt是怎么运作的吧!

# robots.txt file for YouTube
# Created in the distant future (the year 2000) after
# the robotic uprising of the mid 90's which wiped out all humans.

User-agent: Mediapartners-Google*
Disallow:

User-agent: *
Disallow: /comment
Disallow: /get_video
Disallow: /get_video_info
Disallow: /get_midroll_info
Disallow: /live_chat
Disallow: /login
Disallow: /results
Disallow: /signup
Disallow: /t/terms
Disallow: /timedtext_video
Disallow: /verify_age
Disallow: /watch_ajax
Disallow: /watch_fragments_ajax
Disallow: /watch_popup
Disallow: /watch_queue_ajax

Sitemap: https://www.youtube.com/sitemaps/sitemap.xml
Sitemap: https://www.youtube.com/product/sitemap.xml

以上的都来自美国科技公司Youtube

我们可以注意到robots.txt可以分为几个部分,分别是 User-agent, Disallow, Allow, 以及 Sitemap四个大项。

  • User-agent: 搜索引擎爬虫的名称。通过指定不同的user-agent,可以告诉搜索引擎不同的规则。例如,可以为Googlebot和Bingbot分别指定不同的规则。
  • Allow: 允许搜索引擎抓取并索引的页面列表。可以在这里指定一个页面,也可以使用通配符(*)来指定多个页面。
  • Disallow: 不允许搜索引擎抓取和索引的页面列表。同样可以指定具体页面或使用通配符。
  • Sitemap:是一个XML文件,包含了网站中所有页面的列表,以及有关每个页面的其他信息。这些信息包括页面的最后修改日期、页面更改的频率和优先级等。Sitemap可用于向搜索引擎提供关于网站结构和页面内容的信息,从而更好地优化搜索引擎爬虫的索引过程。

在2013年,百度因为泄露用户隐私而遭受严重批评,此丑闻被称为“百度门”事件。具体来说,百度的搜索引擎被指控忽略了网站的robots.txt文件,从而抓取了用户标记为私有的页面。这些页面包括了用户的真实姓名、地址、电话号码、身份证号码等敏感信息,其中一些信息还被公开在搜索结果页面上。

这个丑闻首先由北京大学法学院教授管延静在微博上曝光,随后引起了广泛的媒体和舆论关注。许多人批评百度的做法是违反了用户隐私的基本原则,严重影响了用户的信任。还有人指出,百度这种做法违反了搜索引擎的基本规则,即尊重网站的robots.txt文件,而这个文件是网站所有者用来控制搜索引擎访问自己网站的重要手段。

在这个事件发生后,百度迅速发布了一份道歉信,承认错误并保证将采取措施改善其隐私保护措施。此外,百度还宣布成立了一个专门的工作组来检查其隐私保护措施,并对所有受影响的用户提供了免费的身份保护服务。然而,这个事件对百度的声誉造成了严重的损害,并引发了对中国互联网公司隐私保护能力的广泛担忧。

所以互联网不是法外之地,虽然爬虫机器人的到来为我们提供了触手可得的的资讯,但不是坏人用来滥用,并且损害他人利益的武器。

知识共享许可协议
本作品及其附属数据均采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。

添加新评论