蜘蛛抓取和网络爬虫的定义

蜘蛛和网络爬虫:你需要知道什么来保护网站数据

蜘蛛程序(或自动化脚本)可以通过网络“抓取”数据。 蜘蛛通过网站URL访问,并可以从网页中获取数据,例如电子邮件地址。 蜘蛛也被用来将网站上的信息提供给搜索引擎。

蜘蛛,也被称为“网络爬虫”,搜索网络,并不是所有的人都很友善。

垃圾邮件发送者蜘蛛网站收集信息

Google,Yahoo!

而其他搜索引擎并不是唯一对抓取网站感兴趣的搜索引擎 - 诈骗者和垃圾邮件发送者也是如此。

垃圾邮件发送者使用蜘蛛和其他自动化工具在网站上查找电子邮件地址(在互联网上这种做法通常称为“收获”),然后使用它们创建垃圾邮件列表。

蜘蛛也是搜索引擎使用的一种工具,用于查找有关您网站的更多信息,但未经检查,没有关于如何抓取您的网站的说明(或“权限”)的网站可能会带来重大的信息安全风险。 蜘蛛通过以下链接旅行,他们非常善于找到数据库,程序文件和其他信息的链接,您可能不希望它们访问这些链接。

网站管理员可以查看日志以查看哪些蜘蛛和其他机器人访问了他们的网站。 这些信息可以帮助网站站长知道谁在索引他们的网站以及频率。

这些信息非常有用,因为它允许网站管理员微调他们的SEO并更新robot.txt文件,以禁止某些机器人将来抓取他们的网站。

关于保护您的网站免受不必要的机器人爬虫的提示

有一个相当简单的方法可以让不需要的抓取工具离开您的网站。 即使您不关心恶意蜘蛛抓取您的网站(模糊电子邮件地址无法保护您免受大多数抓取工具的攻击),您仍然需要为搜索引擎提供重要说明。

所有网站应该有一个位于名为robots.txt文件的根目录中的文件。 这个文件允许您指示网页抓取工具,如果它们是搜索引擎,您希望它们在索引页面中查找(除非在特定页面的元数据中另行声明为无索引)。

就像您可以告诉您想要浏览的想要的抓取工具一样,您也可以告诉它们可能不去的地方,甚至阻止整个网站上的特定抓取工具。

重要的是要记住,一个好的拼凑robots.txt文件将为搜索引擎带来巨大的价值,甚至可能是提高网站性能的关键因素,但一些机器人爬虫仍然会忽略你的指示。 出于这个原因,保持所有软件,插件和应用程序始终处于最新状态非常重要。

相关文章和信息

由于用于恶意(垃圾邮件)目的的信息收集普遍存在,2003年通过立法使某些做法非法。 这些消费者保护法属于2003年的CAN-SPAM法。

如果您的业务涉及任何群发邮件或信息收集,请务必详细阅读CAN-SPAM法案。

通过阅读以下文章,您可以了解更多有关反垃圾邮件法律以及如何处理垃圾邮件发送者以及您作为企业所有者可能无法做到的事情: