注意事项            
【!注意!】技术指导专用文章,实在不会搭建再点击此处 【!注意!】

什么是恶意蜘蛛爬虫?网站如何阻止恶意蜘蛛爬取网页?

注意事项
🔥 最新推出:一天会员!
专为下载资源打造,超值体验,立即加入!
了解详情
✨ 新推出:兑换码!

进入小程序,获得大额兑换码!最高减100%

小程序二维码

扫码进入小程序

恶意蜘蛛定义

我把恶意蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助,并且给网站性能带来一定损耗的蜘蛛。这种蜘蛛会频繁抓取网站内容,并且利用内容做一些数据分析来达到他们的商业目的。

通过分析网站日志,搜集资料,我得出了下面的一些恶意蜘蛛。下面给出列表并说明这些蜘蛛的用途。

这些 User-agent 中包含的蜘蛛主要来自于各种网络爬虫和数据挖掘服务提供商,它们的目的可能是收集网站数据以用于分析、排名或其他目的。这些蜘蛛代表的公司有:

  1. AhrefsBot – Ahrefs
  2. DotBot – Dotster Inc.
  3. SemrushBot – SEMrush
  4. Uptimebot – Uptime.com
  5. MJ12bot – Majestic
  6. MegaIndex.ru – MegaIndex
  7. ZoominfoBot – ZoomInfo
  8. Mail.Ru – Mail.Ru Group
  9. SeznamBot – Seznam.cz
  10. BLEXBot – BLEX
  11. ExtLinksBot
  12. aiHitBot – aiHit
  13. Researchscan
  14. DnyzBot
  15. spbot – OpenLinkProfiler
  16. YandexBot – Yandex

这些恶意蜘蛛对网站的影响主要表现为:

  1. 增加服务器负载:由于这些蜘蛛会频繁请求页面,可能会导致服务器负载增加,影响网站的性能和响应速度。
  2. 消耗带宽:频繁的抓取行为会消耗网站的带宽资源,可能会导致额外的费用或者影响其他用户的访问体验。
  3. 不良影响:有些恶意蜘蛛可能会尝试非法访问网站,进行恶意攻击或者盗取数据,给网站的安全带来威胁。
  4. 扰乱数据统计:这些蜘蛛的访问可能会影响网站的访问统计数据,使其变得不准确或者不可信。

好在这些蜘蛛都存从robots文件协议;直接屏蔽即可:

User-agent: AhrefsBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: SemrushBot

Disallow: /

User-agent: Uptimebot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: Mail.Ru

Disallow: /

User-agent: SeznamBot

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: aiHitBot

Disallow: /

User-agent: Researchscan

Disallow: /

User-agent: DnyzBot

Disallow: /

User-agent: spbot

Disallow: /

User-agent: YandexBot

Disallow: /

 

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容