10个好用到爆的"反爬虫"措施!
10个好用到爆的"反爬虫"措施!
gh_1d7504e4dee1
回复:python,领取Python面试题。分享Python教程,Python架构师教程,Python爬虫,Python编程视频,Python脚本,Pycharm教程,Python微服务架构,Python分布式架构,Pycharm注册码。
1.通过User-Agent来控制访问
解决方法:
2.IP限制
解决方法:
资源分享
3. SESSION访问限制
解决方法:
4.Spider Trap
创建无限深度的目录结构 HTTP://example.com/bar/foo/bar/foo/bar/foo/bar / -
动态页面,为网络爬虫生成无限数量的文档。如由算法生成杂乱的文章页面。 文档中填充了大量字符,使解析文档的词法分析器崩溃。
解决方法
5. 验证码
解决方法
6. 通过robots.txt来限制爬虫
解决方法
7. 数据动态加载
解决方法
-
看https://image.baidu.com这部分的包。可以看到,这部分包里面,search下面的那个 url和我们访问的地址完全是一样的,但是它的response却包含了js代码。
-
当在动物图片首页往下滑动页面,想看到更多的时候,更多的包出现了。从图片可以看到,下滑页面后得到的是一连串json数据。在data里面,可以看到thumbURL等字样。它的值是一个url。这个就是图片的链接。
-
打开一个浏览器页面,访问thumbURL="https://ss1.bdstatic.com/70cFvXSh_Q1YnxGkpoWK1HF6hhy/it/u=1968180540,4118301545&fm=27&gp=0.jpg" 发现搜索结果里的图片。 根据前面的分析,就可以知道,请求
URL=
"https://image.baidu.com/search/acjsontn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%8A%A8%E7%89%A9%E5%9B%BE%E7%89%87&cl=2&lm=-1&ie=utf8&oe=utf8&adpicid=&st=-1&z=&ic=0&word=%E5%8A%A8%E7%89%A9%E5%9B%BE%E7%89%87&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=30&rn=30&gsm=1e&1531038037275="
最后就可以寻找URL的规律,对URL进行构造便可获取所有照片。使用selenium
8. 数据加 密-使用加密算法
解决方法
9. 数据加密-使用字体文件映射
对JS加密 -
使用多个不同的字体文件,然后约定使用指定字体文件方式,比如时间戳取模,这样每次爬取到的数据映射方式都不一样,映射结果就不一样,极大提高了破解的难度。该种方式相比使用加密算法方式难度更高,因为加密算法是固定的几种,对方很容易获取并破解,而字体文件映射可以按任意规则映射,正常的数据使之错误显示,爬虫不容易察觉。参考案例:https://www.jianshu.com/p/f79d8e674768
10. 非可视区域遮挡
此方式主要针对使用senlium进行的爬虫,如果模拟界面未进入可视区域,则对未见数据进行遮挡,防止senlium的click()操作。这种方式只能稍稍降低爬虫的爬取速度,并不能阻止继续进行数据爬取。
-
这5种炫酷的动态图,都是用Python实现的!
-
NumPy教程-numpy.random()在Python中的使用
-
NumPy教程-numpy.sum()在Python中的使用
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
