Python 使用模拟浏览器和代理ip,被豆瓣封

0
Python Nginx C/C++ 豆瓣 爬虫 1625 次浏览

Python2.7,使用urllib2,模拟浏览器和使用代理ip还是被封掉。
1.浏览器头有30个,随机取;代理ip从代理网站上爬取的,高匿,1000个,随机取。
2.程序开始创建2个进程,进程A用于使用代理ip和user-agent生成Cookie,进程B等待Cookie数量到达50个开始工作;进程B工作时随机使用user-agent和代理ip,并随机挑选Cookie,并且修改了X-Forwarded-For和X-Real-IP;若带有Cookie返回403,则去除该Cookie,进程A填充;
3.运行过一段时间之后被封。
为了明确找到问题,我使用了三台线上服务器开始验证。
验证一:有无代理成功?
按照网上教程,配置nginx,企图获取真实ip,包括X-Forwarded-For和X-Real-IP,很不幸,nginx日志查看的都是代理之后的ip
验证二:封禁的是Cookie还是代理ip,还是原始ip?
用被封的服务器使用正常的服务器生成的Cookie,返回403;替换其他代理ip,返回403;用正常的服务器使用被封的代理ip和cookie,发现可正常访问。说明原始ip被封禁了。
那么问题来了,我的真实ip是如何暴露的?

请尽量让自己的答案能够对别人有帮助

27个答案

默认排序 按投票排序
1 2