python网络爬虫-2019年我破解企业工商数据+商标网+建筑招标网数据爬虫

系统 4480 0

python网络爬虫-2019年我破解企业工商数据+商标网+建筑招标网数据-爬虫技术分享

最近在深入研究人工智能“深度学习”TensorFlow技术,采用AI技术做数据爬虫和数据挖掘的工作,AI技术主要是建立爬虫的模型、深度训练机器人、样本数据验证模型、最后我们的机器人就可以像我们千军万马的真人在做爬虫的工作了,解决了爬虫界遇到的各种验证码、封IP、加密的问题,可以说2019年是大数据的发起年,很多朋友都找我帮忙通过我的爬虫技术解决数据源的问题,我们知道不管是做人工智能还是做大数据前提就是需要有数据,所以大数据是目前非常火的行业,也是很多有眼光的人进军大数据创业的原因!

二、工商网-企业数据-python数据挖掘技术分享(全国企业工商数据46个纬度的挖掘技术)

因为一直研究深度爬虫前沿技术,最近有几个创业的朋友找我帮忙建立企业大数据库和政策库大数据,因为我前段时间刚刚帮朋友完成了“天谋查和企谋查”企业库数据的分布式爬虫系统的研发,解决了封IP技术和验证码破解、vip模拟登陆爬数据问题,其中企业工商数据我当时挖掘的数据纬度包含46个数据纬度,每一个纬度就是一个数据表。
利用爬虫技术,实现那么多企业数据的网络数据挖掘,需要足够多的服务器和大数据搜索引擎架构,首先我对企业进行了按城市维度进行分库,全国每个城市都建立一个自己的数据库,然后自己利用Python爬虫技术+企业词库+代理IP池+分布式多进程的技术架构开发了一套“企业大数据深度挖掘系统”。我们目前比较流行的数据挖掘技术的开发语言就是python,因为python拥有非常完整的各种库可以直接使用,比如: 图像识别库、requests库等等。

2.1 工商企业大数据面临的问题:
其实我破解爬取天某查、企某查这些网站做企业大数据深度挖掘系统的研发的时候需要解决以下三个问题:
1 破解验证码 完成vip自动登录 采集到完整的vip数据
2 数据的结构化和数据清洗,把数据清洗到数据库
3 数据的批量分布式、多进程、 多任务的爬取 解决全量爬取速度问题
2.2问题解决方案分享:
因为像天某查、企某查这种网站,如果不是vip会员登陆 ,手机号码和邮箱这些比较重要的数据我们是看不到的,都是需要用vip登陆才能看到,所以要拿到完整的数据就需要破解vip登陆,拿到vip的完整数据,一旦把vip破解了就像闯入无人空旷的平原想拿什么数据就拿什么数据了。下面的问题就是如何解决全量爬取数据问题,那么多企业数据我想一个月全部完成可以吗?从技术角度是100%可以的,只要我们把程序架构做成分布式+多进程+多任务就可以实现想爬多少就爬多少,但是有一个问题就是我们的需要服务器需要足够多哦,否则你一台电脑开100个进程也没有用速度也就是那么一点了。分布式就是爬虫程序部署放到10台电脑去,如果你实在没有电脑就到网吧去,把爬虫端在网吧电脑去行几天估计全部爬完了,这样快速解决全量爬取的问题。所以我当时在开发企业工商大数据深度挖掘系统的时候系统架构我分为了 爬虫端+数据库+代理IP池+cookies池+企业词库+数据管理后台,等一整套的数据挖掘、数据清洗、数据存储、数据管理的解决方案。
(欢迎对爬虫技术和大数据挖掘感兴趣朋友加我qq:2779571288)

三、商标网-Python爬虫破解技术分享:
因为一直从事数据深度挖掘、网络深度爬虫的技术研究,从帮电商公司做过淘宝店铺商品的一键搬家,把淘宝商品通过爬虫技术一键复制到您的网站去,到通过AI图像识别技术做竞品分析、再导通过网络爬虫技术做帮朋友做的舆情监控、再到企业工商大数据的深度挖掘、商标网的大数据挖掘等等几乎国内核心的比较大的网站反爬机制都摸清了一遍,再众多网络深度挖掘技术的过程中,不同的网站才有不同的反爬技术,比如天某查 才有的是vip登陆+验证码技术,再比如淘宝采用的是封IP的反爬技术,不登录也可以搜索到商品数据,但是那么多网站中度商标网是最难爬取的一个,说起商标网难爬并不代表它的反爬技术有多牛,其实商标网的反爬技术还没有天某查的牛,主要是商标网牺牲了用户体验来拦截爬虫大量爬取它数据,商标网的反爬技术包含下面2部分:
3.1 商标网-采取的url访问跟踪加密技术:

商标网牺牲了用户体验,每次对商标注册号查询必须先进入搜索页面然后搜索注册号去爬取,如果你直不经过主页和列表页就直接访问详细页面是直接被封的,也就是这个详细页的URL是经过首页的访问cookie+列表页cookie+过期时间的跟踪加密处理的,所以要爬取它的数据不得不从这个模拟搜索注册号然后模拟点击进入详细页然后爬取详细页和商标流程页面的数据,这样我们一样是爬取得到数据,只是爬取速度有点慢,因为我们必须需要遵循它现在进入搜索页去模拟搜索注册号然后再模拟点击进入详细页,这样速度就慢很多。
3.2 商标网-采取了封IP反爬技术:
商标网除了跟踪访问路径url外,还采取了封IP技术,也就是当你不断的去模拟搜索注册号或者模拟搜索公司得到详细页数据的时候,它会监控您的IP,如果发现您的IP操作太频繁直接把您IP拉黑封掉,你再也打开不了商标网站了。需要过一天或者一段时间才给您重新放出来。所以解决这个封IP很简单,我当时做商标网大数据深度挖掘系统的架构的时候,系统架构上包含了: 爬虫端+代理IP池+模拟AI人工智能技术+多进程 解决它的反爬问题以及爬取速度的问题。下面给大家解释一下代理IP池:
代理IP池:也许您会问这个代理IP池是做什么,又是怎么实现的呢?我们在爬网站的时候,需要用代理ip不能用我们自己电脑的IP去爬,原因是在你电脑直接运行代码那么爬虫的IP就是你电脑的IP ,如果一直频繁的去采集对方的网站,那么对方会检测到您的IP直接把您的IP列入黑名单导致你以后在也采集不了了。所以我所有的批量采集爬虫都采用代理IP去爬的,python怎么采用代理IP呢?其实很简单就那么一行代码就解决:
 resp = requests.get(url, headers=self.headers, timeout=20, proxies=proxy)
我们调用的是 requests的get方法 里面有url、和headers以及 , proxies代理IP设置的参数。
url:就是我们采集的目标网站地址
headers:就是我们模拟访问对方网站时候需要模拟的头参数(这个参数怎么来呢,其实很简单,直接用火狐打开对方网站 查看网络里面有和请求头 那些参数复制过来即可)
 Proxies:就是我们的设置我们的代理IP,代理IP是什么意思呢?代理服务器的工作机制很象我们生活中常常提及的代理商,假设你的机器为A机,你想获得的数据由B机提供,代理服务器为C机,那么具体的连接过程是这样的。 首先,A它与C机建立连接把请求发给C,C机接收到A机的数据请求后马上与B机建立连接,下载A机所请求的B机上的数据到本地,再将此数据发送至A机,完成代理任务。这样下载对方网站的数据的是代理服务器,而这个代理服务器IP是随机变动,对方就抓不到是谁一直采集他的数据了。那这个代理ip我们清楚了,这个ip代理池又是什么呢?我们运行我们的python程序的时候,每秒发一个http请求去爬对方网站一次,请求一次需要一个IP,那么这个ip怎么来呢?我们可以网上购买第三方那种ip接口,比如:每10秒中会返回1个IP给我们用,如果我们每次爬数据都先要调取代理IP接口得到IP了再去爬对方网站 那么这个效率和代码质量就低了,因为人家是10秒中才一个IP,您的程序速度和效率就直接卡在因为代理IP接口控制问题了,所以这个时候您需要改进代理IP代码架构,首先每10秒中读取代理IP接口得到的IP 缓存到reis去,并且设置60秒过期,那么这个redis就会形成一个代理IP池了,您的程序代码爬对方网站时候直接从redis读取IP去爬,这样速度就快了,程序架构就优化了。

采集速度太频繁了,会被封IP问题 怎么解决

当我们发出去的http请求到天谋查网站的时候,正常情况下返回200状态,说明请求合法被接受,而且会看到返回的数据,但是天谋查有自己的一套反爬机制算法,如果检查到同一个IP来不断的采集他网站的数据,那么他会被这个IP列入异常黑名单,您再去采集它网站数据的时候,那么就永远被拦截了。怎么解决这个问题呢,其实很简单,没有错用代理IP去访问,每一次请求的时候都采用代理IP方式去请求,而且这个代理IP是随机变动的,每次请求都不同,所以用这个代理IP技术解决了被封的问题。

自己搭建代理池ip

做爬虫技术都知道,代理IP的质量决定了爬虫的效率,要想爬快一点,必须选择质量好,高匿名、不重复、时间长的IP,在选择代理IP的时候,市场价格好的搭理IP一般是6000/月,所以当时为了避免这个费用成本,就自己搭建了自己IP代理池,利用技术优势节省了一大截成本。

爬天某查是怎么知道我们使用代理IP的呢?

想知道代理IP的问题,我先要理解清楚 代理IP里的“透明”“匿名”“高匿”分别是指什么:
透明代理IP::就是我们用这个代理IP去采集天眼查的时候,不会隐藏我们自己的IP,我们的IP一种是暴漏透明的,那么天某查会很快识别到同一个客户端IP重复访问采集它的网站数据,就会把这个IP拉入黑名单做个标记,下次你在去采集的时候直接被封了。
普通匿名代理IP:能隐藏我们客户机的真实IP,但是有一个坏处就是但会改变我们的请求信息,天某查有可能会认为我们使用了代理。不过使用此种代理时,虽然被访问的网站不能知道你的ip地址,但仍然可以知道你在使用代理,当然某些能够侦测ip的网页仍然可以查到你的ip,所以这种IP是不适合去采集天眼查的数据的。
高匿名代理IP: 这种IP是不会改变客户机的请求,这样在服务器看来就像有个真正的客户用浏览器在访问它,这时客户的真实IP是隐藏的,服务器端(天眼查)不会认为我们使用了代理,我们在采集天眼查的应该选用这种高匿名的IP,那么哪里去找这种代理IP呢,下面的小结将会给大家介绍。
想要解决绕过天眼查验证码爬数据的问题,首先我们要分析是在什么情况下才会出现验证码,天眼查是通过以下两种方式进行识别我们是否浏览器访问还是爬虫访问:
怎么知道天某查封了我们的IP呢?
您去爬天某查的时候,如果您的IP被封或者不正常,天某查就会返回登录页面,出现登录界面就说明您的ip被封了,或者被监控到异常了。所以我们在爬数据的时候,用正则匹配一下是否有注册登录的界面html标签字符,如果出现登录界面马上重新换一个IP重新请求,就一直执行循环直到换到正常的可用的IP为止即可。
为什么采用代理IP后还是被封了?
我们做爬虫的时候不能使用自己电脑的IP去循环采集天某查网站否则会直接封IP,或者出现验证码,要解决这个问题其实很简单就是采用动态的代理IP,但是呢很多人用代理IP还是出现会封,其实原因是您用的这个代理IP质量不行,或者你用的是那种、免费的代理IP。使用代理IP还是被封会有以下原因:
(1) 您的代理IP失效时间太短,还没成完一个http请求就失效了,导致永远被封或者无效
(2) 您的代理IP网络不到达不通导致
(3) 你的代理IP不是高匿名的,直接被识别出来
(4) 您的代理IP已经被其他人用过爬天某查了,早被列入黑名单,导致你永远IP被封。
(5) 你是不是老是一直用几个代理IP循环去爬?正确做法是每个请求都随机换不同IP,所以您需要网上选那种不限制数量的代理IP,而不是固定几个IP。
4、爬天某查应该选用什么样的代理IP?
建议您的代理IP应该满足以下要求:
(1) 、高匿名,普通匿名不行,一定是高匿名
(2) 、有效期时间长,至少2分钟之内是有效的
(3) 、不重复,至少在30天内不重复的IP
、不限量,每天IP的数据不限制,随机改变。

时间有限,先分享到这里,我得写代码去…


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论