爬虫的概念:爬虫就是获取网页并提取和保存信息的自动化程序爬虫的分类:主要有四类:通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫爬虫的流程:常见的几种爬虫问题:主要有五类:静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用常见的爬虫框架:pyspider框架,Scrapy框架分布式爬虫:在多台机器上运行爬虫程序爬虫的一些常用"库":解析库:lxml;BeautifulSoup;pyquery;tesserocr请求库:r
系统 2019-09-27 17:56:06 2494
为什么做这个和同学聊天,他想爬取一个网站的post请求观察该网站的post请求参数有两种类型:(1)参数体放在了query中,即url拼接参数(2)body中要加入一个空的json对象,关于为什么要加入空的json对象,猜测原因为反爬虫。既有query参数又有空对象体的body参数是一件脑洞很大的事情。一开始先在apizza网站上了做了相关实验才发现上面这个规律的,并发现该网站的请求参数要为raw形式,要是直接写代码找规律不是一件容易的事情。源码impor
系统 2019-09-27 17:51:26 2494
无名套接口套接口并不总是需要有一个地址。例如,socketpair函数创建了两个彼此相连的两个套接口,但是却没有地址。实际上,他们是无名套接口。想像一下冷战期间美国总统与苏联之间的红色电话。他们任何一端并不需要电话号码,因为他们是直接相连的。同样,socketpair函数也是直接相连的,也并不需要地址。匿名调用有时在实际上,连接中的两个套接口中的一个也没有地址。对于要连接的远程套接口,他必须要有一个地址来标识。然而,本地套接口是匿名的。建立起来的连接具有一
系统 2019-08-29 23:23:32 2494
今天意外惊喜,上班时还是照例打开Silverlight.Net官网(http://www.silverlight.net/),看到John和Tim发了两篇介绍新的SilverlightMVP成员名单,惊奇的发现自己的名字也在其中。感谢每一位我的朋友,感谢你们曾经对我的帮助和支持,希望我的朋友们和我一起分享我的开心。微软2010年10月「最有价值专家」(MVP)当选名单如下:付林余昭辉侯钟雷冯烽刘凯刘力科刘海峰吕汀栎吕科吴慧锋吴江周庆麟唐发浩宫奇尹揆岳海霞常
系统 2019-08-29 22:28:06 2494
//-----------------------JMS消息服务javamessageservicejava消息服务javamessaeservice简称JMS,用于访问企业消息系统的中立的API,说白了就是一组API.企业消息系统可以协助应用软件通过网络进行消息交互.JMS(编程)简单概括为应用程序A发送一条消息到消息的服务器的某个目的Destination,然后消息服务把消息发送给应用程序B,因为应用程序A和应用程序B,没有直接的代码关联.所以两者实现
系统 2019-08-29 22:08:44 2494
好久没上来冒个泡了国庆节后的这段时间过得似乎特快,感觉整天在赶场子一样公司里的事情杂而多,新系统还没完全令客户满意,老系统的部分程序还得升级,最烦的就是IBM的那帮烂机器和软件了,不是无缘无故地down机切换ip,就是无法执行上个月还跑得好好的脚本,害得我有时候不得不怀疑自己的rp了好想每天都有那么一段时间,可以静下来心来,翻翻书,看看帮主给的培训教材,就象刚开始实习的时候那样。。。一起进亚太实习的有的已经离开了,没离开的也在盘算着“逃离计划”。而我却很迷
系统 2019-08-29 22:06:31 2494
JSF参数传递方式之三:通过session(application)对象传递页面到Bean的参数传递页面中设置参数:Java代码<%session.setAttribute("name","hujilie");%><%application.setAttribute("id","123456");%>
系统 2019-08-12 09:30:11 2494
下面是一个简单全面的使用NdisWrapper的指南.这是从BeginningUbuntuLinux,SecondEdition中提炼出来的.这份指南是第8章的一部分.该章给出了在Ubuntu下配置硬件(包括网络设备,打印机,扫描仪,3D显卡等等)的详细说明.除了详细介绍怎样安装/删除NdisWrapper驱动,这份3500多字的指南还包括了精确匹配正确的硬件驱动,从Windows驱动文件中提取必要的文件等关键步骤.这些步骤在其他的指南中往往被忽视了,但它
系统 2019-08-12 09:30:02 2494
Ctrl+1快速修复(最经典的快捷键,就不用多说了)Ctrl+D:删除当前行Ctrl+Alt+↓复制当前行到下一行(复制增加)Ctrl+Alt+↑复制当前行到上一行(复制增加)Alt+↓当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑当前行和上面一行交互位置(同上)Alt+
系统 2019-08-12 09:29:52 2494
概述声明,本文章东搬西扯抄来过的,并非原创,写给自己参考的。关于libevent的描述,有两个百科的连接可以参考:libevent百度百科libevent维基百科在维基百科时,有几个有用的连接可以参考:libevent2.0参考书籍(英文)还有另一个竞争力的事件库:libev(另一个有竞争力的事件库)libevent是一个事件触发的网络库,适用于windows、linux、bsd等多种平台,内部使用select、epoll、kqueue等系统调用管理事件机
系统 2019-08-12 09:26:47 2494