综述本系列文档用于对Python爬虫技术的学习进行记录总结。Python版本是3.7.4urllib库介绍它是Python内置的HTTP请求库,也就是说我们不需要额外安装即可使用,它包含四个模块(主要对前三个模块进行学习):request:它是最基本的HTTP请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入URL还有额外的参数,就可以模拟实现这个过程了。error:异常处理模块,如果出现请求错误,我们可以捕
系统 2019-09-27 17:54:27 1978
安装方法pipinstallScrapy如果顺利的话不用管直接一路下来就OK验证是否安装成功安装成功不顺利的情况1)lxml安装不成功使用whl进行安装,不过需要先安装whlpipinstallwheel安装完成后下载lxml的whl文件网址:http://www.lfd.uci.edu/~gohlke/pythonlibs/whl版本挑选进入cmd――>importpip――>printpip.pep425tags.get_supported(),按照截
系统 2019-09-27 17:54:03 1978
表数据超过百万级别时使用pandas读取数据速度过慢,如果仍然想用pandas读取,可以通过多进程提高效率。同时可以将常用数据保存为pkl文件,以便后续使用。@主要代码实现#按照表中的某字段将表划分为比较均匀的多个子集#本例中需要读取的表中包含了城市字段,#且涉及的城市包含了全国大部分城市,数据分布较为均匀,因此制作了一张省份城市配置表,将数据划分#读取省份-城市配置表,获取城市列表defget_division_list(db_connect,divis
系统 2019-09-27 17:53:46 1978
从我开始学习python的时候,我就开始自己总结一个python小技巧的集合。后来当我什么时候在StackOverflow或者在某个开源软件里看到一段很酷代码的时候,我就很惊讶:原来还能这么做!当时我会努力的自己尝试一下这段代码,直到我懂了它的整体思路以后,我就把这段代码加到我的集合里。这篇博客其实就是这个集合整理后一部分的公开亮相。如果你已经是个python大牛,那么基本上你应该知道这里面的大多数用法了,但我想你应该也能发现一些你不知道的新技巧。而如果你
系统 2019-09-27 17:53:38 1978
环境:win10(64),python3.7.1,git2.7.2,pylint-2.3.1,git_pylint_commit_hook-2.5.1以上为当期搭建所用到的版本,有异常时方便查找问题。安装pylint,pylint是一个单独可以对python文件进行格式校验的模块,https://www.pylint.org/官网地址有各个电脑环境的安装说明,Windows下,使用:pipinstallpylint安装完成之后,就可以直接使用pylint对
系统 2019-09-27 17:53:18 1978
非阻塞IO(non-blockingIO)Linux下,可以通过设置socket使其变为non-blocking。当对一个non-blockingsocket执行读操作时,流程是这个样子:从图中可以看出,当用户进程发出read操作时,如果kernel中的数据还没有准备好,那么它并不会block用户进程,而是立刻返回一个error。从用户进程角度讲,它发起一个read操作后,并不需要等待,而是马上就得到了一个结果。用户进程判断结果是一个error时,它就知道
系统 2019-09-27 17:53:07 1978
生成器(generator)概念生成器不会把结果保存在一个系列中,而是保存生成器的状态,在每次进行迭代时返回一个值,直到遇到StopIteration异常结束。生成器语法生成器表达式:通列表解析语法,只不过把列表解析的[]换成()生成器表达式能做的事情列表解析基本都能处理,只不过在需要处理的序列比较大时,列表解析比较费内存。>>>gen=(x**2forxinrange(5))>>>genat0x0000000002FB7B40>>>>forgingen:
系统 2019-09-27 17:52:55 1978
本文章采用的是Qt4,是python(x,y)套件中集成的,为啥不集成Qt5呢,懒得装啊:)正文:首先看成品:这个程序的功能是输入原价和降价的百分比,计算出最后的价格。设计器部分然后就是开发阶段了,首先在QtDesigner中建立一个窗体,大概像图片中的样子,然后将控件都拖进去其中,“原价是多少啊”,“绿色的标标”这些文字类的控件是QLabel,第一个框框是QTextEdit,第二个标标是QDoubleSpinBox,或者使用QSpinBox都行,两者主要
系统 2019-09-27 17:52:48 1978
#使用StandardScaler进行数据预处理importnumpyimportmatplotlib.pyplotaspltfromsklearn.datasetsimportmake_blobsX,y=make_blobs(n_samples=40,centers=2,random_state=50,cluster_std=2)plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.cool)plt.show()#导入Sta
系统 2019-09-27 17:52:41 1978
文件操作对编程语言的重要性不用多说,如果数据不能持久保存,信息技术也就失去了意义。按照本人经验,IO也是蛮头疼的一件事,因为不会用得太多,所以总是记不住API,每次都要重新google就会打断思路,还不一定每次都快速得到正确的文章。本文内容包括:文件的读写操作文件的各种系统操作存储对象遍历文件上代码:importosimportos.pathrootdir="d:/code/su/data"#指明被遍历的文件夹forparent,dirnames,file
系统 2019-09-27 17:52:30 1978