爬虫的概念:爬虫就是获取网页并提取和保存信息的自动化程序爬虫的分类:主要有四类:通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫爬虫的流程:常见的几种爬虫问题:主要有五类:静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用常见的爬虫框架:pyspider框架,Scrapy框架分布式爬虫:在多台机器上运行爬虫程序爬虫的一些常用"库":解析库:lxml;BeautifulSoup;pyquery;tesserocr请求库:r
系统 2019-09-27 17:56:05 1886
在python中,想要调用自定义函数必须先声明,然后才能调用。使用函数时,只要按照函数定义的形式,向函数传递必需的参数,就可以调用函数完成相应的功能或者获得函数返回的处理结果。(1)声明函数python中使用def可以声明一个函数,完整的函数是由函数名、参数以及函数实现语句(函数体)组成的。在函数声明中,也要使用缩进以表示语句属于函数体。如果函数有返回值,需要在函数中使用return语句返回计算结果,声明函数的一般形式如下:def<函数名>(参数列表):<
系统 2019-09-27 17:55:17 1886
从学习Python至今,发现很多时候是将Python作为一种工具。特别在文本处理方面,使用起来更是游刃有余。说到文本处理,那么正则表达式必然是一个绝好的工具,它能将一些繁杂的字符搜索或者替换以非常简洁的方式完成。我们在处理文本的时候,或是查询抓取,或是替换.一.查找如果你想自己实现这样的功能模块,输入某一个ip地址,得到这个ip地址所在地区的详细信息.然后你发现http://ip138.com可以查出很详细的数据但是人家没有提供api供外部调用,但是我们可
系统 2019-09-27 17:55:15 1886
错误写法classRemoteHandler(web.RequestHandler):@gen.coroutinedefget(self):response=httpclient('http://www.baidu.com')self.write(response.body)@gen.coroutinedefhttpClient(url):result=yieldhttpclient.AsyncHTTPClient().fetch(url)returnre
系统 2019-09-27 17:55:01 1886
Python的切片是特别常用的功能,主要用于对列表的元素取值。使用切片也会让你的代码显得特别Pythonic。切片的主要声明如下,假设现在有一个list,命名为alist:alist=[0,1,2,3,4]切片语法的基本形式为:alist[start:stop:step]可以看出对于列表的切片操作有三个参数,分别为:start:起始位置stop:终止位置step:步长三个参数都是可选参数,意义为list的下标,即index。step参数默认值为1。表现形式
系统 2019-09-27 17:54:32 1886
环境:编辑工具:浏览器:有问题可以联系qq:1776376537安装xlrd安装DDT一分析1目录结构2导入包二代码importxlrdclassExcelUtil():def__init__(self,excelPath,sheetName="Sheet1"):self.data=xlrd.open_workbook(excelPath)self.table=self.data.sheet_by_name(sheetName)#获取第一行作为key值se
系统 2019-09-27 17:54:09 1886
基础1、判断变量是否为None主要有三种写法:ifxisNone:ifnotx:ifnotxisNone:2、lambda函数的用法被称作匿名函数,没有具体名称的函数,允许快速定义单行函数,可以用在任何需要函数的地方。lambda与def的区别:def创建方法是有名称的,lambda没有;lambda会返回一个函数对象,但这个对象不会赋给一个标识符,而def会把函数对象赋值给一个变量;lambda只是一个表达式,def是一个语句;lambda表达式":"后
系统 2019-09-27 17:53:57 1886
我这边使用的是Pycharm2019.1.3Pycharm下载地址官网:https://www.jetbrains.com/pycharm/?fromMenu网盘:链接:https://pan.baidu.com/s/1wENzS6uIlIPjpKmNPnjo-g提取码:qqsk##开始破解找到系统的hosts文件hosts文件路径一般在:C:\Windows\System32\drivers\etc右键编辑,在最下方加上如下两句话0.0.0.0accou
系统 2019-09-27 17:52:49 1886
基本原理蒙特卡罗方法通过抓住事物运动的几何数量和几何特征,利用数字方法来加以模拟,即进行一种数字模拟实验。它是以一个概率模型为基础,按照这个模型所描绘的过程,通过模拟实验的结果,作为问题的近似解。主要步骤如下:1.构造或描述概率过程2.实现从已知概率分布抽样3.建立各种估计量示例一:π值的计算importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinline#π的计算n=
系统 2019-09-27 17:50:56 1886
使用threading.Event可以实现线程间相互通信,之前的Python:使用threading模块实现多线程编程七[使用Condition实现复杂同步]我们已经初步实现了线程间通信的基本功能,但是更为通用的一种做法是使用threading.Event对象。使用threading.Event可以使一个线程等待其他线程的通知,我们把这个Event传递到线程对象中,Event默认内置了一个标志,初始值为False。一旦该线程通过wait()方法进入等待状态
系统 2019-09-27 17:50:54 1886