《Python3爬虫、数据清洗和可视化实战》零一韩要宾黄园园著第九章:pandas数据清理9.1数据读写、选择、整理和描述Pandas是用来数据清洗的Python库,由于它的依赖库很多,所以建议还是下载anaconda,里面内置了相关库。9.1.1读取CSV数据df=pd.read_csv(“csv_path”,delimiter=”,”,encoding=””)参数说明:“csv_path”,CSV文件路径;delimiter=”,”:分隔方式;enco
系统 2019-09-27 17:54:37 1709
本文实例讲述了在Python中模仿POSTHTTP数据及带Cookie提交数据的实现方法,分享给大家供大家参考。具体实现方法如下:方法一如果不使用Cookie,发送HTTPPOST非常简单:复制代码代码如下:importurllib2,urllibdata={'name':'www','password':'123456'}f=urllib2.urlopen(url='//www.jb51.net/',data=urllib.urlencode(data)
系统 2019-09-27 17:54:37 1709
综述本系列文档用于对Python爬虫技术的学习进行记录总结。Python版本是3.7.4urllib库介绍它是Python内置的HTTP请求库,也就是说我们不需要额外安装即可使用,它包含四个模块(主要对前三个模块进行学习):request:它是最基本的HTTP请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入URL还有额外的参数,就可以模拟实现这个过程了。error:异常处理模块,如果出现请求错误,我们可以捕
系统 2019-09-27 17:54:27 1709
目录一、变量存哪了?二、Python垃圾回收机制2.1引用计数三、小整数池一、变量存哪了?x=10变量存放在内存中这句话太宽泛了,我们把它具体化。对于电脑内存这个大内存,每定义一个变量就会在这个大内存中开辟一个小空间,小空间内存放变量值10,然后内存给这个小空间一个变量名x(门牌号),x指向10。二、Python垃圾回收机制对于p1.py,如果我们再加上一段代码x=11,大内存会开辟另一个小空间存储变量值11,把变量值绑定另一个门牌号x,但是由于之前有x,
系统 2019-09-27 17:54:25 1709
一些讨论Python中使用配置文件的最佳实践Python中使用配置文件的最好方法Python符号常量多种配置文件方案对比我的建议1.排除yamlyaml不是一个好主意,因为需要给项目引入额外的依赖。首先排除它,除非是你的个人项目,或者你的项目已经引入了这个package。2.使用setting.py如果你只是需要配置一些全局的符号常量(symbolicconstants),参考Django的做法,使用setting.py,参见:https://github
系统 2019-09-27 17:54:23 1709
操作系统:windows10安装模块:Pillowpytesseracttesseract-ocr1、首先安装Pillow,可以选择安装windows版的安装包下载地址:https://pypi.org/project/Pillow/#files此处我选择安装Pillow-6.1.0.win-amd64-py2.7.exe2、安装完成后再进行安装pytesseract下载地址:https://pypi.org/project/pytesseract/#fi
系统 2019-09-27 17:54:22 1709
类代码:#-*-coding:gbk-*-importConfigParser,osclassINIFILE:def__init__(self,filename):self.filename=filenameself.initflag=Falseself.cfg=Noneself.readhandle=Noneself.writehandle=NonedefInit(self):self.cfg=ConfigParser.ConfigParser()try
系统 2019-09-27 17:54:17 1709
【百度云搜索,搜各种资料:http://www.lqkweb.com】【搜网盘,搜各种资料:http://www.swpan.cn】Requests请求Requests请求就是我们在爬虫文件写的Requests()方法,也就是提交一个请求地址,Requests请求是我们自定义的**Requests()方法提交一个请求参数:url=字符串类型url地址callback=回调函数名称method=字符串类型请求方式,如果GET,POSTheaders=字典类型
系统 2019-09-27 17:54:11 1709
今天在写监控脚本的时候遇到一个问题,就是我执行每一个监控模块(脚本)的时候,例如CPU、内存、磁盘脚本,都会返回一个字典格式的数据,但是我需要将这三个字典,组合成一个大字典,然后通过requests模块发送给api接口,so,我就在网上找了一些方法,然后总结,写成这编博文。1、首先定义三个字典(不需要考虑字典的具体内容)>>>cpu_dict={'cpu_count':8,'cpu_ratio':3.5}>>>memory_dict={'memory_co
系统 2019-09-27 17:54:08 1709
基础1、判断变量是否为None主要有三种写法:ifxisNone:ifnotx:ifnotxisNone:2、lambda函数的用法被称作匿名函数,没有具体名称的函数,允许快速定义单行函数,可以用在任何需要函数的地方。lambda与def的区别:def创建方法是有名称的,lambda没有;lambda会返回一个函数对象,但这个对象不会赋给一个标识符,而def会把函数对象赋值给一个变量;lambda只是一个表达式,def是一个语句;lambda表达式":"后
系统 2019-09-27 17:53:57 1709