jsonJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,易于人阅读和编写。json是我们在制作爬虫时非常常见的网络对象,本文就列举python对于json的基本操作。json函数使用json函数首先要导入json库即importjson主要使用以下两个函数:json.dumps将Python对象编码成JSON字符串json.loads将已编码的JSON字符串解码为Python对象json.dumpsjson.dump
系统 2019-09-27 17:54:25 2122
简单来说python的内存管理机制有三种1)引用计数2)垃圾回收3)内存池接下来我们来详细讲解这三种管理机制1,引用计数:引用计数是一种非常高效的内存管理手段,当一个pyhton对象被引用时其引用计数增加1,当其不再被引用时引用计数减1,当引用计数等于0的时候,对象就被删除了。2,垃圾回收(这是一个很重要知识点):①引用计数引用计数也是一种垃圾回收机制,而且是一种最直观,最简单的垃圾回收技术。在Python中每一个对象的核心就是一个结构体PyObject,
系统 2019-09-27 17:54:17 2122
今天咱写一个挺实用的工具,就是扫描并获取可用的proxy首先呢,我先百度找了一个网站:http://www.xicidaili.com作为例子这个网站里公布了许多的国内外可用的代理的ip和端口我们还是按照老样子进行分析,就先把所有国内的proxy扫一遍吧点开国内部分进行审查发现,国内proxy和目录为以下url:http://www.xicidaili.com/nn/x这个x差不多两千多页,那么看来又要线程处理了。。。老样子,我们尝试是否能直接以最简单的r
系统 2019-09-27 17:54:09 2122
机器学习(MachineLearning)根据已知数据来不断学习和积累经验,然后总结出规律并尝试预测未知数据的属性,是一门综合性非常强的多领域交叉学科,涉及线性代数、概率论、逼近论、凸分析、算法复杂度理论等多门学科。目前机器学习已经有了十分广泛的应用,例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。总体上说,机器学习算法和问题可以分为有监督学习和无
系统 2019-09-27 17:53:49 2122
用Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字。如下所示:复制代码代码如下:importurllib2url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"up=urllib2.urlopen(url)#打开目标页面,存入变量upcont=up.read()#从up中读入该HTML文件key1='ke
系统 2019-09-27 17:53:24 2122
self:1.只是一个参数。2.在对象使用方法的时候,当前对象会作为第一个参数的实参传入3.self相当于语言中的代词,表示当前对象本身(其他语言中也有使用this)4.self的作用连接整个对象的所有信息。桥梁的作用!5.self不是关键字,只是一个参数变量名而已,可以使用其他单词代替(禁止代替)6.方法的初步分类:方法中具有接受对象的参数这个方法,叫做非绑定类的方法方法中没有接受对象的参数这个方法,叫做绑定类的方法:即将deffunc(self)中的s
系统 2019-09-27 17:53:21 2122
json格式的限制json格式的key必须是字符串数据类型文件中所有的字符串必须是""如果数字是key,那么dump之后会强行转换成字符串数据类型json支持元组,对元组做value的字典会把元组强制转化成列表,元组不能作为key可以多次dump,但是不能load,但是如果非要用json模块进行dump,最好用dumps写入,loads输出dic={‘1’:‘中国’,‘3’:4}str_dic=json.dumps(dic,ensure_ascii=Fal
系统 2019-09-27 17:53:06 2122
python2中的urllib2改为python3中的urllib.request四种方式对比:python2的get#coding=utf-8importurllibimporturllib2word=urllib.urlencode({"wd":"百度"})url='http://www.baidu.com/s'+'?'+wordrequest=urllib2.Request(url)printurllib2.urlopen(request).read
系统 2019-09-27 17:52:45 2122
我浏览了下网上关于怎么Python爬虫入门的文章,发现有的还在教人用urllib来发送http请求,这真是有点误人子弟了。本文也不提倡刚开始去学习第三方爬虫框架,我想把要学习的知识简化一些,让入门更快速,更专注。Python爬虫入门:技能真要说Python爬虫需要具备什么知识,那就是你得会Python,哈哈。其他的知识就是你能熟练运用Python的几个第三方库,当然你具备一点htmljavascriptcsshttp协议可以提高你的解决问题的效率,但这是一
系统 2019-09-27 17:52:27 2122
没必要.目前网上优质、实用的免费课程有很多,而一些收费的课程目的并不在于授业解惑,而是在于盈利。如果本着分享的目的,获取一些回报自然无可厚非,只怕绝大多数提供课程的出发点就带着商业行为,这样对于刚入门、不了解情况的初学者是一个非常严重的误导,不仅花费冤枉钱,而且掉进坑里费心费力,文末有资源下载方式。说一下我关于Python学习的看法,我认为Python作为一个较为简单的编程语言没必要看一些视频课程,这样会花费大量时间,而对于编程最高效的学习路线莫过于以下几
系统 2019-09-27 17:51:45 2122