- 军军小站|张军博客
搜索到与相关的文章
Python

【Python3网络爬虫开发实战】3.4-抓取猫眼电影排行

【摘要】本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为解析工具。1.本节目标本节中,我们要提取出猫眼电影TOP100的电影名称、时间、评分、图片等信息,提取的站点URL为http://maoyan.com/board/4,提取的结果会以文件形式保存下来。2.准备工作在本节开始之前,请确保已经正确安装好了r

系统 2019-09-27 17:48:56 1862

Python

利用Python实现简单的相似图片搜索的教程

大概五年前吧,我那时还在为一家约会网站做开发工作。他们是早期创业公司,但他们也开始拥有了一些稳定用户量。不像其他约会网站,这家公司向来以洁身自好为主要市场形象。它不是一个供你鬼混的网站――是让你能找到忠实伴侣的地方。由于投入了数以百万计的风险资本(在US大萧条之前),他们关于真爱并找寻灵魂伴侣的在线广告势如破竹。Forbes(福布斯,美国著名财经杂志)采访了他们。全国性电视节目也对他们进行了专访。早期的成功促成了事业起步时让人垂涎的指数级增长现象――他们的

系统 2019-09-27 17:48:46 1862

Python

Python3.x版本中新的字符串格式化方法

我们知道Python3.x引入了新的字符串格式化语法。不同于Python2.x的复制代码代码如下:"%s%s"%(a,b)Python3.x是复制代码代码如下:"{0}{1}".format(a,b)今天我在用MySQLdb时,需要用带参数的复制代码代码如下:cursor.execute(sql,param)语句来完成SQL操作。被其他文章的陈旧说法给误导,用了复制代码代码如下:cursor.execute('insertintotestvalues(%s

系统 2019-09-27 17:48:45 1862

Python

Python程序设计入门(2)变量类型简介

通常来说,Python的变量/数据类型非常多,但是它是不需要用户指定的,因为有些是根据部份系统函数生成,另外一些是自动根据变量的值识别的,这些数据类型常量在classtypes定义,所以使用时需要importtypes如:复制代码代码如下:importtypesa=[1,2,3]iftype(a)istypes.ListType:printaelse:print'notlist'Python的具体变量/数据类型如下:NoneTypeNone类型TypeTy

系统 2019-09-27 17:48:24 1862

Python

python搜索包的路径的实现方法

查看python搜索包的路径的实现方法:python搜索包的路径存储在sys.path下查看方法:importsyssys.path临时添加python搜索包路径的方法:方法1:(先进入python)importsyssys.path.append(‘路径')(这种方式仅对当前python有效)方法2:exportPYTHONPATH=路径(这种方式对所有的python有效)永久写入sys.path的方法:方法1:在已有的sys.path搜索路径下添加.p

系统 2019-09-27 17:48:22 1862

Python

Python解析命令行读取参数--argparse模块使用方法

在多个文件或者不同语言协同的项目中,python脚本经常需要从命令行直接读取参数。万能的python就自带了argprase包使得这一工作变得简单而规范。PS:optparse包是类似的功能,只不过写起来更麻烦一些。如果脚本很简单或临时使用,没有多个复杂的参数选项,可以直接利用sys.argv将脚本后的参数依次读取(读进来的默认是字符串格式)。比如如下名为test.py的脚本:importsysprint"Inputargumentis%s"%(sys.a

系统 2019-09-27 17:48:12 1862

Python

Python2和3字符编码的区别知识点整理

python解释器运行代码的流程启动python解释器(相当于文本编辑器)打开文件,显示这个字符并检查语法(涉及字符编码,a=1只是一个很普通的字符)解释字符(涉及字符编码,再去内存空间生成一个a=1的变量)python2用的是ascii,python3默认是utf8读取字符#coding:gbk会告诉python3解释器用gbk编码读取字符python3(了解)你看到的其实是unicode但是终端帮你把这个unicode的0和1做一个转换,从unicod

系统 2019-09-27 17:48:12 1862

Python

使用rpclib进行Python网络编程时的注释问题

rpclib是一个非常好用的pythonwebservice库,可以动态的生成wsdl,不过这个项目已经基本停止,并被一个新的项目取代spyne,由于旧的项目工作已经比较稳定,所以我没有贸然升级到spyne。我在rpclib编写service方法时,遇到一个奇怪的错误:访问wsdl(http://localhost:9898/?wsdl)页面,返回502BadGateway。在日志中看到如下错误信息:复制代码代码如下:ValueError:Allstrin

系统 2019-09-27 17:48:07 1862

Python

python实现多线程采集的2个代码例子

代码一:#!/usr/bin/python#-*-coding:utf-8-*-#encoding=utf-8importthreadingimportQueueimportsysimporturllib2importreimportMySQLdb##数据库变量设置#DB_HOST='127.0.0.1'DB_USER="XXXX"DB_PASSWD="XXXXXXXX"DB_NAME="xxxx"##变量设置#THREAD_LIMIT=3jobs=Que

系统 2019-09-27 17:47:49 1862

Python

python中使用urllib2伪造HTTP报头的2个方法

在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行下面,我们将使用urllib2的header部分伪造报头来实现采集信息方法1、#!/usr/bin/python#-*-coding:utf-8-*-#encoding=utf-8#Filename:urllib2-header.pyimporturllib2importsys#抓取网页内容-发送报头-1url="//www.jb51.net"send_headers={'Host':'www.

系统 2019-09-27 17:47:48 1862