涉及到详情页爬取目录结构:kaoshi_bqg.pyimportscrapyfromscrapy.spidersimportRulefromscrapy.linkextractorsimportLinkExtractorfrom..itemsimportBookBQGItemclassKaoshiBqgSpider(scrapy.Spider):name='kaoshi_bqg'allowed_domains=['biquge5200.cc']start_
系统 2019-09-27 17:46:11 2107
Python对文件的操作还算是方便的,只需要包含os模块进来,使用相关函数即可实现目录的创建。主要涉及到三个函数:1、os.path.exists(path)判断一个目录是否存在2、os.makedirs(path)多层创建目录3、os.mkdir(path)创建目录直接上代码:复制代码代码如下:defmkdir(path):#引入模块importos#去除首位空格path=path.strip()#去除尾部\符号path=path.rstrip("\\"
系统 2019-09-27 17:46:08 2107
在平时的工程中,我们在构建工程时,常常需要用到配置文件,用来配置项目的一些信息,比如数据库,请求网址,文件夹,线程、进程数等信息,这样就可以方便我们通过修改配置文件中的参数来很好地完成整个项目的功能修改或开发。配置文件一般区别于Python代码,会单独存放在一个文件夹中,方便管理,常见的配置文件格式有.conf,.ini,.yaml等。本文使用Python中的configparser模块来处理conf、ini配置文件。首先需要安装configparser模
系统 2019-09-27 17:45:29 2107
最近研究研究了css,少不了去网上分析一下别人的网页,但很多网站的css文件都是要么写在一行,要么一个换行都没有,看起来极其痛苦,所以写一个脚本转换一下,转换为比较有可读性的格式。下面就是这个脚本:importstring,sysimportre,StringIOTAB=4defformat(ss):f=open(ss,"r")data=f.read()f.close()dlen=len(data)i=0buf=StringIO.StringIO()sta
系统 2019-09-27 17:38:44 2107
什么是中间件我们从一个简单的例子开始。高流量的站点通常需要将Django部署在负载平衡proxy之后。这种方式将带来一些复杂性,其一就是每个request中的远程IP地址(request.META["REMOTE_IP"])将指向该负载平衡proxy,而不是发起这个request的实际IP。负载平衡proxy处理这个问题的方法在特殊的X-Forwarded-For中设置实际发起请求的IP。因此,需要一个小小的中间件来确保运行在proxy之后的站点也能够在r
系统 2019-09-27 17:38:42 2107
前言因为有一些网站需要每日检查是否有问题,所以需要一个报警监控的机制,这个需要你指定你发送的邮箱和你接收的邮箱,就可以做到对网站自动监控了。这里用的是python3.5需要安装的插件:1、smtplib:发邮件需要用到2、pycurl:访问网站时会需要用到3、linecache:在读取txt网站清单时需要用到具体思路:python程序从txt里面批量读取到网站的信息,通过Curl.py模拟浏览器去访问网站,并且把访问的结果写入到以自己的网站名称-日期.tx
系统 2019-09-27 17:38:41 2107
有如下的代码:classp1:def__init__(self,a,b):print("initinp1")self.a1=aself.b1=bself.f1()deff1(self):print("f1inp1")classc1(p1):def__init__(self,a,b,c=2):print("initinc1")p1.__init__(self,a,b)self.c1=cself.f1()deff1(self):print("f1inp2")c
系统 2019-09-27 17:38:39 2107
先给出结论:要替换的字符数量不多时,可以直接链式replace()方法进行替换,效率非常高;如果要替换的字符数量较多,则推荐在for循环中调用replace()进行替换。可行的方法:1.链式replace()string.replace().replace()1.x在for循环中调用replace()「在要替换的字符较多时」2.使用string.maketrans3.先re.compile然后re.sub……defa(text):chars=""for
系统 2019-09-27 17:38:36 2107
前言在Python中定义函数,可以用必选参数、默认参数、可变参数和关键字参数,这4种参数都可以一起使用,或者只用其中某些,但是请注意,参数定义的顺序必须是:必选参数、默认参数、可变参数和关键字参数。可变参数(*)可变参数,顾名思义,它的参数是可变的,比如列表、字典等。如果我们需要函数处理可变数量参数的时候,就可以使用可变参数。我们在查看很多Python源码时,经常会看到某函数(*参数1,**参数2)这样的函数定义,这个*参数和**参数就是可变参数,一时会让
系统 2019-09-27 17:38:26 2107
先看代码:In[1]:a={'name':'wang'}In[2]:a.get('age')In[3]:a['age']---------------------------------------------------------------------------KeyErrorTraceback(mostrecentcalllast)in()---->1a['age']KeyError:'age'In[4]:a.get('age',10)Out[4
系统 2019-09-27 17:38:06 2107