fileinput模块可以遍历文本文件的所有行.它的工作方式和readlines很类似,不同点在于,它不是将全部的行读到列表中而是创建了一个xreadlines对象.下面是fileinput模块中的常用函数input()#它会返回能够用于for循环遍历的对象.filename()#返回当前文件的名称lineno()#返回当前(累计)的行数filelineno()#返回当前文件的行数isfirstline()#检查当前行是否是文件的第一行复制代码代码如下:#
系统 2019-09-27 17:46:52 1850
1.从集合中取出最大或最小N个元素importheapqnums=[1,8,2,23,7,-4,18,23,42,37,2]print(heapq.nlargest(3,nums))#输出[42,37,23]print(heapq.nsmallest(3,nums))#输出[-4,1,2]也支持其他参数支持更为复杂的数据结构portfolio=[{'name':'IBM','shares':100,'price':91.1},{'name':'AAPL',
系统 2019-09-27 17:46:30 1850
django使用app机制来实现组件的重用,充分的利用已有的app可以极大的简化开发工作。目前django下的app虽然还不够丰富,却也还是有部分不错的。django-tagging就是一个不错的app。现在tag的应用非常广泛,tag基本上成了各网站的必备项目之一,django-tagging就是一个提供tag功能的app。django-tagging提供的功能非常丰富,使用起来却十分简单。下面我就介绍一些常用的用法,让大家对该app有个基本的了解,更详
系统 2019-09-27 17:46:09 1850
本文实例讲述了Python实现根据指定端口探测服务器/模块部署的方法,非常具有实用价值。分享给大家供大家参考借鉴。有些时候,在维护过程中,服务器数量非常多。应用模块部署在不同服务器上。有时维护人员做了模块迁移,而未及时同步至手册中。查找比较困难。于是,产生Python根据应用端口进行探测,获取模块部署。设想非常简单:通过简单的tcp链接,如果能够成功的建立,立即断开,防止影响业务。表示模块在某服务器上有部署。具体功能代码如下:#!/bin/envpytho
系统 2019-09-27 17:46:05 1850
文|yangrq1018经常在腾讯视频上看电影,在影片库里有一个"豆瓣好评"板块。我一般会在这个条目下面挑电影。但是电影很多,又缺乏索引,只能不停地往下来,让js加载更多的条目。然而前面的看完了,每次找新的片就要拉很久。所以用爬虫将"豆瓣好评"里的电影都爬下来整理到一个表中,方便选片。项目地址:https://github.com/yangrq1018/vqq-douban-film依赖需要如下Python包:requestsbs4-Beautifulso
系统 2019-09-27 17:46:04 1850
这次只演示了,如何在真实项目内用到BeautifulSoup库来解析网页,而新浪的新闻是ajax加载过来的数据,在这里我们只演示解析部分数据(具体反扒机制没做分析)。代码地址:https://gitee.com/dwyui/BeautifulSoup_xinlang.git。关于的爬虫的博客已经越来越多,使用到的技术也越来越多,后期我还会持续写下去,大概从几个角度去写,多线程爬取(提高效率),如何更好的做到爬取数据(破解反扒)。用redis管理多线程和代理
系统 2019-09-27 17:45:54 1850
背景:有一个爬虫服务,需要定时从公开网站上拉取一些数据,为了避免被识别为爬虫(防爬虫的识别需要根据很多特征,时间仅仅是其中一个维度),需要在指定的时间内,随机生成一个时间爬取脚本是python写的,直接上代码...importloggingimporttracebackfromdatetimeimportdatetimefromapscheduler.schedulers.backgroundimportBackgroundSchedulerschedul
系统 2019-09-27 17:45:32 1850
前言最近遇到了一个问题:我的server和client不是在一个时区,server时区是EDT,即美国东部时区,client,就是我自己的电脑,时区是中国标准时区,东八区。处于测试需要,我需要向server发送一个时间,使得server在这个时间戳去执行一些动作。这个时间戳通常是当前时间加2分钟或者几分钟。通常美东在夏令时时,和我们相差12小时,所以直接减掉这12小时,然后再加两分钟,可以实现发送基于server的时间戳,但是只有一半时间是夏令时,所以考虑
系统 2019-09-27 17:38:44 1850
心血来潮写了个多线程抓妹子图,虽然代码还是有一些瑕疵,但是还是记录下来,分享给大家。Pic_downloader.py#-*-coding:utf-8-*-"""CreatedonFriAug0717:30:582015@author:Dreace"""importurllib2importsysimporttimeimportosimportrandomfrommultiprocessing.dummyimportPoolasThreadPooltype
系统 2019-09-27 17:38:32 1850
python纵向合并任意多个图片,files是要拼接的文件list#-*-coding:utf-8-*-defmergeReport(files):fromPILimportImageimportnumpyasnpbaseimg=Image.open(files[0])sz=baseimg.sizebasemat=np.atleast_2d(baseimg)forfileinfiles[1:]:im=Image.open(file)#resizetosam
系统 2019-09-27 17:37:43 1850
一般说来,你会把模板以文件的方式存储在文件系统中,但是你也可以使用自定义的templateloaders从其他来源加载模板。Django有两种方法加载模板django.template.loader.get_template(template_name):get_template根据给定的模板名称返回一个已编译的模板(一个Template对象)。如果模板不存在,就触发TemplateDoesNotExist的异常。django.template.loade
系统 2019-09-27 17:37:43 1850
本文实例讲述了python3生成随机数的方法。分享给大家供大家参考。具体实现方法如下:该实例是根据一本书上看到过一个随机数的小程序,经过自己改动,变为了一个猜数字的小游戏,现在在python3下重写了一遍。这是一个控制台下的猜数程序,winxp+python3.2+eric5和IDLE测试通过,但直接用winxp的命令行运行有问题,原因还未知,慢慢找。ubuntu+python3.1测试通过。具体实现代码如下:复制代码代码如下:#-*-coding:utf
系统 2019-09-27 17:55:11 1849
判读是否存在文件夹importtensorflowastfimportosfolder='./floder'ifnottf.gfile.Exists(folder):#若文件夹不存在,则自动创建文件夹tf.gfile.MakeDirs(folder)若存在删除文件夹下所有文件iftf.gfile.Exists(folder):#返回一个listforfilein(tf.gfile.ListDirectory(folder)):#添加绝对路径,并删除文件tf
系统 2019-09-27 17:54:49 1849
python中random的常用方法总结一、random常用模块1.random.random()随机生成一个小数print(random.random())#输出0.60605621179967842.random.randint(m,n)随机生成一个m到n的整数(包括n)print(random.randint(1,5))#输出53.random.randrange(m,n)随机生成m到n中的一个数,包括m但是不包括nprint(random.rand
系统 2019-09-27 17:54:35 1849
前提:python3.4windows作用:通过搜狗的微信搜索接口http://weixin.sogou.com/来搜索相关微信文章,并将标题及相关链接导入Excel表格中说明:需xlsxwriter模块,另程序编写时间为2017/7/11,以免之后程序无法使用可能是网站做过相关改变,程序较为简单,除去注释40多行。正题:思路:打开初始Url-->正则获取标题及链接-->改变page循环第二步-->将得到的标题及链接导入Excel爬虫的第一步都是先手工操作
系统 2019-09-27 17:54:31 1849