爬虫背景:由于原来的数据库中有1.5亿左右的用户id,但是其中有1.2亿的用户资料是不完整的(没有粉丝数量,点赞数量等,算是无用数据),现在老板要求将这些没有资料的用户更新信息,咋办?刚开始的想法是使用主从模式+scrapy爬取,但是写着写着觉得麻烦(写python的都很懒,scrapy还是比较臃肿的),然后突然想到,python中的多线程,处理爬虫这种存在大量io的操作时,多线程是非常有用的,而且省服务器资源(其他的爬虫也在服务器,能省一点是一点,毕竟是
系统 2019-09-27 17:52:29 2258
如下所示:#-*-coding:UTF-8-*-importnumpyasnpimportosfromscipy.miscimportimread,imresizeimportmatplotlib.pyplotaspltfromglobimportglob#读取目录下所有的jpg图片defload_image(image_path,image_size):file_name=glob(image_path+"/*jpg")sample=[]forfilei
系统 2019-09-27 17:52:23 2258
福利当我们爬虫写好,入库,并成功展示出来,不知不觉就实现了一个小程序项目:宅宅生活收藏夹微信搜索小程序:宅宅生活收藏夹。欢迎大家使用。之前写到宅宅生活收藏夹的部署方法,见使用Flask,Nginx,Gunicorn,Supervisor完成网站部署。这次介绍一下如何抓取知乎答案,获取知乎美图。本文除Python相关库的使用外,还会涉及到mongo数据库的使用。因为宅宅生活收藏夹只是为了收集知乎钓鱼贴的图片,有针对性,所以不能通过获取知乎首页列表全面抓取。当
系统 2019-09-27 17:51:35 2258
复制一个文件夹的文件到指定目录下importosimportshutilimporttimestart_time=time.time()#需要被复制的文件夹old_path=r'D:\zjf_workspace\001-地标、利器、服饰\004文本\json1'new_path=r'D:\zjf_workspace\001-地标、利器、服饰\004文本\json'all_list=os.listdir(old_path)foriinall_list:pri
系统 2019-09-27 17:50:51 2258
用python实现五子棋简单人机模式的练习过程,供大家参考,具体内容如下第一次写博客,我尽力把它写好。最近在初学python,今天就用自己的一些粗浅理解,来记录一下这几天的python简单人机五子棋游戏的练习,下面是实现过程的理解(是在cmd中运行的):主要流程:*重点内容*-首先是模块及类的划分-棋子类和棋盘类的方法-对策略类里的功能进行细分,调用棋子类和棋盘类-写出判断输赢的方法-用main函数进行整个游戏进度的控制模块及类的划分类的划分涉及到了面向对
系统 2019-09-27 17:48:43 2258
在CentOS6.x上,默认自带的Python是2.6.x版本,这个版本的Python有点老了,比如“collections.OrderedDict”就是2.7才有的,而且著名的PythonWeb框架Django的新版(如:1.7)就不支持Python2.6,最低要求是2.7了。而一些公司或者共有云上的服务器就是使用CentOS6.x,所以也就有了升级Python到2.7的需求。升级Python之前,需要先安装一些工具和软件库,否则后面安装Python或p
系统 2019-09-27 17:38:01 2258
[Python]Python/PHP如何查询sqlserver中NTEXT类型数据VersionDateCreatorDescription1.0.0.12006-11-23郑昀草稿继续阅读之前,我们假设您熟悉以下知识:nPython/PHPnSQLServer2000SP4以上版本的MicrosoftsqlservernpymssqlnNTEXT类型本文讨论了在Python中,如果利用pymssql来连接MicrosftSqlserver2000SP4以
系统 2019-08-12 01:33:40 2258
在使用python做爬虫的过程中,有些页面的的部分数据是通过js异步加载的,js调用接口的请求中有时还带有些加密的参数很难破解无法使用requests这样的包直接爬取数据,因此需要借助seleniu来完成js的自动加载。通过selenium模拟浏览器的真是操作来获取页面中的所有请求,并且可以查找到一下页面上一些隐藏的元素,这些元素在html源码中无法看到,并且和能通过xpath和正则来捕获,因此需要使用selenium来查找隐藏元素,例如视频网站的播放按钮
系统 2019-09-27 17:57:29 2257
由于psutil已更新到3.0.1版本,最新的代码如下:#!/usr/bin/envpythonimportosimporttimeimportsysimportatexitimportpsutil#print"Welcome,currentsystemis",os.name,"3secondslatestarttogetdata"time.sleep(3)line_num=1#functionofGetcpustatedefgetCPUstate(int
系统 2019-09-27 17:52:16 2257
编写安全的代码很困难,当你学习一门编程语言、一个模块或框架时,你会学习其使用方法。在考虑安全性时,你需要考虑如何避免代码被滥用,Python也不例外,即使在标准库中,也存在着许多糟糕的实例。然而,许多Python开发人员却根本不知道这些。以下为10个Python常见安全漏洞,排名不分先后。1.输入输出注入攻击影响广泛且很常见,注入有很多种类,它们影响所有的语言、框架和环境。SQL注入是直接编写SQL查询(而非使用ORM)时将字符串与变量混合。我读过很多代码
系统 2019-09-27 17:51:52 2257
目前工作中,Python用的最多,但是很多数学计算在Python中运行,速度会很慢,而Python本身就是基于C开发的,而且它的很多第三方模块也是,所以Python对于C接口是支持的,所以在此记录一下,Python调用C接口的过程。在网上看了很多教程,都只有Python调用dll的code,对于dll的如何生成只字不提,或者是基于linux的.so文件。在单独搜索dll如何生成后,我按照以下的code生成了dll:.cpp文件#defineEXPORT_M
系统 2019-09-27 17:51:32 2257
字符串常用方法#去掉左右空格'helloworld'.strip()#'helloworld'#按指定字符切割'helloworld'.split('')#['hello','world']#替换指定字符串'helloworld'.replace('','#')#'hello#world'csv模块作用:将爬取的数据存放到本地的csv文件中使用流程导入模块打开csv文件初始化写入对象写入数据(参数为列表)importcsvwithopen('test.cs
系统 2019-09-27 17:51:29 2257
个人兴趣,用python实现连连看的辅助程序,总结实现过程及知识点。总体思路1、获取连连看程序的窗口并前置2、游戏界面截图,将每个一小图标切图,并形成由小图标组成的二维列表3、对图片的二维列表遍历,将二维列表转换成由数字组成的二维数组,图片相同的数值相同。4、遍历二维数组,找到可消除的对象,实现算法:两个图标相邻。(一条线连接)两个图标同行,同列,且中间的图标全部为空(数值为0)(一条线连接)两条线连接,转弯一次,路径上所有图标为空。(二条线连接)三条线连
系统 2019-09-27 17:50:05 2257
importtimedeflog_time(func,*args,**kwargs):definner():t1=time.time()func(*args,**kwargs)t2=time.time()print(f"使用的时间是{t2-t1}s")returninner@log_timedefappend_func():ll=list()foriinrange(10000):ll.append(i)@log_timedefinsert_func():l
系统 2019-09-27 17:49:44 2257
本文实例讲述了Python类属性与实例属性,类对象与实例对象用法。分享给大家供大家参考,具体如下:demo.py(类属性,所有实例对象共用类属性):#定义工具类继承object是为了兼容python2.xclassTool(object):#使用赋值语句定义类属性,记录实例化工具对象的数量count=0def__init__(self,name):self.name=name#初始化方法内部定义及初始化实例属性#类名.类属性名的方式访问类属性.Tool.c
系统 2019-09-27 17:49:22 2257