今天主要是来说一下怎么可视化来监控你的爬虫的状态。相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样。今天我来讲一种可视化的方法。关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据。1.成品图这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M。爬虫的原理都是一样的,只不过将数据存到InfluxDB的
系统 2019-09-27 17:50:52 2049
1.函数名的运用你们说一下,按照你们的理解,函数名是什么?函数名的定义和变量的定义几乎一致,在变量的角度,函数名其实就是一个变量,具有变量的功能:可以赋值;但是作为函数名他也有特殊的功能就是加上()就会执行对应的函数,所以我们可以把函数名当做一个特殊的变量,那么接下来,我们就来研究一下这个特殊的变量。1.1函数的内存地址deffunc():print("呵呵")print(func)结果:通过上面代码可以我们知道,函数名指向的是这个函数的内存地址,其
系统 2019-09-27 17:50:42 2049
最简单的网页取源(不用模拟浏览器的情况)1importrequests2defgetHTML(url):3try:4r=requests.get(url,timeout=30)5r.raise_for_status()6r.encoding='utf-8'7returnr.text8except:9return""10url="http://baidu.com"11print(getHTML(url))
系统 2019-09-27 17:50:19 2049
1.open使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。file_object=open('thefile.txt')try:all_the_text=file_object.read()finally:file_object.close()注:不能把open语句放在try块里,因为当打开文件出现异常时,文件对象file_object无法执行close()方法。2.读文件读文本
系统 2019-09-27 17:49:43 2049
王者荣耀这么久了,还没上王者?哈哈哈,看过来,是不是对英雄理解的不够透彻呢,是不是还没有很好的为英雄分类呢,今天就来看看英雄分类技术栈一、EM聚类简介二、爬取网上的英雄初始属性值三、做成饼图EM聚类简介EM英文名是ExpectationMaximization,也叫最大期望算法。在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVari
系统 2019-09-27 17:48:38 2049
Shellshell获取文件最后修改时间的秒时间戳:stat-c%Y$path/$newest_logshell获取当前时间的秒时间戳:date+%s两个时间戳相减:timegap=$[$timestamp-$filetimestamp]将日期时间字符串转化为时间戳:date-d"2019-08-26"+%s将时间戳转化为日期时间字符串:date-d@1566748800获取n天前的日期时间:date-d"1dayago"+"%Y-%m-%d"获取n分钟前
系统 2019-09-27 17:48:12 2049
6月17日22分25分,四川省宜宾市长宁县发生了6.0级地震,成都高新减灾研究所与应急管理部门联合建设的大陆地震预警网成功预警本次地震,提前10秒向宜宾市预警,提前61秒向成都预警。虽然自己还不能写出这么牛逼的系统,但是今天我想结合自己学到的Python知识,用Python获取地震信息,然后微信实时推送给你的群组或你的朋友。1.前期准备1.爬虫基本知识,比如requests库,以及lxml库;2.利用Xpath进行HTML的解析;之前写的一些简单项目,提取
系统 2019-09-27 17:47:21 2049
在实现异步调用之前我们先进行什么是同步调用和异步调用同步:是指完成事务的逻辑,先执行第一个事务,如果阻塞了,会一直等待,直到这个事务完成,再执行第二个事务,顺序执行异步:是和同步相对的,异步是指在处理调用这个事务的之后,不会等待这个事务的处理结果,直接处理第二个事务去了,通过状态、通知、回调来通知调用者处理结果分析一下,下面的例子:定义了一个装饰器async和A、B两个function函数A里面sleep10s,然后打印afunction字符串B里面直接打
系统 2019-09-27 17:45:52 2049
首先先介绍下windows系统的令牌。windows系统的令牌是指:"一个包含进程或者线程上下文环境的对象"。简单的说就是记录着一个进程被赋予的权限。这里就有一个问题,windows开发者出于好意,会给一个安全产品内嵌一个系统托盘的程序,并且将seLoadDriver权限赋予了系统托盘程序。而这会让没有相应权限的用户,控制以驱动形式存在的windows系统服务。(方法是通过向系统托盘程序中插入代码)。所有首先第一步,查询token中的权限,看看哪些进程含有
系统 2019-09-27 17:45:32 2049
来源:http://stackoverflow.com/questions/3806562/ways-to-move-up-and-down-the-dir-structure-in-python#Movingup/downdirstructureprintos.listdir('.')#currentlevelprintos.listdir('..')#onelevelupprintos.listdir('../..')#twolevelsup#more
系统 2019-09-27 17:38:27 2049