思路一、想要实现登录豆瓣关键点分析真实post地址----寻找它的formdata,如下图,按浏览器的F12可以找到。实战操作实现:模拟登录豆瓣,验证码处理,登录到个人主页就算是success数据:没有抓取数据,此实战主要是模拟登录和处理验证码的学习。要是有需求要抓取数据,编写相关的抓取规则即可抓取内容。登录成功展示如图:spiders文件夹中DouBan.py主要代码如下:#-*-coding:utf-8-*-importscrapy,urllib,re
系统 2019-09-27 17:52:01 1912
有时网页中会嵌套一个或者多个Frame,此时我们直接去找嵌套在Frame里面的元素会抛出异常,所以在操作的时候我们需要将页面焦点切换到Frame里面,下面我们就以一个实例演示一下!首先先创建三个html文件,文件代码如下:1)frameset.html2)frame_left.html3)frame_right.html4)frame_middle.html5)把这四个html文件放在同一个文件夹下<以下是python实现该逻辑的代码:importunit
系统 2019-09-27 17:50:57 1912
今天主要是来说一下怎么可视化来监控你的爬虫的状态。相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样。今天我来讲一种可视化的方法。关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据。1.成品图这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M。爬虫的原理都是一样的,只不过将数据存到InfluxDB的
系统 2019-09-27 17:50:52 1912
面向对象---谁来做?相比函数,面向对象是一个更大的封装,根据职责在一个对象中封装多个方法。在完成某个需求前,首先确定职责--要做的事情(方法)根据职责确定不同的对象,在对象内部封装不同的方法最后完成代码,就是顺序的让不同的对象调用不同的方法。特点:注重对象和职责,不同的对象承担不同的职责。更加适合应对对复杂需求的变化,是专门应对复杂项目开发,提供的固定套路。面向对象的两个核心概念:类和对象类的定义:是对一群具有相同特征(属性)或者行为(方法)的事物的一个
系统 2019-09-27 17:50:07 1912
函数的返回值函数执行完毕之后可以得到一个结果,该结果可以被接受或者使用函数划分为两大类:执行过程函数:函数执行之后没有任何结果可以在函数之外接收到(没有return语句的函数)#执行过程函数res=print("你好")print(res)#结果是None-空值具有返回值的函数:函数执行之后可以返回一个结果到函数之外被接收或者使用(具有return语句)#具有返回值的函数res=id(1)print(res)return:返回的意思#自己写具有返回值的函数
系统 2019-09-27 17:49:20 1912
这个程序的功能非常的简单,就是每天在系统中新建一个文件夹。文件夹即当前的时间。此代码是在同事那边看到的,为了锻炼下自己薄弱的Python能力,所以花时间重新写了一个。具体代码如下:importtime,osbasePath='F:\\work\\'thisYear=str(time.localtime()[0])thisMonth=str(time.localtime()[1])thisDay=time.strftime("%Y-%m-%d",time.l
系统 2019-09-27 17:48:16 1912
Python数据分析:数据特征分析文章目录1.定量数据分布分析极差、组距、频率分布表、频率分布直方图不同样式的直方图2.定性数据分布分析饼图、条形图时间序列图:概述及时间格式转换时间序列图:横坐标为时间的折线图、周期性分析时间序列图:绘制不同样式的折线图散点图:不同组别数据绘制在一幅图中1.定量数据分布分析极差、组距、频率分布表、频率分布直方图#定量数据的分布分析importpandasaspdimportnumpyasnpimportmatplotlib
系统 2019-09-27 17:47:04 1912
前言在iOS项目开发的过程中,如果版本迭代开发的时间比较长,那么在很多版本开发以后或者说有多人开发参与以后,工程中难免有一些垃圾资源,未被使用却占据着api包的大小!这里我通过Python脚本来查找项目中未被使用的图片、音频、视频资源,然后删除掉;以达到减小APP包大小的目的!代码先查找项目中所以的资源文件存到你数组里面defsearchAllResName(file_dir):global_resNameMapfs=os.listdir(file_dir
系统 2019-09-27 17:46:20 1912
前言关于python版本,我一开始看很多资料说python2比较好,因为很多库还不支持3,但是使用到现在为止觉得还是pythin3比较好用,因为编码什么的问题,觉得2还是没有3方便。而且在网上找到的2中的一些资料稍微改一下也还是可以用。好了,开始说爬百度百科的事。这里设定的需求是爬取北京地区n个景点的全部信息,n个景点的名称是在文件中给出的。没有用到api,只是单纯的爬网页信息。1、根据关键字获取url由于只需要爬取信息,而且不涉及交互,可以使用简单的方法
系统 2019-09-27 17:38:45 1912
本文实例讲述了PythonMongoDB插入数据时已存在则不执行,不存在则插入的解决方法。分享给大家供大家参考,具体如下:前言:想把QQ日志爬虫(Python)爬下来的日志保存到MongoDB里面。但insert的时候报错:E11000duplicatekeyerrorcollection:QQ.Blogindex:_id_dupkey:{:"965464518_1301232446"}后来知道错误的原因是:插入的数据和已有数据的ID重复了。我想要的是:插
系统 2019-09-27 17:38:32 1912