前面介绍的scrapy爬虫只能爬取单个网页。如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。是小说的第一篇。可以点击返回目录还是下一页对应的网页代码:我们再看进入后面章节的网页,可以看到增加了上一页对应的网页代码:通过对比上面的网页代码可以看到.上一页,目录,下一页的网页代码都在下的元素的href里面。不同的是第一章只有2个元素,从二章开始就有3个元素。因此我们可以通过下元素的个数来判决是否含有上一页和下一页的页面。代码如下最
系统 2019-09-27 17:53:35 2287
项目中需要从Windows系统传输ISO文件到Linux测试系统,然后再Linux测试系统里安装这个ISO文件。所以就需要实现如何把文件从Windows系统传输到Linux系统中。在项目中使用了pscp.exe这个工具,只要按照pscp.exe的使用说明操作即可。只要进入pscp.exe的安装位置,然后输入pscp即可查看pscp的使用说明。下面是我机器上的:使用Python实现也挺简单的,下面的code主要介绍4中情况:1.windows传输文件到Lin
系统 2019-09-27 17:55:11 2286
一,前言入职数据分析以后,肯定要涉及到python处理excle,特别是涉及到对excle的一些重复操作时,也许能提升一些效率;因此,有必要对python操作excle进行学习。现有操作excle的工具包有很多,例如xlrd&xlwt&xlutils以及强大的pandas,此外还有别的工具包,但受限于平台或者安装方式,都没有以上两种常用。(其中,pandas不仅是用来操作excle,而是一整套强大的工具包。)知乎有一篇文章些不同python包操作excle
系统 2019-09-27 17:53:26 2286
前言如果你搜一圈"Fabric"关键字,你会发现90%的资料都是过时的,因为现在Fabric支持Python3,但是它又不兼容旧版Fabric。所以,如果你按照那些教程去操作的话根本跑不通。如果你还没用过Fabric,那么这篇文章就是帮你快速上手Fabric的。不管你现在用不用,先了解了以后也用得着。平时我们的开发流程是这样,经过几个月奋战,项目终于开发完了,测试也没问题了,我们就把代码提交到GitHub那样的托管平台,准备部署到正式环境。你小心翼翼地登录
系统 2019-09-27 17:49:14 2286
1、连续周期信号的傅立叶级数由傅立叶级数的形式可以看出,其都属于积分形式,故在MATLAB中和Python中均可以用积分函数来实现求解。例:Python中代码如下:"""连续周期信号的傅立叶级数"""fromsympyimportcos,sinfromsympy.abcimportt,n,yfromscipyimportintegrateimportnumpyasnpimportmatplotlib.pyplotaspltnf=30T=10tao=1.0a
系统 2019-09-27 17:48:40 2286
这里提供在使用python进行开发中常使用到的方法技巧,如有不对欢迎批评指正。要点:开发中类、变量特性查询,类型就是类,断言的使用,深浅复制判断等python脚本文件是使用UTF-8编码的,所以在发现中文字符出现乱码时应当考虑是否文本文件采用UTF-8编码。如果想指定不同的编码需要在源码文件中开头处添加这样的注释:#-*-coding:utf-8-*-如果python在linux和unix系统中运行,需要在源码的第一行添加:#!/usr/bin/pytho
系统 2019-09-27 17:54:14 2285
01散点图散点图显示两组数据的值,如图1-1所示。每个点的坐标位置由变量的值决定,并由一组不连接的点完成,用于观察两种变量的相关性。例如,身高—体重、温度—维度。图1-1散点图示例使用Matplotlib的scatter()函数绘制散点图,其中x和y是相同长度的数组序列。scatter()函数的一般用法为:主要参数说明如下:x,y:数组。s:散点图中点的大小,可选。c:散点图中点的颜色,可选。marker:散点图的形状,可选。alpha:表示透明度,在0~
系统 2019-09-27 17:52:54 2285
看着自己少得可怜的访问量,突然有一个想用爬虫刷访问量的想法,主要也是抱着尝试的心态,学习学习。其实市面上有一些软件可以代刷流量比如流量精灵,使用感确实比我们自己写的代码要好一些第一版:网上借鉴了一下以下代码运行在python3importurllib.requestimporttime#使用build_opener()是为了让python程序模仿浏览器进行访问opener=urllib.request.build_opener()opener.addhea
系统 2019-09-27 17:52:39 2285
词云图是将词汇按照频率的高低显示不同大小而形成的图,可以一目了然地看出关键词。下面是词云图的python代码~#导入需要模块importjiebaimportnumpyasnpimportmatplotlib.pyplotaspltfromPILimportImagefromwordcloudimportWordCloud,STOPWORDS,ImageColorGeneratortext_road=str(input('请输入文章的路径:'))pictu
系统 2019-09-27 17:48:34 2285
1.基本原理通过一个变换,将输入图像的灰度级转换为`均匀分布`,变换后的灰度级的概率密度函数为$$P_s(s)=\frac{1}{L-1}$$直方图均衡的变换为$$s=T(r)=(L-1)\int_0^r{P_r(c)}\,{\rmd}c$$$s$为变换后的灰度级,$r$为变换前的灰度级$P_r(r)$为变换前的概率密度函数2.测试结果图源自skimage3.代码importnumpyasnpdefhist_equalization(input_image
系统 2019-09-27 17:48:32 2285
本文详述了Python的import机制,对于理解Python的运行机制很有帮助!1.标准import:Python中所有加载到内存的模块都放在sys.modules。当import一个模块时首先会在这个列表中查找是否已经加载了此模块,如果加载了则只是将模块的名字加入到正在调用import的模块的Local名字空间中。如果没有加载则从sys.path目录中按照模块名称查找模块文件,模块可以是py、pyc、pyd,找到后将模块载入内存,并加到sys.modu
系统 2019-09-27 17:47:57 2285
我们之前看到了函数和对象。从本质上来说,它们都是为了更好的组织已经有的程序,以方便重复利用。模块(module)也是为了同样的目的。在Python中,一个.py文件就构成一个模块。通过模块,你可以调用其它文件中的程序。引入模块我们先写一个first.py文件,内容如下:复制代码代码如下:deflaugh():print'HaHaHaHa'再写一个second.py,并引入first中的程序:复制代码代码如下:importfirstforiinrange(1
系统 2019-09-27 17:45:51 2285
这篇文章总结了关于二叉树的创建和各种遍历方式。二叉树的创建方式通过层次遍历顺序创建先序遍历顺序(带上叶子结点标识符)创建先序顺序+中序顺序中序顺序+后序顺序二叉树的递归方式先序遍历(递归+非递归)中序遍历(递归+非递归)后序遍历(递归+非递归)广度优先遍历(BFS)首先来定义一下节点的结构classNode():def__init__(self,val):self.val=valself.left=Noneself.right=None然后定义树类clas
系统 2019-09-27 17:57:13 2284
从url中找到域名,首先想到的是用正则,然后寻找相应的类库。用正则解析有很多不完备的地方,url中有域名,域名后缀一直在不断增加等。通过google查到几种方法,一种是用Python中自带的模块和正则相结合来解析域名,另一种是使第三方用写好的解析模块直接解析出域名。要解析的url复制代码代码如下:urls=["http://meiwen.me/src/index.html","http://1000chi.com/game/index.html","htt
系统 2019-09-27 17:56:17 2284
本文实例讲述了Python实现计算文件MD5和SHA1的方法。分享给大家供大家参考,具体如下:不多说,直接源码:#filemd5importsys;importhashlib;importos.path;defGetFileMd5(strFile):file=None;bRet=False;strMd5="";strSha1="";try:file=open(strFile,"rb");md5=hashlib.md5();sha1=hashlib.sha1
系统 2019-09-27 17:53:54 2284