今天介绍个神奇的网站!堪称爬虫偷懒的神器!我们在写爬虫,构建网络请求的时候,不可避免地要添加请求头(headers),以mdn学习区为例,我们的请求头是这样的:一般来说,我们只要添加user-agent就能满足绝大部分需求了,Python代码如下:importrequestsheaders={#'authority':'developer.mozilla.org',#'pragma':'no-cache',#'cache-control':'no-cach
系统 2019-09-27 17:53:21 2034
模块:模块就是一个python文件。模块就是一个python文件。功能:1.可以提高文件的重复利用率。提高开发效率2.用于划分程序结构。自定义模块:模块就是一个python文件而已,所有python代码都可以放入模块,实际开发中,模块放入的内容都是重复利用率高的内容主要包含:1.为当前模块专门定义的变量【其他语言一般都是常量】2.函数。3.类4.测试代码注意:模块的命名不要和内置模块重名!测试代码统一放到判断当中if__name__=='__main__'
系统 2019-09-27 17:53:19 2034
三大相关系数:pearson,spearman,kendall统计学中的三大相关性系数:pearson,spearman,kendall,他们反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1。0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。1.personcorrelationcoefficient(皮尔森相关性系数)皮尔逊相关系数通常用r或ρ表示,度量两变量X和Y之间相互关系(线性相关)(1)公式皮尔森相关性
系统 2019-09-27 17:53:11 2034
前言正则表达式就是从字符串中发现规律,并通过“抽象”的符号表达出来。打个比方,对于2,5,10,17,26,37这样的数字序列,如何计算第7个值,肯定要先找该序列的规律,然后用n2+1这个表达式来描述其规律,进而得到第7个值为50。对于需要匹配的字符串来说,同样把发现规律作为第一步,本文主要使用正则表达式完成字符串的查询匹配、替换匹配和分割匹配。常用的正则符号在进入字符串的匹配之前,先来了解一下都有哪些常用的正则符号,见下表所示:如果读者能够比较熟练地掌握
系统 2019-09-27 17:52:54 2034
上面我们学习了RDD如何转换,即一个RDD转换成另外一个RDD,但是转换完成之后并没有立刻执行,仅仅是记住了数据集的逻辑操作,只有当执行了Action动作之后才会真正触发Spark作业,进行算子的计算执行操作有:reduce(func)collect()count()first()take(n)takeSample(withReplacement,num,[seed])takeOrdered(n,[ordering])saveAsTextFile(path
系统 2019-09-27 17:52:33 2034
代码如下#!/bin/python#coding=utf-8#python-version=2.75#使用python2fromftplibimportFTP#引用ftplib库中的FTP功能模块,进行ftp下载使用importtime#引用time模块importos#引用os模块"""使用字典,定义交换机主机,一个字典包含多个键,一个键使用一个列表,包含多个主机地址按照实际情况定义"""dic={'tongjiju':['XXXX.XXXX.XXXX.
系统 2019-09-27 17:52:21 2034
目录python协程详解一、什么是协程二、了解协程的过程1、yield工作原理2、预激协程的装饰器3、终止协程和异常处理4、让协程返回值5、yieldfrom的使用6、yieldfrom的意义三、greenlet的使用四、gevent的使用python协程详解一、什么是协程协程又称为微线程,协程是一种用户态的轻量级线程协程拥有自己的寄存器和栈。协程调度切换的时候,将寄存器上下文和栈都保存到其他地方,在切换回来的时候,恢复到先前保存的寄存器上下文和栈,因此:
系统 2019-09-27 17:51:34 2034
基础元素学习一门编程语言的时候,我最先考虑的事情就是如何操作值,值(value)在程序组可以是一个数字1,2,3,4,字符'hello,word'.我们使用变量来保存这些值。又把变量保存的值成为对象,计算机会给变量的对象和变量分配内存空间。python使用的内存分配方式成为引用语义或者对象语义,而像c语言使用的时值语义。接下来具体说明一下这两种语义的区别。值语义:所谓值语义是指目标对象由源对象拷贝生成,且生成后与源对象完全无关,彼此独立存在,改变互不影响。
系统 2019-09-27 17:51:31 2034
函数:split()Python中有split()和os.path.split()两个函数,具体作用如下:split():拆分字符串。通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(list)os.path.split():按照路径将文件名和路径分割开一、函数说明1、split()函数语法:str.split(str="",num=string.count(str))[n]参数说明:str:表示为分隔符,默认为空格,但是不能为空('')。若字符串
系统 2019-09-27 17:50:49 2034
defQuickSort(myList,start,end):ifstart
系统 2019-09-27 17:50:33 2034