爬虫工作的三个基本步骤:爬取网页、解析内容、存储数据准备先安装爬取网页需要用到的第三方库:requests和bs4pipinstallrequestspipinstallbs4爬取网页#coding:UTF-8importrequestslink="http://www.santostang.com/"headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(K
系统 2019-09-27 17:57:02 2270
常用终端命令(python虚拟环境+git)基础新建文件夹mkdir[文件夹名]新建文件touch[文件名]编辑文件vi[文件名]查看当前文件夹位置中的所有文件ls(-a/-all)-a:显示隐藏文件;-all:显示隐藏文件和属性python虚拟环境jupyternotebook添加虚拟环境变量(需要在该变量中)python-mipykernelinstall(--user)--name[环境名称]--display-name"[显示的名称]"#####查
系统 2019-09-27 17:56:37 2270
1.强制类型转换dict()强制转换为字典类型list()强制转换为列表类型tuple()强制转换为元组类型int()强制转为整形str()强制转换为字符串类型bool()强制转换为布尔类型set()强制转换为集合类型2.输入输出print()输出input()输入3.数学相关abs()绝对值qqq=abs(-253)print(qqq)float()转换成浮点型v=55v1=float(v)print(v1)max()找到最大值list=[11,22,3
系统 2019-09-27 17:55:32 2270
python自带了四种数据结构:列表、字典、元组、集合,本章主要介绍第一种:列表。列表:有序的、可变的对象集合动态的:长度可以随时变化异构的:数字与字符串等不同类型的变量可以存在一个列表里元组:有序的、不可变的对象集合简单来说就是一个常量列表。字典:无序的键值对集合就类似C++里面的map。注意字典增加元素的插入顺序没有任何意义。在一个字典中,键的值是唯一的。集合:无序的、唯一对象的集合类似C++中的set。但是是没有顺序的。1、in操作符使用in操作符来
系统 2019-09-27 17:55:09 2270
Python函数编程——名称空间名称空间又名namespace,顾名思义就是存放名字的地方,存什么名字呢?举例说明,若变量x=1,1存放于内存中,那名字x存放在哪里呢?称空间正是存放名字x与1绑定关系的地方。Python里面有很多名字空间,每个地方都有自己的名字空间,互不打扰,不同空间中的两个相同名字的变量之间没有任何关系。名称空间有4种:LEGBlocals:函数内部的名字空间,一般包括函数的局部变量以及形式参数。enclosingfunction:在嵌
系统 2019-09-27 17:54:55 2270
一、闭包来自wiki:闭包(Closure)是词法闭包(LexicalClosure)的简称,是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外。所以,有另一种说法认为闭包是由函数和与其相关的引用环境组合而成的实体。在一些语言中,在函数中定义另一个函数时,如果内部的函数引用了外部的函数的变量,则可能产生闭包。运行时,一旦外部的函数被执行,一个闭包就形成了,闭包中包含了内部函数的代码,以及所需外部函数中的变量
系统 2019-09-27 17:54:10 2270
join方法join这个方法,将可迭代的数据类型,转为字符串或者bytes,没错可以转为bytes类型。注意这个可迭代的数据中的元素必须是相同类型的。jion里的参数可迭代对象就行,可迭代对象是指有__iter__方法的对象#列表为可迭代对象list_1=["1","2","3","4"]#元素为字符串的列表res="".join(list_1)#res的值为"1234",数据类型为str#字典为可迭代对象dict_1={"key1":"value2","
系统 2019-09-27 17:53:52 2270
DBSCAN的聚类类簇数k是自适应的。太忙了没工夫写文字了。fromsklearnimportdatasetsimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportDBSCANX1,y1=datasets.make_circles(n_samples=5000,factor=.6,noise=.05)X2,y2=datasets.make_blobs(n_samples=10
系统 2019-09-27 17:53:45 2270
Python爬虫之设置seleniumwebdriver等待ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加了困难。如果因为在加载某个元素时延迟而造成ElementNotVisibleException(不可见元素异常)的情况出现,那么就会降低自动化脚本的稳定性,设置元素等待可改善这种问题造成的不稳定。一、强制等待强制等待是利用python语言自带的time库中的sle
系统 2019-09-27 17:51:22 2270
这个问题是如何在一些场景下使用断言表达式,通常会有人误用它,所以我决定写一篇文章来说明何时使用断言,什么时候不用。为那些还不清楚它的人,Python的assert是用来检查一个条件,如果它为真,就不做任何事。如果它为假,则会抛出AssertError并且包含错误信息。例如:py>x=23py>assertx>0,"xisnotzeroornegative"py>assertx%2==0,"xisnotanevennumber"Traceback(mostr
系统 2019-09-27 17:51:11 2270