爬虫即网络爬虫,英文是WebSpider。翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来。我们在浏览器中输入一个网址,敲击回车,看到网站的页面信息。这就是浏览器请求了网站的服务器,获取到网络资源。那么,爬虫也相当于模拟浏览器发送请求,获得到HTML代码。HTML代码里通常包含了标签和文字信息,我们就从中提取到我们想要的信息。通常爬虫是从某个网站的某个页面开始,爬取这个页面的内容,找
系统 2019-09-27 17:51:06 2130
最近这段时间,常常有人在后台留言:该不该学Python?如何学Python?鉴于大家都有这方面的困惑,今天就给大家推荐一本巨有影响力的Python实战书,上线时间仅2个月,就超越了众多实力派,成京东和当当网上的长期畅销图书,并且收获了3.4W的五星好评。这本书可谓是笔者独家私藏图书之一了,对我学习Python有着莫大的帮助,在京东上也常常"断货",这次拿出来给大家分享一下,希望能帮到大家。PS:文末还将赠送5门课程!这本“断货神作”究竟好在哪?“测评”来了
系统 2019-09-27 17:50:38 2130
Python访问字符串中的值name="huanfengdebianchengriji"print("首字母大写",name.capitalize())print("i的个数",name.count("i"))print("输出name50个如果长度不够,两边补-居中输出",name.center(50,"-"))print("输出name50个如果长度不够,右边补",name.ljust(50,"-"))print("输出name50个如果长度不够,左边
系统 2019-09-27 17:50:36 2130
一.概述首先需要先介绍一下无监督学习,所谓无监督学习,就是训练样本中的标记信息是位置的,目标是通过对无标记训练样本的学习来揭示数据的内在性质以及规律。通俗得说,就是根据数据的一些内在性质,找出其内在的规律。而这一类算法,应用最为广泛的就是“聚类”。聚类算法可以对数据进行数据归约,即在尽可能保证数据完整的前提下,减少数据的量级,以便后续处理。也可以对聚类数据结果直接应用或分析。而Kmeans算法可以说是聚类算法里面较为基础的一种算法。二.从样例开始我们现在在
系统 2019-09-27 17:50:00 2130
python基础学习笔记(十三)2013-05-2023:10虫师阅读(...)评论(...)编辑收藏re模块包含对正则表达式。本章会对re模块主要特征和正则表达式进行介绍。什么是正则表达式正则表达式是可以匹配文本片段的模式。最简单的正则表达式就是普通字符串,可以匹配其自身。换包话说,正则表达式’python’可以匹配字符串’python’。你可以用这种匹配行为搜索文本中的模式,并且用计算后有值并发特定模式,或都将文本进行分段。**通配符正则表达式可以匹配
系统 2019-09-27 17:48:48 2130
目录一、守护线程1.1详细解释1.2守护线程例11.3守护线程例2一、守护线程无论是进程还是线程,都遵循:守护xx会等待主xx运行完毕后被销毁。需要强调的是:运行完毕并非终止运行。对主进程来说,运行完毕指的是主进程代码运行完毕对主线程来说,运行完毕指的是主线程所在的进程内所有非守护线程统统运行完毕,主线程才算运行完毕1.1详细解释主进程在其代码结束后就已经算运行完毕了(守护进程在此时就被回收),然后主进程会一直等非守护的子进程都运行完毕后回收子进程的资源(
系统 2019-09-27 17:47:07 2130
一、什么是Selenium?Selenium是一个基于浏览器的自动化测试工具,它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分:SeleniumIDE、SeleniumWebDriver和SeleniumGrid。SeleniumIDE:Firefox的一个扩展,它可以进行录制回放,并把录制的操作以多种语言(例如java、python等)的形式导出成测试用例。SeleniumWebDriver:提供Web自动化所需
系统 2019-09-27 17:45:45 2130
目录一、异常TODO二、深浅拷贝2.1拷贝2.2浅拷贝2.3深拷贝三、数据类型内置方法3.1数字类型内置方法3.1.1整型3.1.2浮点型3.2字符串类型内置方法3.3列表类型内置方法3.4元祖类型内置方法3.5字典类型内置方法3.6集合类型内置方法3.7布尔类型四、数据类型分类4.1按值个数4.2按有序无序4.3按可变不可变一、异常TODO万能捕捉异常公式try:#逻辑代码1/0exceptExceptionase:print(e)divisionbyz
系统 2019-09-27 17:45:32 2130
1、需求我们的代码已经变得无法阅读,到处都是硬编码的切片索引,我们想优化他们。2、解决方案代码中如果有很多硬编码的索引值,将导致可读性和维护性都不佳。内置的slice()函数会创建一个切片对象,可以用在任何运行进行切片操作的地方。items=[0,1,2,3,4,5,6]a=slice(2,4)print(items[2:4])print(items[a])items[a]=[10,11,12,13]print(items)delitems[a]print
系统 2019-09-27 17:38:37 2130
在python用import或者from...import来导入相应的模块。模块其实就是一些函数和类的集合文件,它能实现一些相应的功能,当我们需要使用这些功能的时候,直接把相应的模块导入到我们的程序中,我们就可以使用了。这类似于C语言中的include头文件,Python中我们用import导入我们需要的模块。eg:复制代码代码如下:importsysprint('================Pythonimportmode==============
系统 2019-09-27 17:37:55 2130