爬虫的概念:爬虫就是获取网页并提取和保存信息的自动化程序爬虫的分类:主要有四类:通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫爬虫的流程:常见的几种爬虫问题:主要有五类:静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用常见的爬虫框架:pyspider框架,Scrapy框架分布式爬虫:在多台机器上运行爬虫程序爬虫的一些常用"库":解析库:lxml;BeautifulSoup;pyquery;tesserocr请求库:r
系统 2019-09-27 17:56:05 2045
本文实例讲述了Python常用模块之requests模块用法。分享给大家供大家参考,具体如下:一.GET请求1.访问一个页面importrequestsr=requests.get('http://www.so.com')print(r.status_code)print(r.text)2.带参数importrequestsparams={'a':1,'b':2}r=requests.get('http://www.so.com',params=param
系统 2019-09-27 17:55:46 2045
一上来就给了两个文件,一个是加密的源代码,一个是加密过程文件,challenge.pyN1ES.pyN1ES.py里一共有四个函数,一个类,类里含有两个函数,除了最后一个encrypt函数外其他函数都是在对key进行运算,然后通过key来对flag进行加密,所以我直接跑了一下程序,获得了key加密后的数据,然后只对encrypt函数进行逆向解密脚本:Kn=[['~','w','Y','k','k','\x02','\x05','\x05'],['w','d
系统 2019-09-27 17:53:43 2045
原文链接:https://t.csdnimg.cn/wSsp「超级星推官/每周分享」是一个围绕程序员生活、学习相关的推荐栏目。CSDN出品,每周发布,暂定5期。关键词:靠谱!优质!本期内容,我们将抽1人送出由我司程序员奉为“超级神作”的《疯狂Python讲义》1本,并在文章内隐藏了5门好课,敬请关注。2019年,有人说是Python元年,背靠AI和大数据,连续半年拿下TOP1编程语言,这些都给了Python的底气,所以无论是薪资还是招聘需求,都越来越多了!
系统 2019-09-27 17:53:26 2045
今天介绍个神奇的网站!堪称爬虫偷懒的神器!我们在写爬虫,构建网络请求的时候,不可避免地要添加请求头(headers),以mdn学习区为例,我们的请求头是这样的:一般来说,我们只要添加user-agent就能满足绝大部分需求了,Python代码如下:importrequestsheaders={#'authority':'developer.mozilla.org',#'pragma':'no-cache',#'cache-control':'no-cach
系统 2019-09-27 17:53:21 2045
python连接mysql的客户端importpymysql#导入模块conn=pymysql.connect(host='127.0.0.1',#主机模块port=3306,#端口号user='root',#用户名password='123',#密码database='db',#需要连接的库charset='utf8'#指定编码utf8)cursor=conn.cursor()#获取游标#cursor=conn.cursor(pymysql.cursor
系统 2019-09-27 17:53:19 2045
粘包问题TCP协议在传输过程中会出现数据粘包问题讲一下TCP和UDP的区别,都是传数据的协议,没有好坏之说,只是不同的应用需求可能会更好选择哪一个协议TCP:适合传输数量大,需要建立连接,会出现粘包问题,粘包问题可以解决,确定传入的长度,接收同样长度就可以保证一次性传输完UDP:适合传输数据量小,没有粘包,不需要连接,一次性传输,下一次就是新的数据,弊端就是数据丢失,不安全QQ是用什么协议呢?按理应该可以用UDP协议,但是实际用的是TCP协议,这是历史遗留
系统 2019-09-27 17:53:03 2045
MongoDB:非关系型数据库文件管理阶段:优点:可以长期保存存储大量数据使用简单缺点:数据一致性差数据大的时候,查找修改不便随着时间增长,冗余度大数据库管理阶段:优点:降低冗余度提高增删改查效率易扩展方便调用和自动化处理缺点:上手相对复杂数据:能够输入到计算机中,并被识别处理的信息集合数据结构:计算机存储、组织数据的方式;数据库:按照一定数据结构存储管理数据的仓库。在数据库管理系统管理和控制下,在一定介质上的数据集合数据库管理系统:管理数据库的软件,用于
系统 2019-09-27 17:52:59 2045
1.背景看到这里提到了pprint。打算去试试.2.pprint简介找到在线官网解释:pprint―Dataprettyprinter就是一个,方便大家打印一些,相对复杂的变量的好东西。3.使用pprint去写点代码试试。代码:复制代码代码如下:#-------------------------------------------------------------------------------#Name:【记录】折腾Python中的pprint#
系统 2019-09-27 17:52:55 2045
1什么是seleniumSelenium是一个基于浏览器的自动化工具,它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分:SeleniumIDE、SeleniumWebDriver和SeleniumGrid:SeleniumIDE:Firefox的一个扩展,它可以进行录制回放,并可以把录制的操作以多种语言(例如java,python等)的形式导出成测试用例。SeleniumWebDriver:提供Web自动化所需的A
系统 2019-09-27 17:52:52 2045