简介提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作。本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。技术路线IP代理池多线程爬虫与反爬编写思路首先,开始分析天天基金网的一些数据。经过抓包分析,可知:./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会
系统 2019-09-27 17:57:51 2537
字符串(str)双引号或者单引号中的数据,就是字符串.注意事项1、反斜杠可以用来转义,使用r可以让反斜杠不发生转义。2、字符串可以用+运算符连接在一起,用*运算符重复。3、Python中的字符串有两种索引方式,从左往右以0开始,从右往左以-1开始。4、Python中的字符串不能改变“+”可以直接连接多个字符串“*”可以重复多个相同的字符串字符串的截取(切片)下标字符串的下标是从0开始的,列如字符串,"xiaose",x的下标则0,i的下标则为1,接下来的就
系统 2019-09-27 17:57:17 2537
前言python图像识别一般基础到的就是tesseract了,在爬虫中处理验证码广泛使用。安装安装教程网上大都差不多,Windows下确实比较麻烦,涉及到各种路径、环境变量甚至与linux不同的路径分隔符,所以这里的安装是基于Centos7。1.依赖安装yuminstall-yautomakeautoconflibtoolgccgcc-c++2.安装leptonicaLeptonica主要用于图像处理和图像分析原则上所有的库文件都是可以直接用yum安装的,
系统 2019-09-27 17:54:02 2537
词云图是将词汇按照频率的高低显示不同大小而形成的图,可以一目了然地看出关键词。下面是词云图的python代码~#导入需要模块importjiebaimportnumpyasnpimportmatplotlib.pyplotaspltfromPILimportImagefromwordcloudimportWordCloud,STOPWORDS,ImageColorGeneratortext_road=str(input('请输入文章的路径:'))pictu
系统 2019-09-27 17:48:34 2537
Python-Jenkins常用APIjenkins.Jenkins(url,username=None,password=None,timeout=,resolve=True)#创建jenkins实例参数:url–jenkins服务器地址,strusername–用户名,strpassword–密码,strtimeout–连接超时时间(default:notset),intresolve–Attemptstoresolveandauto-correctA
系统 2019-09-27 17:46:57 2537
学习python遇到的第一个问题:汉诺塔问题的实现。首先是不知道什么是汉诺塔问题,然后是不知道怎么实现。于是百度了下,结果如下:汉诺塔:汉诺塔(又称河内塔)问题是源于印度一个古老传说的益智玩具。大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。大梵天命令婆罗门把圆盘从下面开始按大小顺序重新摆放在另一根柱子上。并且规定,在小圆盘上不能放大圆盘,在三根柱子之间一次只能移动一个圆盘方法一:defmove(n,a,b,c)
系统 2019-09-27 17:37:52 2537
昨天有个需求,要获取服务器某个目录下的某些类型的文件,考虑到服务器即有Linux、又有Windows,所以写了一个Python小程序来完成这项工作。Linux服务器有CentOS、Fedora等,都预先安装了Python,版本从2.4到2.5不等,而Windows类型的服务器也多数安装了Python,因此只要在本机写好一个脚本,上传到对应机器,在运行时修改参数即可。Python操作文件和文件夹使用的是os库,下面的代码中主要用到了几个函数:os.listd
系统 2019-08-12 01:32:19 2537
题目描述:给定一个字符串s,找到s中最长的回文子串。你可以假设s的最大长度为1000。示例1:输入:"babad"输出:"bab"注意:"aba"也是一个有效答案。示例2:输入:"cbbd"输出:"bb"Solution(转自LeetCode官方题解):CODE:classSolution:deflongestPalindrome(self,s):''':params:str:return:str'''longest=0len_s=len(s)dp=[[0
系统 2019-09-27 17:57:52 2536
1.贴题题目来自PythonTip信息加密给你个小写英文字符串a和一个非负数b(0<=b<26),将a中的每个小写字符替换成字母表中比它大b的字母。这里将字母表的z和a相连,如果超过了z就回到了a。例如a=”cagy”,b=3,则输出:fdjb2.说明考察点英文字母与数字的转换如果超过z的处理3.参考代码c=""#定义空字符串c用于存放加密后的字符串forjina:#遍历字符串a中的每一个英文小写字母iford(j)+b<124:#判断加密后是否不超过zc
系统 2019-09-27 17:55:58 2536
·Django是利用Python语言从事Web开发的首选框架。如果你以后想从事pythonweb开发工作,就必需了解其优缺点。这些都可能会是你将来的面试题哦。他采用了MVC模式,什么是MVC?大家不要着急,MVC这么好的东西我在下面会精细的讲一下!Django最初是被开发来用于管理劳伦斯出版集团下的一些以新闻为主内容的网站。一款CMS(内容管理系统)软件。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手DjangoReinhar
系统 2019-09-27 17:55:56 2536
课程作业要求,遂学习了python的自动化selenium工具,并爬取京东商品评论数据练练手。目录:一、环境二、第三方库三、分析1.1chrome驱动1.2定位评论元素1.3循环爬取评论数据并保存为CVS文件导出其中xpath对应网页元素评论:用户名:四、代码五、结果一、环境我使用的是windows+python3.6+pycharm,大家自己去下载对应的环境。二、第三方库fromseleniumimportwebdriverfromtimeimports
系统 2019-09-27 17:55:01 2536
基于requests模块发起ajax的get请求需求:爬取豆瓣电影分类排行榜https://movie.douban.com/中的电影详情数据用抓包工具捉取使用ajax加载页面的请求鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求,用抓包工具捉取页面刷新的ajax的get请求,捉取滚轮在最底部时候发起的请求这个get请求是本次发起的请求的urlajax的get请求携带参数获取响应内容不再是页面数据,是json字符串,是
系统 2019-09-27 17:53:20 2536
python运维必须会用的库:1os,pathlib(系统操作库)2logging(运维用到的核心库,用于快速写入日志,非常好用)3pymysql,pymssql,cx_oracle(这些是常用数据库驱动,很多,不一一列举)4datetime(日期计算最常用的库),time(经常在统计性能的时候用到,以及sleep)5random(随机数库,时常会用到)6threading,multiprocessing(多线程,多进程,什么区别就不赘述了,自己百度),q
系统 2019-09-27 17:51:46 2536
上一篇文章中我们介绍了python语言的几个特点,并在最后留了一个问题,python除了上下执行以外有没有其他的执行方式。今天我们就来介绍python中的数据类型和控制流。数据类型python中包含六个标准数据类型分别为:Number(数字)、String(字符串)、List(列表)、Tuple(元组)、Set(集合)、Dictionary(字典)。不同的数据类型往往对应不同的用途。这个很好理解。比如你可以用一个字符串用来储存一个人的名字。name="六小
系统 2019-09-27 17:48:08 2536
Python中查看变量的类型,内存地址,所占字节的大小查看变量的类型#利用内置type()函数>>>nfc=["Packers","49"]>>>afc=["Ravens","48"]>>>combine=zip(nfc,afc)>>>type(combine)查看变量的内存地址#利用内置函数id(),是以十进制显示>>>id(nfc)2646554913160>>>id(afc)2646554913544查看变量所占字节的大小>>>importsys>>
系统 2019-09-27 17:55:23 2535