简介提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作。本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。技术路线IP代理池多线程爬虫与反爬编写思路首先,开始分析天天基金网的一些数据。经过抓包分析,可知:./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会
系统 2019-09-27 17:57:51 2294
进入智联招聘官网,在搜索界面输入‘数据分析师',界面跳转,按F12查看网页源码,点击network选中XHR,然后刷新网页可以看到一些Ajax请求,找到画红线的XHR文件,点击可以看到网页的一些信息在Header中有RequestURL,我们需要通过找寻RequestURL的特点来构造这个请求网址,点击Preview,可以看到我们所需要的信息就存在result中,这信息基本是json格式,有些是列表;下面我们通过Python爬虫来爬取上面的信息;代码如下:
系统 2019-09-27 17:57:36 2294
好久没写技术相关的文章,这次写篇有意思的,关于一个有意思的游戏――QQ找茬,关于一种有意思的语言――Python,关于一个有意思的库――Qt。这是一个用于QQ大家来找茬(美女找茬)的辅助外挂,开发的原因是看到老爸天天在玩这个游戏,分数是惨不忍睹的负4000多。他玩游戏有他的乐趣,并不很在意输赢,我做这个也只是自我娱乐,顺便讨他个好,毕竟我们搞编程的实在难有机会在父辈面前露露手。本来是想写个很简单的东西,但由于过程中老爸的多次嘲讽,逼得我不得不尽力完善,最后
系统 2019-09-27 17:56:56 2294
本人初学python是菜鸟级,写的不好勿喷。python爬虫用了比较简单的urllib.parse和requests,把爬来的数据显示在地图上。接下里我们话不多说直接上代码:1.安装python环境和编辑器(自行度娘)2.本人以58品牌公寓为例,爬取在杭州地区价格在2000-4000的公寓。#-*-coding:utf-8-*-frombs4importBeautifulSoupfromurllib.parseimporturljoinimportrequ
系统 2019-09-27 17:56:42 2294
本文实例讲述了python中asyncore模块的用法,分享给大家供大家参考。具体方法如下:实例代码如下:##asyncoreimportasyncore,socket########################################################################classAsyncGet(asyncore.dispatcher):"""thedefinedclass"""#-----------------
系统 2019-09-27 17:55:58 2294
一、string模块常用函数ascii_letters获取所有ascii码中字母字符的字符串(包含大写和小写)ascii_uppercase获取所有ascii码中的大写英文字母ascii_lowercase获取所有ascii码中的小写英文字母digits获取所有的10进制数字字符octdigits获取所有的8进制数字字符hexdigits获取所有16进制的数字字符printable获取所有可以打印的字符whitespace获取所有空白字符punctuati
系统 2019-09-27 17:51:11 2294
1、python3安装Anaconda教程:https://jingyan.baidu.com/article/3f16e0031e87522591c10320.html2、CUDA和cuDNN教程:https://blog.csdn.net/qq_37296487/article/details/83028394按照教程一步一步来就可以了,但是需要注意的一点是,先下载好CUDA(CUDA你可以自己选择你要下载哪一个版本),如果是自定义安装,要记得你把东西
系统 2019-09-27 17:49:55 2294
urllib.request.Request('URL',headers=headers)User-Agent是爬虫和反爬虫斗争的第一步,发送请求必须带User—Agent使用流程:1、创建请求对象request=urlllib.request.Request('url'......)2、发送请求获取响应对象response=urllib.request.urlopen(request)3、获取响应内容html=response.read().decond
系统 2019-09-27 17:49:37 2294
importrename1="a#pple"#命名正确,aname2="apple!"ret=re.match("[a-zA-Z_][a-zA-Z0-9_]*",name1)ifret:print("命名正确,",ret.group())else:print("命名不正确")明明命名不合法,为什么返回正确,而且只匹配到正确部分因为默认match只会匹配开头(如果开头正确了,就等于匹配成功了)严格的匹配开头与结尾加上^和$(表示开头和结尾)importren
系统 2019-09-27 17:56:36 2293
1.前言当日期数据作为图表的坐标轴时通常需要特殊处理,应为日期字符串比较长,容易产生重叠现象2.设定主/次刻度2.1引用库frommatplotlib.datesimportDateFormatter,WeekdayLocator,DayLocator,MONDAY,YEARLY2.2获取每月/周/日数据获取每月一日数据monthdays=MonthLocator()获取每周一的日期数据mondays=WeekdayLocator(MONDAY)#主要刻度
系统 2019-09-27 17:56:21 2293
importpandasaspdimportosfromread_pgdataimportPostgredataroot_dir=r'root'file_names=os.listdir(root_dir)[:-1]print(len(file_names),file_names)pg=Postgredata()foriinrange(len(file_names)):df=pd.read_excel(root_dir+'\\'+file_names[i]
系统 2019-09-27 17:54:24 2293
在pdb模式下基本都是单个字母完成调试中的命令,命令列表网上很多。起步,调试模式打开py文件(-m的意思是将库中的python模块用作脚本去运行)。python-mpdbtest.py用l(l就是list的意思)看看文件里面有什么(很常用的命令)。它不会显示全部文件,只会显示当前运行行的上下几行代码,其中->指向的就是当前的运行的哪一行(注释和空行是直接跳过的),因为是刚开始,所以是第一个import(19是代码在文件中的行数)。(Pdb)l19->imp
系统 2019-09-27 17:52:17 2293
本文实例讲述了Python使用import导入本地脚本及导入模块的技巧。分享给大家供大家参考,具体如下:导入本地脚本import如果你要导入的Python脚本与当前脚本位于同一个目录下,只需输入import,然后是文件名,无需扩展名.py。伪代码如下:importuseful_functionsuseful_functions.add_five([1,2,3,4])我们可以为导入模块添加别名,以使用不同的名称引用它。importuseful_functio
系统 2019-09-27 17:49:18 2293
本书特色Amazon编程入门类榜首图书从基本概念到完整项目开发,帮助零基础读者迅速掌握Python编程上到有编程基础的程序员,下到10岁少年,想入门Python并达到可以开发实际项目的水平,本书是最佳选择!本书是一本全面的Python编程从入门到实践教程,带领读者快速掌握编程基础知识、编写出能解决实际问题的代码并开发复杂项目。书中内容分为基础篇和实战篇两部分。基础篇介绍基本的编程概念,如列表、字典、类和循环,并指导读者编写整洁且易于理解的代码。另外还介绍了
系统 2019-09-27 17:49:13 2293
阅读更多分词工具的选择:现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。分词前的准备:待分词的中文文档存放分词之后的结果文档中文停用词文档(用于去停用词,在网上可以找到很多)分词之后的结果呈现:图1去停用词和分词前的中文文档图2去停用词和分词之后的结果文档分词和去停用词代码
系统 2019-09-27 17:47:53 2293