1、爬虫概念爬虫:写一段代码,去指定的url(网站)去获取指定的数据互联网:或联网中,给你一个起始url,比如:www.baidu.com,互联网中的节点都是一个al链接,或者称之为url1.1通用爬虫:百度,搜狗,google,雅虎,bing1.1.1他们的工作:1.爬取所有信息2.主动提交url3.百度主动和域名服务商合作1.1.2如果不想让百度抓取?robots.txt放到django根目录1.1.3网站排名:魏则西事件pagerank1.2
系统 2019-09-27 17:57:14 2415
做爬虫项目时,我们需要考虑一个爬虫在爬取时会遇到各种情况(网站验证,ip封禁),导致爬虫程序中断,这时我们已经爬取过一些数据,再次爬取时这些数据就可以忽略,所以我们需要在爬虫项目中设置一个中断重连的功能,使其在重新运行时从之前断掉的位置重新爬取数据。实现该功能有很多种做法,我自己就有好几种思路,但是真要自己写出来就要费很大的功夫,下面我就把自己好不容易拼凑出来的代码展示出来吧。首先是来介绍代码的思路:将要爬取的网站连接存在一个数组new_urls中,爬取一
系统 2019-09-27 17:56:18 2415
YAML语法规则:http://www.ibm.com/developerworks/cn/xml/x-cn-yamlintro/下载PyYAML:http://www.yaml.org/解压安装:pythonsetup.pyinstall1.新建test.yaml文件,内容如下:name:TomSmithage:37spouse:name:JaneSmithage:25children:-name:JimmySmithage:15-name1:Jenny
系统 2019-09-27 17:56:16 2415
本文实例讲述了python解析网页源代码中的115网盘链接的方法。分享给大家供大家参考。具体方法分析如下:其中的1.txt,是网页http://bbs.pediy.com/showthread.php?t=144788另存为1.txt具体代码如下:importreif__name__=="__main__":fp=open("c:\\1.txt")https=re.compile(r"(http://u.*)")forurlinhttps.findall(
系统 2019-09-27 17:55:53 2415
假设红包金额为money,数量是num,并且红包金额money>=num*0.01原理如下,从1~money*100的数的集合中,随机抽取num-1个数,然后对这些数进行排序,在排序后的集合前后分别插入0和money*100,组成新的集合用新的集合,(后一个数-前一个数)/100得到红包的大小然后使用红包的时候,从num个红包集合中随机拿一个,既是随机红包了defredbags(money,num=10):importrandomchoice=random
系统 2019-09-27 17:54:19 2415
一:第一步windows下Anaconda与PyCharm的安装windows下Anaconda与PyCharm的安装与使用(致Python初学者们-Anaconda入门使用指南)或(Python数据分析必备Anaconda安装、快捷键、包安装)二:第二步python环境变量配置(看下文中如何配置环境变量)Anaconda安装后配置环境变量Anaconda安装后在cmd中运算python无效,是环境变量没有生效。正常安装需要有三个,配置好就行。D:\xwa
系统 2019-09-27 17:54:12 2415
12.35Django模板系统{{}}和{%%},变量相关的用{{}},逻辑相关的用{%%}app02/views:#模板语言测试函数deftemplate_test(request):name="张三"dic={"name":"张三","age":16,"items":"sb"}list1=[11,22,33,44,55]classPerson(object):def__init__(self,name):self.name=namedefdream
系统 2019-09-27 17:54:08 2415
python多线程可以使任务得到并发执行,但是有时候在执行多次任务的时候,变量出现“意外”。importthreading,timen=0start=time.time()defb1(num):globalnn=n+numn=n-numdefb2(num):foriinrange(1000000):b1(num)t1=threading.Thread(target=b2,args=(5,))t2=threading.Thread(target=b2,arg
系统 2019-09-27 17:51:27 2415
importtimedeflog_time(func,*args,**kwargs):definner():t1=time.time()func(*args,**kwargs)t2=time.time()print(f"使用的时间是{t2-t1}s")returninner@log_timedefappend_func():ll=list()foriinrange(10000):ll.append(i)@log_timedefinsert_func():l
系统 2019-09-27 17:49:44 2415
1.二维数组中的查找题目描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。classSolution:#array二维列表defFind(self,target,array):rowNum=len(array)columnNum=len(array[0])forpinrange(rowNum):forqinran
系统 2019-09-27 17:48:38 2415