前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童鞋不要再走弯路。1.搜索引擎的选取选择一个好的搜索引擎意味着你能够得到更准确的搜索结果。我用过的搜索引擎有四种:Google、Bing、Baidu、Yahoo!。作为程序员,我首选Google。但当我看见我最爱的Google返回给我的全是一堆的js代码,根本没我想要的搜索结果。于是我转而投向了Bing的阵营,在用过一段
系统 2019-09-27 17:48:21 1917
随便在网上找了找,感觉都是讲半天讲不清楚,这里写一下。defgenerator():whileTrue:receive=yield1print('extra'+str(receive))g=generator()print(next(g))print(g.send(111))print(next(g))输出:1extra1111extraNone1为什么会这样呢,点进send就能看到一句话send:Resumesthegeneratorand"sends"
系统 2019-09-27 17:48:19 1917
Python中除法那些坑最近刷了一个cf题目,被python中的出发机制坑的不要不要的。这是链接:Chunga-Changapython中//和/的区别与使用a//b会获取值的整数部分,小数部分会丢失a/b会返回完整的值举个栗子:5//2=25/2=2.5那么问题来了?int(a/b)和a//b的区别在哪里呢?例1:int(7/3)=27//3=2既然如此讨论它们意义在上面地方呢?看看例二例二:int(999999999999999997/5)=20000
系统 2019-09-27 17:48:09 1917
可能有这样一种情况,当你想检查其他条件后一个条件解析为真。在这种情况下,可以使用嵌套的if结构。在嵌套的if语句结构,可以在一个if...elif...else结构里面可有另外一个if...elif...else结构。语法:嵌套if...elif...else结构的语法可以是:ifexpression1:statement(s)ifexpression2:statement(s)elifexpression3:statement(s)elsestateme
系统 2019-09-27 17:47:50 1917
导入线程包importthreading准备函数线程,传参数t1=threading.Thread(target=func,args=(args,))类继承线程,创建线程对象classMyThread(threading.Thread)defrun(self):passif__name__=="__main__":t=MyThread()t.start()线程共享全面变量,但在共享全局变量时会出现数据错误问题使用threading模块中的Lock类,添加互
系统 2019-09-27 17:47:40 1917
分析分析网站寻找需要的网址用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图:在里面的请求中,最后发现它是以ajax加载的数据,数据格式为json,如图:圈住的部分是我们需要的数据,然后复制它的网址为https://www.douyu.com/gapi/rknc/directory/yzRec/1,出于学习目的只爬取第一页(减少服务器压力)。然后把网址放到浏览器中测试是否可以访问。如图:结果正常。分析json数据,提取图片链接最后分析发现
系统 2019-09-27 17:46:57 1917
对Python中正则表达式的理解,主要就是对符号的理解,本文即对Python中常用的正则表达式符号进行简析。其主要的符号有:.默认匹配一个字符,不包含换行符,如果设置DOTALL则匹配换行符^匹配行首$匹配行尾*匹配0个或者多个重复+匹配一个或者多个重复?匹配一个或者零个重复*?,+?,??按照非贪婪模式匹配{m},{m,n},{m,n}?分别匹配m个重复,m至n个重复,m至n个重复按照非贪婪模式\转义[][abc],[a-z][^a-z]|或者匹配'a|
系统 2019-09-27 17:46:52 1917
项目目录结构:按照下图所示创建build文件夹及内容Dockerfile:FROMubuntu:16.04FROMpython:3.6ENVhttp_proxy=http://172.16.6.67:3128ENVhttps_proxy=http://172.16.6.67:3128RUNapt-get-yupdate&&\apt-get-yupgrade&&\apt-getinstall-y\vim\git\python3-dev\python3-set
系统 2019-09-27 17:46:45 1917
原文链接:https://gitbook.cn/books/5cfdc7e67d79973578df3426/index.html7.什么是PEP8?8.了解Python之禅么?9.了解docstring么?10.了解类型注解么?11.例举你知道Python对象的命名规范,例如方法或者类等12.Python中的注释有几种?13.如何优雅的给一个函数加注释?14.如何给变量加注释?15.Python代码缩进中是否支持Tab键和空格混用。16.是否可以在一句i
系统 2019-09-27 17:46:40 1917
很多时候我们需要过滤掉标点符号等特殊字符,网上虽然有一堆的方法,但是都没有找到一个非常满意的,有些过滤不了中文的标点符号,有些过滤不了英文的标点符号,有些过滤不全。最后通过查看正则表达式文档,发现一个高效的办法,一行代码就能搞定:defreplace_all_blank(value):"""去除value中的所有非字母内容,包括标点符号、空格、换行、下划线等:paramvalue:需要处理的内容:return:返回处理后的内容"""#\W表示匹配非数字字母
系统 2019-09-27 17:46:03 1917