在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有
系统 2019-09-27 17:51:18 2287
1.9//2#向下取整0.01.9/2#不取整0.95importmathmath.floor(1/2)#向下取整0math.ceil(1/2)#向上取整round(0.3)#四舍五入0round(0.8)#四舍五入1round(1.22222,2)#保留2位小数1.22“”"从数学理论上来说,四舍五入,round(10.5,0)应该进位为11,但是到了python3.5的doc中,文档变成了"valuesareroundedtotheclosestmul
系统 2019-09-27 17:51:04 2287
MENU安装Python3(Windows操作系统环境)下载Python安装包安装Notepad++配置Notepad++的Python环境命令原理部分内容摘自百度经验安装Python3(Windows操作系统环境)下载Python安装包下载Python3.如图点击打开下载页面选择适合自己电脑版本的安装包一般就下载executableinstaller,x86表示是32位机子的,x86-64表示64位机子的。下载并打开安装包记得勾选AddPython3.6
系统 2019-09-27 17:50:55 2287
如下:re.split(pattern,string,[maxsplit],[flags])pattern:表示模式字符串,由要匹配的正则表达式转换而来。string:表示要匹配的字符串。maxsplit:可选参数,表示最大的拆分次数。flags:可选参数表示标志位,用于控制匹配方式,如是否区分子母大小写示例代码:importrepattern=r'[?|&]'#定义分隔符url='http://www.baidu.com/login.jsp?userna
系统 2019-09-27 17:50:54 2287
详细版本见个人博客:Python项目生成requirements一起开发项目的时候总是要搭建环境和部署环境的,这个时候必须得有个Python第三方包的list,一般都叫做requirements.txt。本文介绍了两种生成requirements.txt的方法。一、使用pipfreezepipfreeze>requirements.txt这种方式配合virtualenv才好使,否则把整个环境中的包都列出来了。下面是在虚拟环境中生成的requirements
系统 2019-09-27 17:49:16 2287
sudocurlhttps://bootstrap.pypa.io/get-pip.py-oget-pip.pysudopython3get-pip.py输入两行命令即可
系统 2019-09-27 17:48:56 2287
原文链接:https://www.cnblogs.com/bdhk/p/7506691.html枚举是绑定到唯一的常量值的一组符号名称(成员)。在枚举中,成员可以通过身份进行比较,枚举本身可以迭代。1.Enum模块该模块定义了四个枚举类,可用于定义唯一的名称和值集:Enum,IntEnum,Flag和IntFlag。它还定义了一个装饰器,unique()和一个helper,auto。ContentDescriptionRemarksclassenum.En
系统 2019-09-27 17:48:52 2287
前言最近想用Python自动地爬取某个站点里的图片,没想到其请求数据是以requestpayload格式传输给后端进行处理的。博主还是第一次遇到这种情况,写下这篇文章记录一下解决过程。博主浏览器使用的是Chrome,下文说的浏览器一律指的是Chrome浏览器。POST提交数据常见的几种Content-Type在网络请求中常用的Content-Type有很多,但是在POST请求下我们常用的Content-Type大约有3种。1.application/x-w
系统 2019-09-27 17:48:14 2287
importrefromurllib.requestimporturlopendefgetPage(url):response=urlopen(url)returnresponse.read().decode('utf-8')defparsePage(s):ret=re.findall('.*?.*?(?P\d+).*?(?P''.*?(?P.*?).*?(?P.*?)评价',s,re.S)returnretdefmain(num):url='https:
系统 2019-09-27 17:47:12 2287
任务要求在控制台中提示输入石头、剪刀、布,按回车键,然后给出游戏结果。分析我们知道在游戏规则中,石头克剪刀,剪刀克布,布克石头。但是这在计算机中并不是很好直接的表示,因此我们分别用0、1、2分别代表游戏中的石头剪刀布。那么电脑该如何出拳呢?那就该用到python中的一个模块random中的一个方法random.randint()在0~2范围内产生一个随机整数,就表电脑出拳了。random.randint()的用法如下:#首先导入模块importrandom
系统 2019-09-27 17:46:51 2287