在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有
系统 2019-09-27 17:51:18 2343
目录1.获取工作目录和设置工作目录2.获取日期处理3.列表的倒排序4.使用apply处理两个值的代码5.断言函数assert6.yield生成器7.获取程序运行时间8.动态生成变量9.数据可持续化操作10.数据运行时间211.创建目录12.删除无用的数据13.字符串格式化14.zip自动生成字典15.各种包的离线下载地址16.路径的设置17.数据添加ignore_index的使用技巧18.删除nan的总结19.批量重命名20.nohup的使用21.rese
系统 2019-09-27 17:49:55 2343
详细版本见个人博客:Python项目生成requirements一起开发项目的时候总是要搭建环境和部署环境的,这个时候必须得有个Python第三方包的list,一般都叫做requirements.txt。本文介绍了两种生成requirements.txt的方法。一、使用pipfreezepipfreeze>requirements.txt这种方式配合virtualenv才好使,否则把整个环境中的包都列出来了。下面是在虚拟环境中生成的requirements
系统 2019-09-27 17:49:16 2343
需要Python3.4+,一个参数用来选择测试搜索服务还是GAE服务。测试GAE服务的话需要先修改开头的两个变量。从标准输入读取IP地址或者IP段(形如192.168.0.0/16)列表,每行一个。可用IP输出到标准输出。实时测试结果输出到标准错误。50线程并发。checkgoogleip#!/usr/bin/envpython3importsysfromipaddressimportIPv4Networkimporthttp.clientasclient
系统 2019-09-27 17:48:50 2343
importrefromurllib.requestimporturlopendefgetPage(url):response=urlopen(url)returnresponse.read().decode('utf-8')defparsePage(s):ret=re.findall('.*?.*?(?P\d+).*?(?P''.*?(?P.*?).*?(?P.*?)评价',s,re.S)returnretdefmain(num):url='https:
系统 2019-09-27 17:47:12 2343
fromemail.mime.textimportMIMETextfromsmtplibimportSMTP_SSLdefmain():sender='sender@yandex.com'receiver=['receiver@163.com']message=MIMEText('SendanemailviaPython3')message['From']=sendermessage['To']=','.join(receiver)message['Sub
系统 2019-09-27 17:46:54 2343
Python入门实践10——列表(List)列表(List)一、目标1、列表类似c语言的数组,不过其元素可以是任意类型2、掌握列表的9大操作3、学会使用列表的函数和方法二、要点1、列表列表可以看成是一串有序的数据集合,它可以存放任何类型的数据,甚至是不同类型的数据。你可以将它想象成一列队伍,其中有各个国家的人,甚至还要小猫和小狗。将数据放入一对方括号[]内来表示列表,数据之间用逗号相隔。例如,以下是某个四口之家的身高数据列表:family=[1.73,1.
系统 2019-09-27 17:46:36 2343
我的风格,废话不多说了,直接给大家贴代码了,并在一些难点上给大家附了注释,具体代码如下所示:#!/usr/bin/envpython#-*-coding:utf-8-*-importurllib2,jsonimportdatetime,timefromconfigimport*importsysreload(sys)sys.setdefaultencoding("utf-8")classWechatPush():def__init__(self,appid
系统 2019-09-27 17:46:35 2343
如下所示:#-*-coding:utf-8-*-"""CreatedonThuJun0709:17:402018@author:yjp"""importmatplotlib.pyplotaspltimportnumpyasnpfrommatplotlib.tickerimportMultipleLocator,FormatStrFormattery0=[]y1=[]y2=[]y3=[]y4=[]f=open("y0.txt")lines=f.readlin
系统 2019-09-27 17:46:17 2343
1、块级作用域想想此时运行下面的程序会有输出吗?执行会成功吗?#块级作用域if1==1:name="lzl"print(name)foriinrange(10):age=iprint(age)我们先看下执行结果C:/Users/L/PycharmProjects/s14/preview/Day8/作用域/main.pylzl9Processfinishedwithexitcode0代码执行成功,没有问题;在Java/C#中,执行上面的代码会提示name,a
系统 2019-09-27 17:38:07 2343