在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有
系统 2019-09-27 17:51:18 2301
目录1.获取工作目录和设置工作目录2.获取日期处理3.列表的倒排序4.使用apply处理两个值的代码5.断言函数assert6.yield生成器7.获取程序运行时间8.动态生成变量9.数据可持续化操作10.数据运行时间211.创建目录12.删除无用的数据13.字符串格式化14.zip自动生成字典15.各种包的离线下载地址16.路径的设置17.数据添加ignore_index的使用技巧18.删除nan的总结19.批量重命名20.nohup的使用21.rese
系统 2019-09-27 17:49:55 2301
文件操作文件操作介绍打开打开方式File对象的属性文件的读写File对象的常用方法读写定位关闭os模块详解os简介常用功能关于操作系统关于文件与目录路径操作json和pickle模块详解json简介python类型数据和JSON数据格式互相转换规则jsontopythonpythontojson数据类型编解码序列化及反序列化常用参数pickle简介JSON和pickle模块的区别文件操作介绍打开默认数据是加载到内存中,结果也是保存到内存中,程序执行结束,所
系统 2019-09-27 17:49:28 2301
详细版本见个人博客:Python项目生成requirements一起开发项目的时候总是要搭建环境和部署环境的,这个时候必须得有个Python第三方包的list,一般都叫做requirements.txt。本文介绍了两种生成requirements.txt的方法。一、使用pipfreezepipfreeze>requirements.txt这种方式配合virtualenv才好使,否则把整个环境中的包都列出来了。下面是在虚拟环境中生成的requirements
系统 2019-09-27 17:49:16 2301
一般情况下x,y,z=1,2,3print("x:",x)print("y:",y)print("z:",z)#运行结果x:1y:2z:3对元祖序列解包name=("qiaobushi","wanglihong","leibushi")x,y,z=nameprint(name)print("x:",x)print("y:",y)print("z:",z)#运行结果('qiaobushi','wanglihong','leibushi')x:qiaobush
系统 2019-09-27 17:48:57 2301
文件多了乱放,突然有一天发现硬盘空间不够了,于是写了个python脚本搜索所有大于10MB的文件,看看这些大文件有没有重复的副本,如果有,全部列出,以便手工删除使用方式加一个指定目录的参数比如pythonredundant_remover.py/tmp主要用到了stat模块,os、sys系统模块importos,sys#引入统计模块fromstatimport*BIG_FILE_THRESHOLD=10000000Ldict1={}#filesize做ke
系统 2019-09-27 17:48:22 2301
我的风格,废话不多说了,直接给大家贴代码了,并在一些难点上给大家附了注释,具体代码如下所示:#!/usr/bin/envpython#-*-coding:utf-8-*-importurllib2,jsonimportdatetime,timefromconfigimport*importsysreload(sys)sys.setdefaultencoding("utf-8")classWechatPush():def__init__(self,appid
系统 2019-09-27 17:46:35 2301
BlogImages{E8783523-B4D1-4C37-B432-1D7947A935FB}.jpg{E8783523-B4D1-4C37-B432-1D7947A935FB}_thumb.jpg{99C5613E-66CC-4687-B072-49A21E8AE3D4}.jpg{99C5613E-66CC-4687-B072-49A21E8AE3D4}_thumb.jpg{7CC2DAE9-0622-4F4B-8643-1B5B8532F3F7}.j
系统 2019-08-29 23:41:54 2301
删除页眉技巧:1.双击页眉处,进入页眉编辑状态,并将光标指向待删除的页眉处2.点击页眉->删除页眉3.这时剩下一条横线和一个回车符4.切换到开始菜单,点击字体->清除格式()5.这时剩下一个回车符6.切换到页眉编辑菜单,勾选首页不同7.搞定目录中编号和文字中的间距过大:下面介绍用多级符号(2003为多级符号、2007及以上为多级列表)调整编号与文字之间间距的方法:1、光标放编号处与文字之间或文字中间,点开多级符号(位于编号右侧)。2、选择“定义新的多级列表
系统 2019-08-29 23:40:24 2301
系统 2019-08-29 23:25:03 2301