背景由于工作性质,经常面对不同的问题,某些场景下SQL+Excel、常用办公软件不能处理,这时到网上找一些案例,自己动手用python处理。后续,借此博客记录比较典型的处理过程。后续,陆续实际处理的问题,如1.合并PDF2.拆分PDF3.敏感字段MD5脱敏4.从非架构化的大文本文件中提取指定条件的记录需求工作和生活中有时会遇到将多个pdf文件,合并成一个大文件的情况。例如,扫描时,普通扫描仪或打印机一页生成一个PDF,而一份资料实际多页。Adobe的收费版
系统 2019-09-27 17:57:30 1968
在工作中遇到一个需求,需要用Python脚本读取一个13G的文件,把每行的记录写入redis。由于机器的内存只有8G,所以不能一次将磁盘上的文件全部读入内存,需要一行一行读取文件。Python按行读取文件主要是使用file.readline方法或者利用file对象的迭代器性质,而file.readlines方法则是一次把所有内容从磁盘读入内存。当内存足够时,file.readlines方法显然会更快,因为磁盘I/O次数更少。下面给出了三种遍历文件每行的方式
系统 2019-09-27 17:56:36 1968
本文主要说一下怎么使用Python来修改本地的ip和dns等,因为有本地的ip和dns都是随机获取的,有些时候不是很方便,需要修改,我就稍微的封装了一下,但是随机ip和网关、子网掩码等我都没有设置为参数,因为经常用也懒得改了,可以自己去修改一下。测试的时候,在win8.1上面需要用管理员身份才能执行,win7似乎是不需要管理员身份的。使用的Python库是WMI,这个是默认安装了的。如果没有去网上下载即可。该说的都在注释里,就直接上代码了。#-*-codi
系统 2019-09-27 17:56:25 1968
python内置函数有两种,一种是python实现的,一种是C语言实现的。python实现的–1.直接在IDE里面按住ctrl追踪到源码。–2.使用help内置函数,例如:help(os)C语言实现的不能直接在IDE里面查看比如builtins.py里的zip,需要去Cpython源码中查看:https://github.com/python/cpython/blob/master/Python/bltinmodule.ctypedefstruct{PyO
系统 2019-09-27 17:56:18 1968
python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。基本接口:pickle.dump(obj,file,[,protocol])注解:将对象obj保存到文件file中去。protocol为序列化使用的协议版本,0:ASCII协议,所序列化的对象使用可打印的ASCII码表示;1:老式的
系统 2019-09-27 17:56:17 1968
这是最近找机器学习实习的一个笔试题:看到这个题的时候第一想法就是用关联规则(Apriori算法)来实现。关联规则最重要的就是支持度Support和置信度Confidence。支持度的计算方法:#下面式中X∩Y表示X和Y同时发生的次数,N表示总事物数support(X->Y)=X∩Y/N置信度的计算方法:confidence(X->Y)=support(X->Y)/support(X)知道支持度和置信度的计算方法之后就可以实现上面算法了,首先本题给的数据集比
系统 2019-09-27 17:56:04 1968
数据库的安装和连接PyMySQL的安装pipinstallPyMySQLpython连接数据库importpymysqldb=pymysql.connect("数据库ip","用户","密码","数据库")#打开数据库连接cursor.execute("SELECTVERSION()")#使用execute()方法执行SQL查询data=cursor.fetchone()#使用fetchone()方法获取单条数据print("Databaseversion
系统 2019-09-27 17:56:03 1968
本文实例讲述了python装饰器常见使用方法。分享给大家供大家参考,具体如下:python的装饰器,可以用来实现,类似springAOP类似的功能。一样可以用来记录某个方法执行前做什么,执行后做什么,或者用来记录日志,运行的时间等,更有甚者,用这个来做权限拦截,也未尝不可。从两个方面来描述python的装饰模式:1.对普通方法的装饰2.对在class类中的方法的装饰,不需要给参数的情况3.对在class类中的方法的装饰,需要给参数的情况一,对普通方法的装饰
系统 2019-09-27 17:55:42 1968
最近需要实现一个服务程序的gracefulexiting,保证在退出前关闭所有已创建的子线程python借助KeyboardInterrupted异常响应键盘中断,因此首先尝试在子线程中try-catch这个异常(失败)查阅原因,键盘中断只有主线程可以响应并处理,子线程无法收到这个异常。因此可以使用类似这样的结构:cond=Truedefstart_task():whilecond:#dosomethingdefterminate_task():#brea
系统 2019-09-27 17:55:29 1968
一、进程和线程进程假如有两个程序A和B,程序A在执行到一半的过程中,需要读取大量的数据输入(I/O操作),而此时CPU只能静静地等待任务A读取完数据才能继续执行,这样就白白浪费了CPU资源。是不是在程序A读取数据的过程中,让程序B去执行,当程序A读取完数据之后,让程序B暂停,然后让程序A继续执行?当然没问题,但这里有一个关键词:切换既然是切换,那么这就涉及到了状态的保存,状态的恢复,加上程序A与程序B所需要的系统资源(内存,硬盘,键盘等等)是不一样的。自然
系统 2019-09-27 17:55:24 1968