- 军军小站|张军博客
搜索到与相关的文章
Python

Hadoop中的Python框架的使用指南

最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但ApacheHadoop的生态系统大部分都是用Java来实现的,也是为Java准备的,这让我很恼火。所以,我的头等大事变成了寻找一些Python可以用的Hadoop框架。在这篇文章里,我会把我个人对这些框架的一些无关科学的看法写下来,这些框架包括:Hadoop流mrjobdumbohadoopyp

系统 2019-09-27 17:48:52 1808

Python

python爬虫re模块

python爬虫1《1》什么是爬虫网络爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。《2》爬虫的基本原理:我们把互联网比喻为一张大网,网络爬虫我们想象为网上的蜘蛛,网页与网页之间的连接我们理解为节点,爬虫就相当于是访问网页,获取网页的信息,又通过节点可以爬取另一个网站,然后不停的通过一个个节点即访问一个个网页,这样网站的数据就可以被我们获取下来了。《3》爬虫的分类:网络爬虫可分为通用爬虫和聚焦爬虫

系统 2019-09-27 17:48:45 1808

Python

编写Python脚本来获取mp3文件tag信息的教程

下面利用一个python的实例程序,来学习python。这个程序的目的就是分析出所有MP3文件的Tag信息并输出。importos#导入os模块,提供文件路径,列出文件等方法importsys#导入sys模块,使用sys.modules获取模块中的所有内容,类似反射的功能fromUserDictimportUserDict#这个表示从UserDict类中导入UserDict,类似于Java中的importUserDict.UserDictdefstripn

系统 2019-09-27 17:48:26 1808

Python

Python中字典(dict)和列表(list)的排序方法实例

一、对列表(list)进行排序推荐的排序方式是使用内建的sort()方法,速度最快而且属于稳定排序复制代码代码如下:>>>a=[1,9,3,7,2,0,5]>>>a.sort()>>>printa[0,1,2,3,5,7,9]>>>a.sort(reverse=True)>>>printa[9,7,5,3,2,1,0]>>>b=['e','a','be','ad','dab','dbc']>>>b.sort()>>>printb['a','ad','be'

系统 2019-09-27 17:48:22 1808

Python

Python实现动态添加类的属性或成员函数的解决方法

某些时候我们需要让类动态的添加属性或方法,比如我们在做插件时就可以采用这种方法。用一个配置文件指定需要加载的模块,可以根据业务扩展任意加入需要的模块。本文就此简述了Python实现动态添加类的属性或成员函数的解决方法,具体方法如下:首先我们可以参考ulipad的实现:mixin。这里做的比较简单,只是声明一个类,类初始化的时候读取配置文件,根据配置列表加载特定目录下的模块下的函数,函数和模块同名,将此函数动态加载为类的成员函数。代码如下所示:classWi

系统 2019-09-27 17:47:25 1808

Python

Python contextlib模块使用示例

看这个模块要先看withas的用法,最常用的方法就是打开一个文件:复制代码代码如下:withopen(“filename”)asf:f.read()with可以调用一个上下文管理器,产生运行时的上下文环境。上下文管理器主要定义两个方法,__enter__,__exit__。__enter__返回上下文里操作的对象,如f。__exit__是销毁对象和异常处理。contextlib模块对外有三个接口,contextmanager装饰器,装饰的函数必须是一个生成

系统 2019-09-27 17:47:16 1808

Python

Python字符串详解

前一章介绍了python中的集中基本数据类型,本章着重记录python中str字符串类型数据的应用。str字符串主要由两种方法,一种是方法,一种是魔术方法。由于内容实在过于多,本章只介绍其中的方法。我会按照pycharm给的内置方法顺序(即字母排列顺序)全部依次介绍各种方法的使用。print(dir(str))"""'__add__','__class__','__contains__','__delattr__','__dir__','__doc__',

系统 2019-09-27 17:46:53 1808

Python

Python3快速入门(九)——Python3并发编程

Python3快速入门(九)——Python3并发编程一、Python线程模块1、线程简介一个标准的线程由线程ID,当前指令指针(PC),寄存器集合和堆栈组成。线程是进程中的一个实体,是被系统独立调度和分派的基本单位,线程本身不拥有系统资源,与进程内的其它线程共享进程的所有资源。一个进程中至少有一个线程,并作为程序的入口,即主线程,其它线程称为工作线程。多线程,是指从软件或者硬件上实现多个线程并发执行的技术。支持多线程能力的计算机因有硬件支持而能够在同一时

系统 2019-09-27 17:46:47 1808

Python

经验拾忆(纯手工)=> Python正则全解详解

预编译importrere1=re.compile(r'元字符组成的正则规则')#元字符下面会说re1.方法()#方法下边也会说元字符:表示普通字符:.#除了\n外都可以匹配的到\d#只匹配纯数字0-9\D#和\d相反,除了数字全都匹配\s#只匹配空格\S#和\s相反,除了空格,全都匹配#我喜欢用[\s\S]*?匹配所有\w#只匹配纯数字或大小写字母或下划线\W#与\w恰好相反,除了纯数字、大小写字母、下划线全都匹配[]#[abcde]只要包含这个列表的字

系统 2019-09-27 17:46:42 1808

Python

Python数据处理脚本获得4倍提速,你需要加上这3行代码

Python是一门非常适合处理数据和自动化完成重复性工作的编程语言,我们在用数据训练机器学习模型之前,通常都需要对数据进行预处理,而Python就非常适合完成这项工作,比如需要重新调整几十万张图像的尺寸,用Python没问题!你几乎总是能找到一款可以轻松完成数据处理工作的Python库。然而,虽然Python易于学习,使用方便,但它并非运行速度最快的语言。默认情况下,Python程序使用一个CPU以单个进程运行。不过如果你是在最近几年配置的电脑,通常都是四

系统 2019-09-27 17:46:24 1808