- 军军小站|张军博客
搜索到与相关的文章
Python

Hadoop中的Python框架的使用指南

最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但ApacheHadoop的生态系统大部分都是用Java来实现的,也是为Java准备的,这让我很恼火。所以,我的头等大事变成了寻找一些Python可以用的Hadoop框架。在这篇文章里,我会把我个人对这些框架的一些无关科学的看法写下来,这些框架包括:Hadoop流mrjobdumbohadoopyp

系统 2019-09-27 17:48:52 1810

Python

python爬虫re模块

python爬虫1《1》什么是爬虫网络爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。《2》爬虫的基本原理:我们把互联网比喻为一张大网,网络爬虫我们想象为网上的蜘蛛,网页与网页之间的连接我们理解为节点,爬虫就相当于是访问网页,获取网页的信息,又通过节点可以爬取另一个网站,然后不停的通过一个个节点即访问一个个网页,这样网站的数据就可以被我们获取下来了。《3》爬虫的分类:网络爬虫可分为通用爬虫和聚焦爬虫

系统 2019-09-27 17:48:45 1810

Python

编写Python脚本来获取mp3文件tag信息的教程

下面利用一个python的实例程序,来学习python。这个程序的目的就是分析出所有MP3文件的Tag信息并输出。importos#导入os模块,提供文件路径,列出文件等方法importsys#导入sys模块,使用sys.modules获取模块中的所有内容,类似反射的功能fromUserDictimportUserDict#这个表示从UserDict类中导入UserDict,类似于Java中的importUserDict.UserDictdefstripn

系统 2019-09-27 17:48:26 1810

Python

Stack Overflow2019开发者调查报告:“Python再次

继PLPY4月榜单官宣,Python躺赢,再度“夺”冠,实力甩下Java和C后,近期,StackOverflow发布了2019开发者调查报告,也证实了王者陨落这一事实。那么,2019年大环境下,程序员群体正在发生哪些变化?收入究竟如何?这份报告邀请超147个国家、9万名开发者参与调查,内容涉及开发者基本情况、技术、工作、社区、方法论多个维度。以下为和正在敲代码的你息息相关的结论。2019年Python趋势分析:https://edu.csdn.net/to

系统 2019-09-27 17:48:16 1810

Python

python 数据描述符的使用(附带装饰器)

什么是python描述符:类里面有__get__或__set__或__del__的就叫描述符属性查找优先级类属性数据描述符(同时实现__get__和__set__)实例属性非数据描述符(只实现__get__)__getattr__通过代理和描述符实现属性懒加载这里是使用装饰器的方式实现的懒加载。可以将耗时的操作放到方法里面。在未使用的时候是一个方法,当第一次使用过后就会替换掉方法,并为之设置属性值。注意,只有在使用的时候才会执行函数里面的代码,并且只执行一

系统 2019-09-27 17:47:51 1810

Python

python爬虫爬去百度图片

下面程序能够爬取百度图片一个网页里面的所以图片,值得关注的是匹配字段,正则表达式要写正确,虽然匹配成功的但是爬取的图片还是较少,下篇我会采取get方法来请求更多图片来爬取。importurllib.requestimportreimporttimedefopen_url(url):req=urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0(WindowsNT6.1;WOW6

系统 2019-09-27 17:47:28 1810

Python

Python中zip()函数用法实例教程

本文实例讲述了Python中zip()函数的定义及用法,相信对于Python初学者有一定的借鉴价值。详情如下:一、定义:zip([iterable,...])zip()是Python的一个内建函数,它接受一系列可迭代的对象作为参数,将对象中对应的元素打包成一个个tuple(元组),然后返回由这些tuples组成的list(列表)。若传入参数的长度不等,则返回list的长度和参数中长度最短的对象相同。利用*号操作符,可以将listunzip(解压)。二、用法

系统 2019-09-27 17:47:05 1810

Python

Python程序中的线程操作-线程队列

目录一、线程队列二、先进先出三、后进先出四、存储数据时可设置优先级的队列4.1优先级队列4.2更多方法说明一、线程队列queue队列:使用importqueue,用法与进程Queue一样queueisespeciallyusefulinthreadedprogrammingwheninformationmustbeexchangedsafelybetweenmultiplethreads.二、先进先出classqueue.Queue(maxsize=0)i

系统 2019-09-27 17:47:05 1810

Python

Python数据处理脚本获得4倍提速,你需要加上这3行代码

Python是一门非常适合处理数据和自动化完成重复性工作的编程语言,我们在用数据训练机器学习模型之前,通常都需要对数据进行预处理,而Python就非常适合完成这项工作,比如需要重新调整几十万张图像的尺寸,用Python没问题!你几乎总是能找到一款可以轻松完成数据处理工作的Python库。然而,虽然Python易于学习,使用方便,但它并非运行速度最快的语言。默认情况下,Python程序使用一个CPU以单个进程运行。不过如果你是在最近几年配置的电脑,通常都是四

系统 2019-09-27 17:46:24 1810

Python

Python写的创建文件夹自定义函数mkdir()

Python对文件的操作还算是方便的,只需要包含os模块进来,使用相关函数即可实现目录的创建。主要涉及到三个函数:1、os.path.exists(path)判断一个目录是否存在2、os.makedirs(path)多层创建目录3、os.mkdir(path)创建目录直接上代码:复制代码代码如下:defmkdir(path):#引入模块importos#去除首位空格path=path.strip()#去除尾部\符号path=path.rstrip("\\"

系统 2019-09-27 17:46:08 1810