上面我们学习了RDD如何转换,即一个RDD转换成另外一个RDD,但是转换完成之后并没有立刻执行,仅仅是记住了数据集的逻辑操作,只有当执行了Action动作之后才会真正触发Spark作业,进行算子的计算执行操作有:reduce(func)collect()count()first()take(n)takeSample(withReplacement,num,[seed])takeOrdered(n,[ordering])saveAsTextFile(path
系统 2019-09-27 17:52:33 1870
Socket的英文原义是“孔”或“插座”。作为BSDUNIX的进程通信机制,取后一种意思。通常也称作”套接字”,用于描述IP地址和端口,是一个通信链的句柄。在Internet上的主机一般运行了多个服务软件,同时提供几种服务。每种服务都打开一个Socket,并绑定到一个端口上,不同的端口对应于不同的服务。Socket正如其英文原意那样,像一个多孔插座。一台主机犹如布满各种插座的房间,每个插座有一个编号,有的插座提供220伏交流电,有的提供110伏交流电,有的
系统 2019-09-27 17:52:33 1870
初试牛刀假设你希望学习Python这门语言,却苦于找不到一个简短而全面的入门教程。那么本教程将花费十分钟的时间带你走入Python的大门。本文的内容介于教程(Toturial)和速查手册(CheatSheet)之间,因此只会包含一些基本概念。很显然,如果你希望真正学好一门语言,你还是需要亲自动手实践的。在此,我会假定你已经有了一定的编程基础,因此我会跳过大部分非Python语言的相关内容。本文将高亮显示重要的关键字,以便你可以很容易看到它们。另外需要注意的
系统 2019-09-27 17:52:00 1870
目录python多线程详解一、线程介绍什么是线程为什么要使用多线程二、线程实现threading模块自定义线程守护线程主线程等待子线程结束多线程共享全局变量互斥锁递归锁信号量(BoundedSemaphore类)事件(Event类)三、GIL(GlobalInterpreterLock)全局解释器锁python多线程详解一、线程介绍什么是线程线程(Thread)也叫轻量级进程,是操作系统能够进行运算调度的最小单位,它被包涵在进程之中,是进程中的实际运作单位
系统 2019-09-27 17:51:56 1870
没必要.目前网上优质、实用的免费课程有很多,而一些收费的课程目的并不在于授业解惑,而是在于盈利。如果本着分享的目的,获取一些回报自然无可厚非,只怕绝大多数提供课程的出发点就带着商业行为,这样对于刚入门、不了解情况的初学者是一个非常严重的误导,不仅花费冤枉钱,而且掉进坑里费心费力,文末有资源下载方式。说一下我关于Python学习的看法,我认为Python作为一个较为简单的编程语言没必要看一些视频课程,这样会花费大量时间,而对于编程最高效的学习路线莫过于以下几
系统 2019-09-27 17:51:45 1870
json是一种轻量级的数据交换格式,也可以说是一种配置文件的格式这种格式的文件是我们在数据处理经常会遇到的python提供内置的模块json,只需要在使用前导入即可你可以通过帮助函数查看json的帮助文档json常用的方法有load、loads、dump以及dumps,这个都属于python初级,我不做过多解释json可以结合数据库一起使用,在这以后要处理大量数据时非常有用下面我们正式来利用数据挖掘对json文件进行处理现在很多网站都运用了Ajax,所以一
系统 2019-09-27 17:51:28 1870
函数:split()Python中有split()和os.path.split()两个函数,具体作用如下:split():拆分字符串。通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(list)os.path.split():按照路径将文件名和路径分割开一、函数说明1、split()函数语法:str.split(str="",num=string.count(str))[n]参数说明:str:表示为分隔符,默认为空格,但是不能为空('')。若字符串
系统 2019-09-27 17:50:49 1870
先说明下,我这是对某个目录下的图片名称进行操作,该目录下的图片名称为1.jpg,2.jpg。。。。。这样类似的图片名。1.旋转#-*-coding:utf-8-*-fromPILimportImagedefrotateimg(inputimg,outimg):im=Image.open(inputimg)#图片的宽度和高度img_size=im.sizeprint("图片宽度和高度分别是{}".format(img_size))#旋转图片#左旋转90度im
系统 2019-09-27 17:48:59 1870
#!/usr/bin/envpythonimportcv2importsysimporttimeimportnumpyasnpimporttimeif__name__=="__main__":print(cv2.__version__)print(np.__version__)'''4.1.01.16.3'''#//@打开摄像头/dev/video0cap_1=cv2.VideoCapture(0)#cap_1.set(3,640)#cap_1.set(4
系统 2019-09-27 17:48:54 1870
最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但ApacheHadoop的生态系统大部分都是用Java来实现的,也是为Java准备的,这让我很恼火。所以,我的头等大事变成了寻找一些Python可以用的Hadoop框架。在这篇文章里,我会把我个人对这些框架的一些无关科学的看法写下来,这些框架包括:Hadoop流mrjobdumbohadoopyp
系统 2019-09-27 17:48:52 1870