前言PySpark一直使用的是Linux默认的Python2.7.5版本,感觉超级不爽,于是想升个级,可怎么升啊?于是又开始了万年的Google操作步骤安装Python3.X参考配置全局变量sudovim/etc/profileexportPATH=/usr/bin/python3:$PATHsource/etc/profile打开CDHWeb配置spark-env.sh文件如下:即添加:exportPYSPARK_PYTHON=/usr/bin/pyth
系统 2019-09-27 17:56:03 2189
简介生活中的日志是记录你生活的点点滴滴,让它把你内心的世界表露出来,更好的诠释自己的内心世界,而电脑里的日志是有价值的信息宝库。日志文件是专门用于记录系统操作事件的记录文件或文件集合,操作系统有操作系统日志文件,数据库系统有数据库系统日志文件,等等。系统日志文件是包含关于系统消息的文件,包括内核、服务、在系统上运行的应用程序等。不同的日志文件记载不同的信息。例如,有的是默认的系统日志文件,有的记载特定任务。在数据库中用事务日志文件记录数据的修改操作,其中的
系统 2019-09-27 17:55:34 2189
基础篇正则表达式在python中运用的非常多,因为他可以进行任意的匹配,可以匹配我们想要提取的信息。当我们接触正则的时候你就会知道正则的强大。正则有一个库re在一些工程中我们会经常调用正则的库来做与匹配相关的问题。字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。正则表达式是一种用来匹配字符
系统 2019-09-27 17:55:32 2189
talkischeap,showmethecode.importloggingimportlogging.handlerslogger=logging.getLogger("logger")handler1=logging.StreamHandler()#handler2=logging.FileHandler(filename="test.log",encoding="utf-8")#每隔1000Byte划分一个日志文件,备份文件为3个#handler2
系统 2019-09-27 17:54:58 2189
fabric是一个python包是一个基于ssh的部署工具包通常用来对网站微服务等等的批量部署例如我有5台线上服务器可以通过一台对着5台分发,实现自动部署的目的。简单介绍下fabric的常用命令常用命令lcd(dir):进入本机某目录local(cmd):本机上执行命令cd(dir):进入服务器某目录run(cmd):服务器上执行命令FabricFabric是一个python的远程执行shell的库,同时它也是一个命令行工具。它提供了丰富的同SSH交互的接
系统 2019-09-27 17:54:45 2189
廖雪峰Python教程笔记(六)8模块使用模块8模块在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护。把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,很多编程语言都采用这种组织代码的方式。在Python中,一个.py文件就称之为一个模块(Module)。模块的好处:最大的好处是大大提高了代码的可维护性。引用其他模块,编写代码不必从零开始可以避免函数名和变量名冲突,尽量不要与内置函数名字
系统 2019-09-27 17:54:19 2189
通常在使用Spark算子函数,比如使用map()或者reduce函数我们向函数传入条件时,函数内部可以使用驱动程序中定义的变量,但是这样会使集群中所有任务都会得到变量新的副本,这些副本的更新不会传播回驱动程序,导致读写共享变量效率低下或者内存溢出,为了解决这个问题Spark提供了两种共享变量类型:广播变量和累加器广播变量:用来高效分发较大对象,只能在Driver定义,不能在Executor端定义,同时RDD不存储数据所以不能广播出去累加器:用来对信息进行聚
系统 2019-09-27 17:52:33 2189
一代码编排1缩进4个空格的缩进(编辑器都可以完成此功能),不要使用Tap,更不能混合使用Tap和空格。2每行最大长度79,换行可以使用反斜杠,最好使用圆括号。换行点要在操作符的后边敲回车。3类和top-level函数定义之间空两行;类中的方法定义之间空一行;函数内逻辑无关段落之间空一行;其他地方尽量不要再空行。二文档编排1模块内容的顺序:模块说明和docstring―import―globals&constants―其他定义。其中import部分,又按标准
系统 2019-09-27 17:51:16 2189
操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名代码:#-*-coding:utf-8-*-#----------------------------#程序:百度贴吧的小爬虫#日期:2015/03/28#语言:Python2.7#操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数#功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名#-----
系统 2019-09-27 17:51:10 2189
简单示例frommatplotlibimportpyplotaspltfromwordcloudimportWordCloudfilename="text.txt"#文本路径withopen(filename,encoding="utf-8")asf:data=f.read()font=r'C:\Windows\Fonts\FZSTK.TTF'wc=WordCloud(font_path=font,#如果是中文必须要添加字体background_color
系统 2019-09-27 17:50:12 2189