前言PySpark一直使用的是Linux默认的Python2.7.5版本,感觉超级不爽,于是想升个级,可怎么升啊?于是又开始了万年的Google操作步骤安装Python3.X参考配置全局变量sudovim/etc/profileexportPATH=/usr/bin/python3:$PATHsource/etc/profile打开CDHWeb配置spark-env.sh文件如下:即添加:exportPYSPARK_PYTHON=/usr/bin/pyth
系统 2019-09-27 17:56:03 2146
摘要在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值。这里就简单的介绍一下对于DataFrame去重和取重复值的操作。创建DataFrame这里首先创建一个包含一行重复值的DataFrame。DataFrame去重,可以选择是否保留重复值,默认是保留重复值,想要不保留重复值的话直接设置参数keep为False即可。3.取DataFrame重复值。大多时候我们都是需要将数据去重,但是有时候很我们也需要取重复数据,这个时候我
系统 2019-09-27 17:56:02 2146
python字符串和日期之间转换StringAndDate这里给出实现代码,直接可以使用。大家可以看下。实例代码:'''''Createdon2013-7-25@author:Administrator'''fromdatetimeimportdatetimeclassStringAndDate(object):'''''StringtoDate(datetime)ordatetostring'''defstringToDate(self,string):
系统 2019-09-27 17:55:46 2146
一、什么是匿名函数关键字lambda表示匿名函数。冒号前面的x表示形参,冒号后面是返回值。例:计算1~10对应数字的平方,以列表形式输出。定义法函数:deffun(x):returnx**2print(list(map(fun,range(1,11))))匿名函数法:print(list(map(lambdax:x**2,range(1,11))))二、匿名函数的特点当我们在传入函数时,有些时候,不需要显式地定义函数,直接传入匿名函数更方便。匿名函数有个限
系统 2019-09-27 17:53:21 2146
原生请求头字符串raw_headers="""Host:open.tool.hexun.comPragma:no-cacheCache-Control:no-cacheUser-Agent:Mozilla/5.0(Macintosh;IntelMacOSX10_13_2)AppleWebKit/537.36(KHTML,likeGecko)Chrome/63.0.3239.84Safari/537.36Accept:*/*Referer:http://st
系统 2019-09-27 17:51:16 2146
一、引用传递引用传递,实质是在传递内存地址二、函数默认值1、默认值参数在python中可以为函数的参数给予默认值,一旦某个存在默认值,那么如果在调用的时候,不传递这个参数,则按照默认值注意:在定义函数时,如果存在有默认值的参数,一定要写在没有默认值的参数后面,否则在调用时,无法确定参数到底传给哪个参数,程序就会报错。三、全局变量和局部变量1、全局变量就是定义在py文件中,能被任何函数、类能够正常访问的变量。2、局部变量定义在函数内部的变量,叫做局部变量注意
系统 2019-09-27 17:50:00 2146
在我遇到SimPy包的其中一位创始人KlausMiller时,从他那里知道了这个包。Miller博士阅读过几篇提出使用Python2.2+生成器实现半协同例程和“轻便”线程的技术的可爱的Python专栏文章。特别是(使我很高兴的是),他发现在用Python实现Simula-67样式模拟时,这些技术很有用。结果表明TonyVignaux和ChangChui以前曾创建了另一个Python库,它在概念上更接近于Simscript,而且该库使用了标准线程技术,而不
系统 2019-09-27 17:49:52 2146
一、Q:如何用Python来进行查询和替换一个文本字符串?A:可以使用sub()方法来进行查询和替换,sub方法的格式为:sub(replacement,string[,count=0])replacement是被替换成的文本string是需要被替换的文本count是一个可选参数,指最大被替换的数量,示例:#!/usr/bin/envpython#-*-coding:utf-8-*-importrep=re.compile('(blue|white|red
系统 2019-09-27 17:49:14 2146
实现一个函数,将一个字符串中的空格替换成“%20”#!/usr/bin/envpython#-*-coding:utf-8-*-test=raw_input()#从键盘输入inital_length=len(test)kong=0#kong用来统计输入的一行数据中总共有多少个空格foriintest:ifi=="":kong+=1final_length=inital_length+2*kong#计算转换后的数组的长度p1=inital_length-1p
系统 2019-09-27 17:49:11 2146
========坚持30天刷leetcode=====题目链接:https://leetcode-cn.com/problems/3sum-closest/先上结果:分析:关键在于特殊情况的判断,减少遍历。classSolution:defthreeSumClosest(self,nums,target):k=len(nums)ifk<3:returnNone#特殊情况:数组小于3ifk==3:returnsum(nums)#特殊情况:数组等于3nums.
系统 2019-09-27 17:49:00 2146
在读取https://github.com/Embedding/Chinese-Word-Vectors中的中文词向量时,选择了一个有3G多的txt文件,之前在做词向量时用的是word2vec,所以直接导入模型然后indexword即可。因为这是一个txt大文件,尝试了DataFrame,np.loadtxt等,都没有成功,其中主要遇到的问题是:如何读取完整的大文件,而不会出现内存不足memeryerror等问题将读取出来的文件,保存为npy文件根据词找到
系统 2019-09-27 17:47:39 2146
今天发现了一个好玩的小项目,做的就是坦克大战的,看到它的一瞬间让我想起了小时候泡在4399网站里面的时光了,我果断下载下来跑了起来,做的还是可以的,这里的可以就是说视觉效果上的可以,至于具体内容细节什么还是有一些bug的,比如我自己摧毁“老窝”的时候居然没有游戏结束,等等。既然项目别人已经做好了,我就不多做什么工作了,想着运行py脚本多麻烦,能够把游戏打包成为exe文件就好了,想到这里就开始着手进行游戏的打包工作,这里主要使用的是pyinstaller模块
系统 2019-09-27 17:47:08 2146
阅读更多不定期更新!!官方网站:https://www.python.org/官方文档:https://docs.python.org/3/参考文档(全):https://www.tutorialspoint.com/python/index.htm中文CookBook:https://python3-cookbook.readthedocs.io/zh_CN/latest/菜鸟教程:https://www.runoob.com/python3/pytho
系统 2019-09-27 17:46:13 2146
前言python本身使用\来转义一些特殊字符,比如在字符串中加入引号的时候s='i\'msuperman'print(s)#i'msuperman为了防止和字符串本身的引号冲突,使用\来转义,一般情况下这个也不会引起什么问题,但是当你要使用\来转义\的时候,就比较混乱了,比如我们想要输出一个\,得写两个\,否则会报语法错误,因为\把后面的引号给转义了,必须使用\#错误写法#print'\'#正确写法print('\\')#\#原生字符串print(r'\\
系统 2019-09-27 17:46:09 2146
阅读更多最近尝试使用request来发送上传文件的post请求,网上找了很多直接post文件的例子,借鉴发现这个方法行不通,于是尝试了另外一种方式:通过第三方包requests_toolbelt讲文件转为数据流来发送请求,尝试成功。第一类,单个文件,包含在消息体#-*-coding:utf-8-*-importrequests#引入requests_toolbelt包,直接使用数据流来发送上传文件的post请求fromrequests_toolbelt.m
系统 2019-09-27 17:45:25 2146