今天接到一个新的任务,要对一个140多M的csv文件进行数据处理,总共有170多万行,尝试了导入本地的MySQL数据库进行查询,结果用Navicat导入直接卡死....估计是XAMPP套装里面全默认配置的MySQL性能不给力,又尝试用R搞一下吧结果发现光加载csv文件就要3分钟左右的时间,相当不给力啊,翻了翻万能的知乎发现了Python下的一个神器包:Pandas(熊猫们?),加载这个140多M的csv文件两秒钟就搞定,后面的分类汇总等操作也都是秒开,太牛
系统 2019-09-27 17:52:33 1803
在学习转换之前先了解以下它们的基本概念RDD:弹性分布式数据集,是一个只读分区集合DataFrame:以命名列方式组织的分布式数据集,概念上和关系型数据库的一张表一样DataSet:分布式数据集合,Python暂时不支持了解了基本的概念之后,接下来我们通过代码编写三种数据集的形成RDD的形成frompyspark.sqlimportSparkSessionif__name__=='__main__':spark=SparkSession\.builder\
系统 2019-09-27 17:52:31 1803
目录python多线程详解一、线程介绍什么是线程为什么要使用多线程二、线程实现threading模块自定义线程守护线程主线程等待子线程结束多线程共享全局变量互斥锁递归锁信号量(BoundedSemaphore类)事件(Event类)三、GIL(GlobalInterpreterLock)全局解释器锁python多线程详解一、线程介绍什么是线程线程(Thread)也叫轻量级进程,是操作系统能够进行运算调度的最小单位,它被包涵在进程之中,是进程中的实际运作单位
系统 2019-09-27 17:51:56 1803
目录1.分支结构1.1初步介绍1.2使用案例1.3练习2.循环结构1.1初步介绍1.2使用案例1.分支结构1.1初步介绍至今,我们所写的Python代码都是顺序执行,但是有时候在代码中是需要进行逻辑判断的,比如用户输入用户名和密码,输入正确则验证通过,否则即验证失败。这个时候就会产生两个分支,而且两个分支只会有一条分支会走下去。当然,还有很多类似的场景,我们将这种结果称为"分支结构"或“选择结构”。语法格式:ifxxx1:事情1elifxxx2:事情2el
系统 2019-09-27 17:51:46 1803
Python3快速入门Python3快速入门(一)——Python简介https://blog.51cto.com/9291927/2385592Python3快速入门(二)——Python3基础https://blog.51cto.com/9291927/2409575Python3快速入门(三)——Python3标准数据类型https://blog.51cto.com/9291927/2409580Python3快速入门(四)——Python包管理ht
系统 2019-09-27 17:51:28 1803
一、定义函数def函数名():函数体代码例:#定义函数defemail():print('sendemail')#调用执行函数email()二、函数的返回值defemail():print("sendemail")return"发送成功"#没有return,默认返回Noneret=email()#函数return后面是什么值,ret等于返回值print(ret)注意:一旦遇到return,函数内部return以下的代码不再执行。三、函数的普通参数defem
系统 2019-09-27 17:51:12 1803
近日,2018年最具就业前景的7大编程语言排行榜出炉了。这次的编程语言排行榜是由CodingDojo(编码道场)发布。在此次的最有“钱”途的编程语言榜单上,Java排名第一,网红编程语言Python排名第二,JavaScript排名第三。Python简直可以评得上2017年网红编程的语言,在此次榜单上,它又火了一把。Python加入浙江省高考,而且还成为了山东省小学生教材。小学生都开始学的编程语言,你敢说它未来几年不火呢?这多半也是由于:未来是AI的时代,
系统 2019-09-27 17:51:01 1803
最近刚好有朋友遇到个global相关的问题,这里简单学习一下global关键字的用法。想要更好的了解global关键字,首先要熟悉python的全局变量与局部变量的概念。global关键字的作用是可以申明一个局部变量为全局变量,下面看一下实例一、变量作用域的说明这里简单提一下变量作用域的概念,有兴趣的小伙伴,可以查一下相关的博客1、局部变量defa():##菊部变量-,-local=1print(local)##全局无法使用,只有自己可用print(lob
系统 2019-09-27 17:51:01 1803
代理ProxyHandler处理器(代理)1、代理的原理:在请求目的网站之前,先请求代理服务器,然后让代理服务器去请求目的网站,代理服务器拿到目的服务器的网站数据后,再转发给我们的代码。2、http://httpbin.org/ip这个网站可以方便我们查看一些http请求参数3、使用代理的方法:ProxyHandle这个方法需要传入一个字典,key:请求schema,value:代理服务器ip+端口fromurllibimportrequest##url=
系统 2019-09-27 17:50:55 1803
在C/C++中,传值和传引用是函数参数传递的两种方式,在Python中参数是如何传递的?回答这个问题前,不如先来看两段代码。代码段1:deffoo(arg):arg=2print(arg)a=1foo(a)#输出:2print(a)#输出:1看了代码段1的同学可能会说参数是值传递。代码段2:defbar(args):args.append(1)b=[]print(b)#输出:[]print(id(b))#输出:4324106952bar(b)print(b
系统 2019-09-27 17:50:55 1803