- 军军小站|张军博客
搜索到与相关的文章
Python

使用Python Pandas处理亿级数据的方法

在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这次决定采用Python来处理数据:硬件环境CPU:3.5GHzIntelCorei7内存:32GBHDDR31600MHz硬盘:3TBFusionDrive数据

系统 2019-09-27 17:57:15 2005

Python

CDH修改PySpark默认的Python版本

前言PySpark一直使用的是Linux默认的Python2.7.5版本,感觉超级不爽,于是想升个级,可怎么升啊?于是又开始了万年的Google操作步骤安装Python3.X参考配置全局变量sudovim/etc/profileexportPATH=/usr/bin/python3:$PATHsource/etc/profile打开CDHWeb配置spark-env.sh文件如下:即添加:exportPYSPARK_PYTHON=/usr/bin/pyth

系统 2019-09-27 17:56:03 2005

Python

Python线上环境使用日志的及配置文件

目录瞎比比与print相比logging有什么优势?基础用法保存到文件多模块使用logging使用配置文件配置logging瞎比比这篇文章其实早在一个月之前就写好了。奈何,加班猛如虎,真的怕了。直至今天才幸运地有了个双休,赶紧排版一下文章发布了。以下为正文。在初学Python的时候,我们使用print("helloworld")输出了我们的第一行代码。在之后的日子里,便一直使用print进行调试(当然,还有IDE的debug模式)。但是,当你在线上运行Py

系统 2019-09-27 17:55:27 2005

Python

Python自动生成代码 - 通过tkinter图形化操作并生成代码框架

Python自动生成代码-通过tkinter图形化操作并生成代码框架背景脚本代码Demo_CodeGenerator.pydisplay.pyFileHandler.py:脚本运行结果:脚本代码目录其它好玩的Python脚本背景在写代码过程中,如果有频繁重复性的编码操作,或者可以Reuse的各类代码,可以通过Python写一个脚本,自动生成这类代码,就不用每次手写、或者copy了。比如新建固定的代码框架、添加一些既定的软件逻辑,通讯协议、消息模板等等,再编

系统 2019-09-27 17:54:25 2005

Python

廖雪峰Python教程笔记(六)

廖雪峰Python教程笔记(六)8模块使用模块8模块在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护。把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,很多编程语言都采用这种组织代码的方式。在Python中,一个.py文件就称之为一个模块(Module)。模块的好处:最大的好处是大大提高了代码的可维护性。引用其他模块,编写代码不必从零开始可以避免函数名和变量名冲突,尽量不要与内置函数名字

系统 2019-09-27 17:54:19 2005

Python

python 实现返回一个列表中出现次数最多的元素方法

如下所示:#返回一个列表中出现次数最多的元素defshowmax(lt):index1=0#记录出现次数最多的元素下标max=0#记录最大的元素出现次数foriinrange(len(lt)):flag=0#记录每一个元素出现的次数forjinrange(i+1,len(lt)):#遍历i之后的元素下标iflt[j]==lt[i]:flag+=1#每当发现与自己相同的元素,flag+1ifflag>max:#如果此时元素出现的次数大于最大值,记录此时元素的

系统 2019-09-27 17:54:01 2005

Python

Python 序列化 pickle/cPickle模块使用介绍

Python序列化的概念很简单。内存里面有一个数据结构,你希望将它保存下来,重用,或者发送给其他人。你会怎么做?这取决于你想要怎么保存,怎么重用,发送给谁。很多游戏允许你在退出的时候保存进度,然后你再次启动的时候回到上次退出的地方。(实际上,很多非游戏程序也会这么干)在这种情况下,一个捕获了当前进度的数据结构需要在你退出的时候保存到硬盘上,接着在你重新启动的时候从硬盘上加载进来。Python标准库提供pickle和cPickle模块。cPickle是用C编

系统 2019-09-27 17:53:40 2005

Python

自学Python编程的第\七天----------来自苦逼的转行人

2019-09-17-23:09:48今天学的内容是有关小数据池的,学的有点懵逼,感觉越来越难学了,但是得坚持下去明天学习下一个课程时,感觉要跟不上,看来明天得先看好几遍今天的内容不然肯定会听的懵逼今天看见哔哩哔哩很多这样的视频,内容和我网上买的一样的,心塞啊!!!!!!!!!!!!今天的内容:一.重要知识点1.is和==区别id()函数==判断两边的值is判断内存地址#小数据池只针对整数、字符串、布尔值.其他的数据类型不存在驻留机制2.当我们在控制台的时

系统 2019-09-27 17:53:05 2005

Python

python爬虫实战——爬取股票个股信息

爬虫爬取网页信息的思路:发送网页端请求—>获取响应内容—>解析内容—>获取想要的数据—>保存数据这次我们要实现的是爬取静态网页的股票数据,首先是获取沪深A股的所有股票代码,再用这些股票代码获取相应股票的信息东方财富网有所有个股的股票代码(沪深A股所有股票)查看其网页源代码在网页源代码中可以搜索到相应的元素,判断其是数据是静态的接下来是获取每只个股的信息,由于周六日没开市,东方财富网的个股信息没有显示这里改用百度股市通(个股)同样地检查元素可以发现个股的信息

系统 2019-09-27 17:52:55 2005

Python

python3写爬取B站视频弹幕功能

需要准备的环境:一个B站账号,需要先登录,否则不能查看历史弹幕记录联网的电脑和顺手的浏览器,我用的ChromePython3环境以及request模块,安装使用命令,换源比较快:pip3installrequest-ihttp://pypi.douban.com/simple爬取步骤:登录后打开需要爬取的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求点击查看历史弹幕,获取请求其中rolldate后面的数字表示该视频

系统 2019-09-27 17:52:52 2005