在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文本进行分类,这次决定采用Python来处理数据:硬件环境CPU:3.5GHzIntelCorei7内存:32GBHDDR31600MHz硬盘:3TBFusionDrive数据
系统 2019-09-27 17:50:47 2050
python图片爬取爬取各校校花图片—杜凯杰爬取十页校花图片(可按需求更改页数,爬取更多图片)—杜凯杰importrequestsfromlxmlimportetreestartUrl='http://www.xiaohuar.com/list-1-'headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/74.0
系统 2019-09-27 17:50:47 2050
Python窗体输入、展示并存储数据利用python的tkinter进行窗体开发,可以实现输入框,以及利用get函数获取输入框的数据,并将这些数据存储到本地,如果利用数据库,也可以把窗体获取的数据导入到数据库中fromtkinterimport*importtkinter.messageboxasmessageboxroot=Tk()root.title("信息输入框")root.geometry('300x300')input1=Label(root,t
系统 2019-09-27 17:50:46 2050
今天我们讲一下用Python写的GUI小程序。一个小闹钟(只是屏幕提示,没有声音哦)让我们先介绍这个闹钟如何奇葩。需要通过命令行启动。没有标题栏。没菜单。甚至没有关闭按钮。没有运行界面。看到这里想必大家要问了,何必去做一个这样弱爆了的程序呢。显然,教育意义大于其实际用处。像其他的模块一样,QT界面包是需要加载的。我们用到了命令行输入,所以,sys模块也是必须的。用到了时间,但是我们不需要使用time模块,我们用QT提供的QTime模块。让我们先写impor
系统 2019-09-27 17:50:44 2050
Python基础---变量什么是变量:用来绑定数据对象的标识符一.变量的命名规则:变量名必须为字母或下划线开头,后跟字母或下划线或数字不能使用python的关键字命名命名规则可以被视为一种惯例,并无绝对与强制目的是为了增加代码的识别和可读性在定义变量时,为了保证代码格式,=的左右应该各保留一个空格在Python中,如果变量名需要由二个或多个单词组成时,可以按照以下方式命名每个单词都使用小写字母单词与单词之间使用_下划线连接例如:first_name、ast
系统 2019-09-27 17:50:40 2050
今天我们来到了循环队列这一节,之前的文章中,我介绍过了用python自带的列表来实现队列,这是最简单的实现方法。但是,我们都知道,在列表中删除第一个元素和删除最后一个元素花费的时间代价是不一样的,删除列表的第一个元素,那么在它之后的所有元素都要进行移动。所以当列表特别长的时候,这个代价就比较明显了。我们本文介绍的循环队列可以避免这个问题,同样我们上篇文章提到的用链表实现的方法也可以避免。下面,我们来介绍循环队列。循坏队列循环队列,就是将普通的队列首尾连接起
系统 2019-09-27 17:50:25 2050
用Python写趣味程序感觉��诺模�停不下来#生成器生成展示杨辉三角#原理是在一个2维数组里展示杨辉三角,空的地方用0,输出时,转化为''defyang(line):n,leng=0,2*line-1f_list=list(range(leng+2))#预先分配,insert初始胡会拖慢速度,最底下一行,左右也有1个空格#全部初始化为0fori,vinenumerate(f_list):f_list[v]=0ZEROLIST=f_list[:]#预留一个
系统 2019-09-27 17:48:29 2050
python基础5-字典数据类型字典字典定义、创建字典是一种可变容器类型,且可以存储任意类型对象。字典和列表的最大的区别是字典强调的是“键值对”,key与value一一对应,字典中的存放顺序并不重要,重要的是“键”和“值”的对应关系。在字典中,要求key是唯一的,且不可变的。所以字典的特点如下:查找速度快key-value序对没有顺序key键不可变且唯一字典的创建,使用{},每个键值对用:隔开,每对之间用,分割。还有使用dict和使用fromkeys的方法
系统 2019-09-27 17:48:21 2050
python中对对象dump报错:ObjectoftypeCOUPON_CATE_V2isnotJSONserializable使用classObj.__dict__如打印对象:print(str(coupon_cate_v2.__dict__))
系统 2019-09-27 17:48:11 2050
众所周知python的拿手好戏就是爬虫抓取数据,性能优秀,抓取时间快,消耗低,这是python的优势。学会了爬虫后那我们就可以抓取竞争对手的数据,可以对数据进行分析,或者拿来使用(作者不赞成这样做哦)。最重要是对数据进行分析,这样对我们的运营自己的产品,提高用户的新增或留存都是很有帮助的,正所谓现在是大数据年代,没有数据我们也能利用别人的数据。那要怎样才能更好去学习python爬虫呢?今天推荐一本最新使用python3的书籍,值得阅读。《Python3网络
系统 2019-09-27 17:47:38 2050