Python版本是2.7.9,在win8上测试成功,就是抓取有点慢,本来想用多线程的,有事就罢了。模板之家的网站上的url参数与页数不匹配,懒得去做分析了,就自己改代码中的url吧。大神勿喷!复制代码代码如下:#!/usr/bin/envpython#-*-coding:utf-8-*-#byustcwq#2015-03-15importurllib,urllib2,os,timefrombs4importBeautifulSoupstart=time.c
系统 2019-09-27 17:51:30 2019
Numpy、Pandas是Python数据处理中经常用到的两个框架,都是采用C语言编写,所以运算速度快。Matplotlib是Python的的画图工具,可以把之前处理后的数据通过图像绘制出来。之前只是看过语法,没有系统学习总结过,本博文总结了这三个框架的API。以下是这三个框架的的简单介绍和区别:Numpy:经常用于数据生成和一些运算Pandas:基于Numpy构建的,是Numpy的升级版本Matplotlib:Python中强大的绘图工具NumpyNum
系统 2019-09-27 17:51:19 2019
官方文档:https://elasticsearch-py.readthedocs.io/en/master/1、介绍python提供了操作ElasticSearch接口,因此要用python来操作ElasticSearch,首先要安装python的ElasticSearch包,用命令pipinstallelasticsearch安装或下载安装:https://pypi.python.org/pypi/elasticsearch/5.4.02、创建索引假如
系统 2019-09-27 17:51:01 2019
一、zipfile模块的简述zipfile是python里用来做zip格式编码的压缩和解压缩的,由于是很常见的zip格式,所以这个模块使用频率也是比较高的,在这里对zipfile的使用方法做一些记录。即方便自己也方便别人。zipfile里有两个非常常用的class,分别是ZipFile和ZipInfo,在绝大多数的情况下,我们只需要使用这两个class就可以了。ZipFile是主要的类,用来创建和读取zip文件而ZipInfo是存储的zip文件的每个文件的
系统 2019-09-27 17:51:00 2019
http.cookiejar前面讲到的cookie的使用,我们首先使用的是浏览器登陆之后,将中间的cookie取出来,之后将其应用到代码中,实现代码请求的功能,但是显然这样并不是非常的完美,如果代码能够自动的获取到cookie并完成后续的工作会更加的完美对于这个http.cookiejar,该模块主要的类有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。对于这四类的作用非别如下:1、CookieJ
系统 2019-09-27 17:50:59 2019
基本原理蒙特卡罗方法通过抓住事物运动的几何数量和几何特征,利用数字方法来加以模拟,即进行一种数字模拟实验。它是以一个概率模型为基础,按照这个模型所描绘的过程,通过模拟实验的结果,作为问题的近似解。主要步骤如下:1.构造或描述概率过程2.实现从已知概率分布抽样3.建立各种估计量示例一:π值的计算importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinline#π的计算n=
系统 2019-09-27 17:50:56 2019
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比。抓取方式性能使用难度正则表达式快困难Lxml快简单BeautifulSoup慢简单这样一比较我我选择了Lxml(xpath)的方式了,虽然有三种方式,但肯定是要选择最好的方式来爬虫,这个道理大家都懂,另外有兴趣的朋友也可以去了解另外两种爬虫方式!好了现在来讲讲xpath由于Xpath属于lxml模块
系统 2019-09-27 17:49:52 2019
一开始我使用了rarfile这个库,奈何对于含有密码的压缩包支持不好,在linux上不抛出异常;之后有又尝试了unrar。。比rarfile还费劲。。所以用了调用系统命令的方法,用7z来解压通过apt可以安装上7z-full和7z的rar插件有一个地方要注意-o和-p与后面的目录、密码之间没有空格!!同样可以用这个代码暴力破解压缩包密码#coding:utf-8importosimportzipfileimporttracebackimporttimeim
系统 2019-09-27 17:49:33 2019
本周的PyCoder'sWeekly上分享了一篇小文章,它里面提到的冷知识很有意思,我稍作补充,分享给大家。它提到的部分问题,读者们可以先思考下:若两个元组相等,即a==b且aisb,那么相同索引的元素(如a[0]、b[0])是否必然相等呢?若两个对象的hash结果相等,即hash(a)==hash(b),那么它们是否必然相等呢?答案当然都为否(不然就不叫冷知识了),大家可以先尝试回答一下,然后再往下看。-----思考分割线-----好了,先来看看第一个问
系统 2019-09-27 17:48:26 2019
Shellshell获取文件最后修改时间的秒时间戳:stat-c%Y$path/$newest_logshell获取当前时间的秒时间戳:date+%s两个时间戳相减:timegap=$[$timestamp-$filetimestamp]将日期时间字符串转化为时间戳:date-d"2019-08-26"+%s将时间戳转化为日期时间字符串:date-d@1566748800获取n天前的日期时间:date-d"1dayago"+"%Y-%m-%d"获取n分钟前
系统 2019-09-27 17:48:12 2019