Python

零基础写python爬虫之使用urllib2组件抓取网页内容

版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(UniformResourceLocators)的组件。它以urlopen函数的形式提供了一个

系统 2019-09-27 17:46:01 2309

Python

Python如何为图片添加水印

添加水印的主要目的是为了版权保护,使自己的图像不被抄袭或者恶意转载。网上有很多制作水印的工具,本帖介绍怎么使用Python-Pillow库给图片添加水印。使用ImageMagick添加图片水印-Linux添加文本水印在图片右下角添加文字:fromPILimportImage,ImageDraw,ImageFont#指定要使用的字体和大小;/Library/Fonts/是macOS字体目录;Linux的字体目录是/usr/share/fonts/font=I

系统 2019-09-27 17:37:51 2309

Python

Python语言基础

一、python概述python语言诞生于20世纪90年代初,早期主要应用于做科学计算的研究机构。近些年由于web、大数据、人工智能的发展,它已经被逐渐广泛应用于系统管理任务的处理和web编程方面,称为比较受欢迎的程序设计语言之一。1、python的语言特点有什么?python使用C语言开发,但是python不再有C语言中的指针等复杂数据类型。python的简洁性使得软件的代码大幅度地减少,开发任务进一步简化。程序员关注的重点不再是语法特性,而是程序所要实

系统 2019-09-27 17:57:11 2308

Python

python 随机森林算法及其优化详解

前言优化随机森林算法,正确率提高1%~5%(已经有90%+的正确率,再调高会导致过拟合)论文当然是参考的,毕竟出现早的算法都被人研究烂了,什么优化基本都做过。而人类最高明之处就是懂得利用前人总结的经验和制造的工具(说了这么多就是为偷懒找借口。hhhh)优化思路1.计算传统模型准确率2.计算设定树木颗数时最佳树深度,以最佳深度重新生成随机森林3.计算新生成森林中每棵树的AUC,选取AUC靠前的一定百分比的树4.通过计算各个树的数据相似度,排除相似度超过设定值

系统 2019-09-27 17:54:33 2308

Python

python爬虫 基于requests模块的get请求实现详解

需求:爬取搜狗首页的页面数据importrequests#1.指定urlurl='https://www.sogou.com/'#2.发起get请求:get方法会返回请求成功的响应对象response=requests.get(url=url)#3.获取响应中的数据:text属性作用是可以获取响应对象中字符串形式的页面数据page_data=response.text#4.持久化数据withopen("sougou.html","w",encoding="

系统 2019-09-27 17:53:10 2308

Python

《Python数据科学入门》之Series或Frame数据类型(第6章)

Python数据科学入门DmitryZinoviev著熊子源译第6章使用Series和framePandas模块的初中时为了给Python添加Series和frame两个抽象的数据结构,它们其实是Python的竞争对手、最早的数据科学语言——R语言的核心。Pandas的frame本质是一个“智能”电子表格:具有标签、列(变量)、行(观测记录),以及大量内置操作的表。(Series是一个只有一列的frame)表的数据部分(单元格)以numpy数组的方式实现。

系统 2019-09-27 17:51:53 2308

Python

python 爬取boss直聘招聘信息实现

1、一些公共方法的准备获取数据库链接:importpymysql'''遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!'''#获得数据库链接对象defgetConnect(database):DATABASE={'host':'localhost','database':database,'user':'root','password':'123456'}returnpymysql.connect

系统 2019-09-27 17:51:26 2308

Python

python使用jieba实现中文文档分词和去停用词

阅读更多分词工具的选择:现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。分词前的准备:待分词的中文文档存放分词之后的结果文档中文停用词文档(用于去停用词,在网上可以找到很多)分词之后的结果呈现:图1去停用词和分词前的中文文档图2去停用词和分词之后的结果文档分词和去停用词代码

系统 2019-09-27 17:47:54 2308

Python

Python 微信爬虫完整实例【单线程与多线程】

本文实例讲述了Python实现的微信爬虫。分享给大家供大家参考,具体如下:单线程版:importurllib.requestimporturllib.parseimporturllib.errorimportre,timeheaders=("User-Agent","Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/60.0.3107.4Safari/537.3

系统 2019-09-27 17:47:09 2308

Python

Python时间序列缺失值的处理方法(日期缺失填充)

前言因近期进行时间序列分析时遇到了数据预处理中的缺失值处理问题,其中日期缺失和填充在网上没有找到较好较全资料,耗费了我一晚上工作时间,所以下面我对这次时间序列缺失值处理学习做了以下小结以供之后同行们参考指正。时间序列缺失值处理一、编程前准备收集时间序列数据,相信看这篇博客的各位已经完成了这步。需要安装pandas模块,并利用Python的Lib文件夹自带的datetime库(当时我因为在Pycharm环境中没看到datetime模块又去安装了DateTim

系统 2019-09-27 17:46:41 2308

Python

python实现DEM数据的阴影生成的方法

相关的依赖库在我的github网站上首先贴出代码:importsolarfromgradientimport*fromshadowsimport*importnumpyasnpimportmatplotlib.pyplotasplt#plt用于显示图片importmatplotlib.imageasmpimg#mpimg用于读取图片#demimportsrtmif__name__=='__main__':'''#另一种从网上直接下载DEM数据geo_ele

系统 2019-09-27 17:46:11 2308

Python

python 编程之twisted详解及简单实例

python编程之twisted详解前言:我不擅长写socket代码。一是用c写起来比较麻烦,二是自己平时也没有这方面的需求。等到自己真正想了解的时候,才发现自己在这方面确实有需要改进的地方。最近由于项目的原因需要写一些Python代码,才发现在python下面开发socket是一件多么爽的事情。对于大多数socket来说,用户其实只要关注三个事件就可以了。这分别是创建、删除、和收发数据。python中的twisted库正好可以帮助我们完成这么一个目标,实

系统 2019-09-27 17:56:47 2307

Python

Python信号分析 | 信号运算

1、连续信号的相加与相乘在MATLAB和Python中,连续信号的相加、相减和相乘都是用符号“+”“-”“*”实现的。Python代码如下:"""连续信号相加和相乘"""importnumpyasnpimportmatplotlib.pyplotaspltt=np.linspace(0,2,200)f1=np.exp(-3*t)f2=np.sin(4*np.pi*t)plt.subplot(221)plt.ylim(-1,2)plt.title(u'f1'

系统 2019-09-27 17:52:13 2307

Python

python-matplotlib绘图总结(面对函数和面对对象绘图技巧)

环境:matplotlib3.1.0,numpy1.15.4目录使用matplotlib作图的两大方法一面对函数绘图(pyplot模块有大量函数,供用户调用)1.主要分为四个步骤:2.代码实例(单图和多图)3.图片展示二面对对象绘图(主要操作Figure和Axes对象)(推荐)1.主要分为四个步骤:2.代码实例(单图和多图)3.图片展示使用matplotlib作图的两大方法本教程可以作为科研作图模板,涵盖了作图中很多小细节,使用了matplotlib作图的

系统 2019-09-27 17:51:46 2307

Python

python小程序实现刷票功能详解

刷票一般要突破以下限制:1、验证码识别2、同一ip不可连续投票解决办法1、用tesseract工具,链接在此https://code.google.com/p/tesseract-ocr/(人人还是加不了https链接)2、使用代理,国内可以的代理服务器可以从这里找到http://cn-proxy.com/程序语言当然用python浏览器投票的流程如下1、向服务器发送请求,服务器返回验证码和表单2、填好表单,发送到服务器可以用firefox+httpfox

系统 2019-09-27 17:50:15 2307