- 军军小站|张军博客
搜索到与相关的文章
Python

python爬虫实战:利用scrapy,短短50行代码下载整站短视频

点击上方“何俊林”,马上关注,每天早上8:50准时推送真爱,请置顶或星标近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法。这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题。因为这个事儿,勾起了我另一个念头,这不最近一直想把python爬虫方面的知识梳理梳理吗,干脆借机行事,正凑着短视频火热的势头,做一个短视频的爬虫好了,中间用到什么知识就理一理。我喜欢把事

系统 2019-09-27 17:57:10 2035

Python

Python开发之Nginx+uWSGI+virtualenv多项目部署教程

1、新建独立运行环境,命名为env[root@vultr~]#mkdirprojects#测试的项目总目录[root@vultr~]#pip3installvirtualenv[root@vultr~]#cdprojects[root@vultrprojects]#virtualenvenv--python=python3--no-site-packages--python:指定Python版本--no-site-packages:不复制系统已安装Pyth

系统 2019-09-27 17:57:01 2035

Python

Python 构建一个函数,读取excel,并返回一个字典

在工作中,常常会遇到需要将excel数据导入到数据库的场景。为了方便对数据进行清洗并写入数据库,所以希望能将每一行的数据以字典的形式存放起来,如同[{"id":1,"name":"张三"},]这种形式。下面开始介绍如何进行。首先新建一个测试项目,项目中包含一个py文件,用于写方法。还有一个待导入的excel文件:excel表的内容如下,可以看见表格里面的内容较为简单。以下是详细的代码及分析:importosimportxlrdfromxlrdimportx

系统 2019-09-27 17:56:57 2035

Python

零基础写python爬虫之urllib2中的两个重要概念:Openers和

在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info/geturlurlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()1.geturl():这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。以人人中的一个超级链接为例,我们建一个urllib2_test10.py来比较一下原始URL

系统 2019-09-27 17:54:49 2035

Python

Python中使用pypdf2合并、分割、加密pdf文件的代码详解

朋友需要对一个pdf文件进行分割,在网上查了查发现这个pypdf2可以完成这些操作,所以就研究了下这个库,并做一些记录。首先pypdf2是python3版本的,在之前的2版本有一个对应pypdf库。可以使用pip直接安装:pipinstallpypdf2官方文档:pythonhosted.org/PyPDF2/里面主要有这几个类:PdfFileReader。该类主要提供了对pdf文件的读操作,其构造方法为:PdfFileReader(stream,stri

系统 2019-09-27 17:53:00 2035

Python

Python button选取本地图片并显示的实例

从本地文件夹中选取一张图片并在canvas上显示fromtkinterimport*fromtkinterimportfiledialogfromPILimportImage,ImageTkif__name__=="__main__":root=Tk()#settingupatkintercanvaswithscrollbarsframe=Frame(root,bd=2,relief=SUNKEN)frame.grid_rowconfigure(0,wei

系统 2019-09-27 17:52:27 2035

Python

Python中使用MELIAE分析程序内存占用实例

写的dht协议搜索的程序,这几天优化了一下发现速度确实快了好多。但是出现了一个新的问题,内存直接飙升,我开了十个爬虫占用内存800m。开始我以为是节点太多了,找了几个小问题修改一下,发现没用。后来就到网上查找python内存分析的工具,查了一点资料发现python有个meliae库操作非常方便,就使用分析了一下,发现不是节点太多的原因00,是保存发送的t_id,用来标示返回的消息是那个发出的一个字典过大了。从分析的结果非常容易的定位了某个对象的数量和大小,

系统 2019-09-27 17:52:11 2035

Python

Python爬虫偷懒神器!快速一键生成Python爬虫请求头

今天介绍个神奇的网站!堪称爬虫偷懒的神器!我们在写爬虫,构建网络请求的时候,不可避免地要添加请求头(headers),以mdn学习区为例,我们的请求头是这样的:一般来说,我们只要添加user-agent就能满足绝大部分需求了,Python代码如下:在学习过程中有什么不懂得可以加我的python学习交流扣扣qun,784758214群里有不错的学习视频教程、开发工具与电子书籍。与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内

系统 2019-09-27 17:50:07 2035

Python

python离线下载和安装库

离线批量下载,首先可以使用:pipfreeze>requirements.txt可以将其中的==改成>=,批量修改即可使用命令,把下载的库放入dependency文件夹下:中途可能因为网络原因下载失败,再次执行该命令即可,已经下载好的包不会重复下载pipdownload-ddependency-rrequirements.txt批量离线安装:pipinstall--no-index--find-links=安装包路径-rrequirements.txt下载

系统 2019-09-27 17:47:58 2035

Python

Python微信操控itchat的方法

itchat是一个开源的微信个人号接口,使用python调用微信从未如此简单。开源地址https://github.com/littlecodersh/ItChat文档:https://itchat.readthedocs.io/zh/latest/安装:pip3installitchat登入与登出登入并向文件助手发送一句话,登入时会经过扫码操作,类似于电脑微信登入importitchat#登入并保存登入状态,实现第一次运行时扫码,一定时间内再次运行就不用

系统 2019-09-27 17:47:05 2035