一、背景介绍近期有需求需要抓取微信小程序中的数据分析,与一般的网页爬虫类似,主要目标是获取主要的URL地址进行数据爬取,而问题的关键在于如何获取移动端request请求后https加密的参数。本文从最初的抓包到获取URL、解析参数、数据分析及入库等,一步步进行微信小程序的数据爬取。此次爬取的目标是微信小程序“财神股票”中的已受理科创版公司名单数据,如下:注:抓包、分析、爬取等全过程几乎通用于微信小程序,可以类似的爬取其他小程序测试,原理大同小异。二、环境配
系统 2019-09-27 17:52:08 2308
为什么做这个和同学聊天,他想爬取一个网站的post请求观察该网站的post请求参数有两种类型:(1)参数体放在了query中,即url拼接参数(2)body中要加入一个空的json对象,关于为什么要加入空的json对象,猜测原因为反爬虫。既有query参数又有空对象体的body参数是一件脑洞很大的事情。一开始先在apizza网站上了做了相关实验才发现上面这个规律的,并发现该网站的请求参数要为raw形式,要是直接写代码找规律不是一件容易的事情。源码impor
系统 2019-09-27 17:51:26 2308
一、初识python编译型语言:速度快跨平台性差解释型语言:速度慢跨平台性强python属于解释型语言,特点:简单、可读性强、开发速度快、开源、可扩展性强、面向对象。特殊格式的文本文件:python的扩展名.pyshell的扩展名.sh示例:第一个python脚本[root@foundation51python]#vimhello.py#_*_coding:utf-8_*_print'hellopython'print'hellopython'运行结果:二
系统 2019-09-27 17:50:03 2308
需要安装python,然后pipinstallyou-get。安装步骤在官方说明上很清楚,就不写了。使用you-get--playlist-oF:\bilibilihttps://www.bilibili.com/video/av6731067批量下载视频到F:\bilibili下载视频的同时会下载弹幕,但弹幕是xml格式,需要将其转换为ass格式,有一个工具可以帮你:Danmu2Ass,转换完成后就可以开启弹幕模式了。------------------
系统 2019-09-27 17:47:00 2308
下载安装python37[root@k8s-node03~]#wgethttps://www.python.org/ftp/python/3.7.0/Python-3.7.0.tar.xz[root@k8s-node03~]#tarxfPython-3.7.0.tar.xz[root@k8s-node03~]#mkdir/usr/local/python37[root@k8s-node03~]#cdPython-3.7.0[root@k8s-node03~
系统 2019-09-27 17:46:57 2308
上集回顾懒散的周末度假回来要打起精神了。上一节学习了使用argv模块添加参数,并分析了和input用户输入的不同。注意输入提示符的使用更加人性化。读取文件输入和运行结果没有问题,今天学习的信息量可就大啦,读取文件!!注意以下几点:open()函数,实际上就是把一个名字在括号里的文件存到一个变量里。read()函数,每次读取整个文件,它通常用于将文件内容放到一个字符串变量中。避免把文件写死,用argv来获取文件名字巩固练习1、每一行加注释:2、删除10~15
系统 2019-09-27 17:45:33 2308
PythonPEP8Autoformat插件这是用来按PEP8自动格式化代码的。可以在包管理器中安装。快捷键CTRL+SHIFT+R自动格式化python代码1{2"auto_complete":false,3"caret_style":"solid",4"ensure_newline_at_eof_on_save":true,5"find_selected_text":true,6"font_size":11.0,7"highlight_modified
系统 2019-08-12 09:27:23 2308
本文实例讲述了python实现在目录中查找指定文件的方法。分享给大家供大家参考。具体实现方法如下:1.模糊查找复制代码代码如下:importosfromglobimportglob#用到了这个模块defsearch_file(pattern,search_path=os.environ['PATH'],pathsep=os.pathsep):forpathinsearch_path.split(os.pathsep):formatchinglob(os.p
系统 2019-09-27 17:54:30 2307
importnumpyasnpimportmathclassConv2D(object):def__init__(self,shape,output_channels,ksize=3,stride=1,method='VALID'):self.input_shape=shapeself.output_channels=output_channelsself.input_channels=shape[-1]self.batchsize=shape[0]sel
系统 2019-09-27 17:53:54 2307
以下代码对于元组,字典和列表都是可以用的A=[1,2,3]print(A)#输出整个列表,包括逗号和括号等A=[1,2,3]forainA:print(a)#输出所有元素A=[1,2,3]N=0whileN列表的排序https://blog.csdn.net/GrofChen/article/details/91466264列表的所有内置函数https://blog.csdn.net/GrofChen/article/details/91371937
系统 2019-09-27 17:53:29 2307
前提描述:之前电脑里装的是python3.7.0版本并装了pycharm,之后出于要求改为python3.6.7并安装了anaconda3环境。PATH由之前的C:\Users\admin\AppData\Local\Programs\Python\Python37-32\Lib\site-packages及D:\PyCharm2019.2\venv\Scripts的基础上增加了C:\Anaconda3\Scripts,并更改python路径为C:\Use
系统 2019-09-27 17:52:42 2307
forwhile选择使用哪种循环技巧:不知道循环多少次的用while,知道循环多少次的用for能用for不用whileforiin"abc":print(i)第一次:取a存到i里面,然后执行for的代码块第二次:取b存到i里面,然后执行for的代码块第三次:取c存到i里面,然后执行for的代码块foriinrange(5):print(i)ifi==3:continueelse:print(“nobreak”)总结:只要循环体内部没有执行break就会执行
系统 2019-09-27 17:52:37 2307
首先这次学习的是利用写Python脚本对网页信息的获取,并且把他保存到我们的数据库里最后形成一个Excel表格下载第三方模块和源码安装MongoDB刚开始我们需要做一些准备:先安装第三方模块https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz思路如下:1.访问网站,拿到html网页headers获取:脚本1:运行前打开mongod:./mongod&2.提取html里面
系统 2019-09-27 17:50:43 2307
类型转换魔法类型转换魔法其实就是实现了str、int等工厂函数的结果,通常这些函数还有类型转换的功能,下面是一些相关的魔法方法:•__int__(self)•转换成整型,对应int函数。•__long__(self)•转换成长整型,对应long函数。•__float__(self)•转换成浮点型,对应float函数。•__complex__(self)•转换成复数型,对应complex函数。•__oct__(self)•转换成八进制,对应oct函数。•__
系统 2019-09-27 17:37:52 2307
我用的是python2.6。学习python写爬虫的时候,一般都会用到一个Demo-------这个Dmoe在学习的时候确实是非常好的例子,但是我们可能需要对它进行修改,这就会出现一些问题。再对demo进行修改的时候发现了一些编码问题下面就发出来做个记录。pythonUnicodeEncodeError:'ascii'codecan'tencodecharactersinposition23-26:ordinalnotinrange(128)这是一个编码错
系统 2019-08-29 21:58:24 2307