爬虫的概念:爬虫就是获取网页并提取和保存信息的自动化程序爬虫的分类:主要有四类:通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫爬虫的流程:常见的几种爬虫问题:主要有五类:静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用常见的爬虫框架:pyspider框架,Scrapy框架分布式爬虫:在多台机器上运行爬虫程序爬虫的一些常用"库":解析库:lxml;BeautifulSoup;pyquery;tesserocr请求库:r
系统 2019-09-27 17:56:05 2065
PythonHTTP客户端自定义Cookie实现实例几乎所有脚本语言都提供了方便的HTTP客户端处理的功能,Python也不例外,使用urllib和urllib2可以很方便地进行HTTPGET和POST等各种操作。并且还允许以类似于插件的形式加入一些handler,来定制request和response,比如代理的支持和cookie的支持都是这样添加进来的。具体来说,通过如下方式构造一个opener:opener=urllib2.build_opener(
系统 2019-09-27 17:55:51 2065
最近新需求来了,要给系统增加几个资源权限。尽量减少代码的改动和程序的复杂程度。所以还是使用装饰器比较科学之前用了一些登录验证的现成装饰器模块。然后仿写一些用户管理部分的权限装饰器。比如下面这种defpermission_required(permission):defdecorator(f):@wraps(f)defdecorated_function(*args,**kwargs):ifnotcurrent_user.can(permission):ab
系统 2019-09-27 17:55:30 2065
Python跟Python3完全就是两种语言1、importcaffeFAILED环境为Ubuntu16cuda8.0NVIDIA361.77Anaconda2。昨天莫名其妙Caffe不能用了:>>>importcaffeTraceback(mostrecentcalllast):File"",line1,inFile"/home/duchengyao/project/caffe/python/caffe/__init__.py",line1,infrom
系统 2019-09-27 17:55:11 2065
前言玩ctf经常遇到进制转换的问题,就正好做一个进制转换总结,分享出来供大家参考学习,下面来一起看看详细的介绍:字符串与十六进制转换例如百度ctf12月的第二场第一个misc666C61677B65633862326565302D336165392D346332312D613031322D3038616135666137626536377D比较简单的一种做法就是直接调用字符串的.decode('hex')解密即可,但如果不用这个函数你会怎么解呢?一种思路就
系统 2019-09-27 17:55:09 2065
配置好virtualenv和virtualenvwrapper后,使用pycharm创建新项目。之后要面临的问题就来了,之前一直使用的是sqlite作为开发数据库进行学习,按照之前看教程的原则,好像就是说开发环境要和生产环境尽量的一致,所以现在想尝试一下使用更有可能在生产环境部署的mysql数据库进行开发。本觉得是一件应该很轻松的事情,没想到遇到了一些麻烦根据一通百度,搜出来的方案大概有:MySQLdbmysql安装时候自带的connectorpymysq
系统 2019-09-27 17:54:28 2065
调用科大讯飞语音听写,使用Python实现语音识别,将实时语音转换为文字。参考这篇[博客]()实现的录音,首先在官网下载了关于语音听写的SDK,然后在文件夹内新建了两个.py文件,分别是get_audio.py和iat_demo.py,并且新建了一个存放录音的文件夹audios,文件夹内存放录音文件input.wav,我的整个文件目录如下:asr_SDK(文件名)├─Readme.html├─audios│└─input.wav(存放音频)├─bin│├─
系统 2019-09-27 17:53:58 2065
运行splash:控制台输入:dockerrun-p8050:8050scrapinghub/splash如果报错:重启Docker后再输入。
系统 2019-09-27 17:53:24 2065
环境:win10(64),python3.7.1,git2.7.2,pylint-2.3.1,git_pylint_commit_hook-2.5.1以上为当期搭建所用到的版本,有异常时方便查找问题。安装pylint,pylint是一个单独可以对python文件进行格式校验的模块,https://www.pylint.org/官网地址有各个电脑环境的安装说明,Windows下,使用:pipinstallpylint安装完成之后,就可以直接使用pylint对
系统 2019-09-27 17:53:18 2065
OpenAIgym是强化学习最为流行的实验环境。某种程度上,其接口已经成为了标准。一方面,很多算法实现都是基于gym开发;另一方面,新的场景也会封装成gym接口。经过这样一层抽象,算法与实验环境充分解耦隔离,可以方便地自由组合。但gym是python的接口,如果想用C++实现强化学习算法,则无法直接与gym相接。一种方案是跨进程:一个进程运行python环境,另一个进程运行强化学习算法,与环境交互数据经过序列化和反序列化通过IPC进行通信。另一种是单进程方
系统 2019-09-27 17:53:18 2065