一般用xlml但遇到过解析出来的内容不一样。有误用另一种方法得到正确的,有误应该只是极少问题。这种方案备用html=browser.page_sourcehtm=bs(html,'html.parser')
系统 2019-09-27 17:53:29 1771
最近基于对抗样本做了一些工作,这里写一篇论文介绍对抗样本基本的原理和生成方法。内容上参考Goodfellow的论文ExplainingandHarnessingAdversarialExamples一、什么是对抗样本?对抗样本的概念最早提出于2014年Szegedy的论文IntriguingPropertiesofNeuralNetworks.在论文,作者发现了一种有趣的现象,即:当前流行的机器学习模型包括神经网络会容易以很高的置信度分错和原始样本仅仅有轻
系统 2019-09-27 17:53:26 1771
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据)importurllib.request#1.指定urlurl='https://www.sogou.com/web?query=周杰伦''''2.发起请求:使用urlopen函数对指定的url发起请求,该函数返回一个响应对象,urlopen代表打开url'''response=urllib.request.urlopen(url=url)#3.获取响应对象中的页面数据:r
系统 2019-09-27 17:53:11 1771
Python中经常遇到这样那样的字符编码问题,尤其在处理网页源码时(特别是爬虫中):UnicodeDecodeError:‘XXX'codeccan'tdecodebytesinposition12-15:illegalmultibyte...每次看到上面这段文字的时候,感觉整个世界都昏暗了,然后就只能各种搜索找资料,过后就忘了。下次遇到时就让世界再昏暗一次。为了彻底解决这个拦路虎,今天咱们就好好的来唠嗑唠嗑。下面以汉字'哈'来解释作示例解释所有的问题,汉
系统 2019-09-27 17:53:00 1771
虽然Python被说成是一种解释型语言,但是实际上,Python源程序要先经过编译,然后才能运行。与Java语言类似,Python源程序编译之后得到的是字节码,交由Python虚拟机来运行。关于这一点,我们可以这样来验证:复制代码代码如下:#!/usr/bin/pythonprint"position1"1_syntax_error_identifierprint"position2"将它保存为program.py,然后在shell窗口中运行它:复制代码代
系统 2019-09-27 17:52:41 1771
第1题:如何解决验证码的问题,用什么模块,听过哪些人工打码平台?PIL、pytesser、tesseract模块平台的话有:(打码平台特殊,不保证时效性)云打码挣码斐斐打码若快打码超级鹰第2题:ip被封了怎么解决,自己做过ip池么?关于ip可以通过ip代理池来解决问题ip代理池相关的可以在github上搜索ipproxy自己选一个去说https://github.com/awolfly9/IPProxyTool提供大体思路:获取器通过requests的爬虫
系统 2019-09-27 17:52:35 1771
在配置python环境,并安装所需包后,运行下列代码~importpandasaspdfromsqlalchemyimportcreate_engineimportcx_Oracle#进行oracle服务器设置,用户名;密码;HOST数据库IP地址;PORT端口号;SERVICE_NAMEdb=cx_Oracle.connect('userid','password','10.10.1.10:1521/dbinstance')print(db.versio
系统 2019-09-27 17:52:32 1771
扫描服务器ip开放端口,用线程池ThreadPoolExecutor,i7的cpu可以开到600个左右现成,大概20s左右扫描完65535个端口,根据电脑配置适当降低线程数#!/usr/local/python3.6.3/bin/python3.6#coding=utf-8importsocketimportdatetimeimportrefromconcurrent.futuresimportThreadPoolExecutor,waitDEBUG=Fa
系统 2019-09-27 17:52:19 1771
#下载一个网页importrequestsimportreurl='https://www.biquge5200.cc/14_14621/'#模拟浏览器发送http请求response=requests.get(url)#编码方式response.encoding='utf-8',如果下载下来的网页内容有中文乱码现象就需要加上这一句话#网页源码html=response.text#[0]取列表下第0个元素.#eg:title的输出结果为:['斗神狂飙无弹窗
系统 2019-09-27 17:52:18 1771
闲暇之余,在家里自建了个服务器,因为用的小区宽带,IP位动态分配。域名解析就是个问题,我的域名一般停放在DNSPod下。DNSPod有提供修改的API,就用Python简单的实现了一下动态解析。这样,就不用安装花生壳了。废话不说,看代码:#!/usr/bin/envpython#-*-coding:utf-8-*-importhttplib,urllib,urllib2importtimeimportsys,osimportreimportjsonuser
系统 2019-09-27 17:52:14 1771