搜索到与相关的文章
Python

2019年 python 爬虫面试题 参考答案不对的请指出 持续更新 7/7

1.import导入模块importxxx,xxx,xxx可以同时导入多个库建议每次导入一个。fromxxximportxx从模块中导入指定方法xx()导入的方法就直接用2.python基本数据类型数字(intfloatlongcomplex(复数))字符串列表字典元组集合py3去除long了,拥抱py3吧其中complex是高中数学知识,不知道的就直接百度。3.区分可变数据类型和不可变数据类型就是变量的内存地址变不变的问题可变数据类型:字典dict,列表

系统 2019-09-27 17:53:32 2019

Python

解决Python抓HTML结构存入数据库转义报错问题

解决Python抓HTML结构存入数据库转义报错问题首先需求是这样的,抓一些资讯(带有标准的html结构入库),然后研究了半天,各种手动转义,尝试了很多种方法都没有效的解决,下面是有效的最后转义的方案,下面这种入库是没有转义符号的,和原html是一样的,如果前台需要带转义符号需要手动替换一下newSql=db.escape(param)sql='INSERTINTOzhixun(htmls)VALUES({})'.format(newSql)数据库比较懒了

系统 2019-09-27 17:53:17 2019

Python

python批量解压zip文件的方法

这是一个用python写解压大量zip脚本的说明,本人新手一个,希望能对各位有所启发。首先要注意的,在运行自己的脚本之前一定先备份或者复制出一些样本进行测试,不然出错会很麻烦;之后我用到的是解压zip文件的扩展包zipfile,可以直接pip安装或者在IDE里安装,需要特别注意的是这个包的文件名解码方式需要我们去修改,先去查看源文件,直接搜索“cp437”(一个编码方式),找到后全部替换为“gbk”,即可解决中文显示问题。代码:importosimport

系统 2019-09-27 17:53:05 2019

Python

使用Python抓取模板之家的CSS模板

Python版本是2.7.9,在win8上测试成功,就是抓取有点慢,本来想用多线程的,有事就罢了。模板之家的网站上的url参数与页数不匹配,懒得去做分析了,就自己改代码中的url吧。大神勿喷!复制代码代码如下:#!/usr/bin/envpython#-*-coding:utf-8-*-#byustcwq#2015-03-15importurllib,urllib2,os,timefrombs4importBeautifulSoupstart=time.c

系统 2019-09-27 17:51:30 2019

Python

浅析Python数据处理

Numpy、Pandas是Python数据处理中经常用到的两个框架,都是采用C语言编写,所以运算速度快。Matplotlib是Python的的画图工具,可以把之前处理后的数据通过图像绘制出来。之前只是看过语法,没有系统学习总结过,本博文总结了这三个框架的API。以下是这三个框架的的简单介绍和区别:Numpy:经常用于数据生成和一些运算Pandas:基于Numpy构建的,是Numpy的升级版本Matplotlib:Python中强大的绘图工具NumpyNum

系统 2019-09-27 17:51:19 2019

Python

python-爬虫-网络请求(三)

http.cookiejar前面讲到的cookie的使用,我们首先使用的是浏览器登陆之后,将中间的cookie取出来,之后将其应用到代码中,实现代码请求的功能,但是显然这样并不是非常的完美,如果代码能够自动的获取到cookie并完成后续的工作会更加的完美对于这个http.cookiejar,该模块主要的类有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。对于这四类的作用非别如下:1、CookieJ

系统 2019-09-27 17:50:59 2019

Python

蒙特卡罗模拟 - python实现

基本原理蒙特卡罗方法通过抓住事物运动的几何数量和几何特征,利用数字方法来加以模拟,即进行一种数字模拟实验。它是以一个概率模型为基础,按照这个模型所描绘的过程,通过模拟实验的结果,作为问题的近似解。主要步骤如下:1.构造或描述概率过程2.实现从已知概率分布抽样3.建立各种估计量示例一:π值的计算importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinline#π的计算n=

系统 2019-09-27 17:50:56 2019

Python

Python爬虫:现学现用xpath爬取豆瓣音乐

爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比。抓取方式性能使用难度正则表达式快困难Lxml快简单BeautifulSoup慢简单这样一比较我我选择了Lxml(xpath)的方式了,虽然有三种方式,但肯定是要选择最好的方式来爬虫,这个道理大家都懂,另外有兴趣的朋友也可以去了解另外两种爬虫方式!好了现在来讲讲xpath由于Xpath属于lxml模块

系统 2019-09-27 17:49:52 2019

Python

Python3数字求和的实例

以下实例为通过用户输入两个数字,并计算两个数字之和:#-*-coding:UTF-8-*-#Filename:test.py#authorby:www.runoob.com#用户输入数字num1=input('输入第一个数字:')num2=input('输入第二个数字:')#求和sum=float(num1)+float(num2)#显示计算结果print('数字{0}和{1}相加结果为:{2}'.format(num1,num2,sum))执行以上代码输

系统 2019-09-27 17:49:48 2019

Python

python利用7z批量解压rar的实现

一开始我使用了rarfile这个库,奈何对于含有密码的压缩包支持不好,在linux上不抛出异常;之后有又尝试了unrar。。比rarfile还费劲。。所以用了调用系统命令的方法,用7z来解压通过apt可以安装上7z-full和7z的rar插件有一个地方要注意-o和-p与后面的目录、密码之间没有空格!!同样可以用这个代码暴力破解压缩包密码#coding:utf-8importosimportzipfileimporttracebackimporttimeim

系统 2019-09-27 17:49:33 2019