起因:有一天突然想看本小说,在小说网站上不能下载,广告太多,便。。。思路:–分析网站的结构–爬取目录(获得章节名和链接)–多线程加载章节网页–正则匹配内容–保存生成错误日志–链接单个章节txt合并为一个#-*-coding:utf-8-*-"""CreatedonTueJul218:23:492019@author:24709"""importurllibimporturllib.requestimportmultiprocessingfrombs4imp
系统 2019-09-27 17:53:50 2243
一、BeautifulSoup简介网络数据挖掘指的是从网站中获取数据的过程,数据挖掘技术可以让我们从网站世界中收集大量有价值的数据。BeautifulSoup是一个Python库,可以从HTML或XML文件中获取数据,利用它你可以做很多事情,比如你可以持续解析某个商品的最新价格,以便跟踪价格的波动情况。二、BeautifulSoup安装安装BeautifulSouppip3installbeautifulsoup4检验是否安装成功frombs4import
系统 2019-09-27 17:53:33 2243
麻烦的#TODO构造增广矩阵,假设A,b行数相同defaugmentMatrix(A,b):if(len(A)!=len(b)):raise'Thenumberofrowsisdifferent'result=[]foriinrange(len(A)):row=[]forjinrange(len(A[i])):row.append(A[i][j])forjinrange(len(b[i])):row.append(b[i][j])result.append
系统 2019-09-27 17:52:06 2243
python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码:>>>df=pd.DataFrame([[1,1,1,1],[2,2,2,2],[3,3,3,3]],\columns=["col1","col2","col3","col4"])>>>dfcol1col2col3col4011111222223333如果我们调用df.mean(axis=1),我们将得到按行计算的均值>>>df.mean(axis=1)0
系统 2019-09-27 17:49:31 2243
一、python不同环境下运行1、python外部传参引入sys包通过sys.arg[i]获取到对应参数2、python在DOS运行需要加入引用包路径sys.path.append("D:/python/lib")3.shell和bat脚本运行python文件(1)bat文件pythonhello.py%1%2默认有传参数限制,需要用其他方式来获取更多参数(2)shell脚本pythonhello.py$1$2无传参数限制二、应用python生成并写入xm
系统 2019-09-27 17:48:57 2243
Python的交互式命令行可通过启动文件来配置。当Python启动时,会查找环境变量PYTHONSTARTUP,并且执行该变量中所指定文件里的程序代码。该指定文件名称以及地址可以是随意的。按Tab键时会自动补全内容和命令历史。这对命令行的有效增强,而这些工具则是基于readline模块实现的(这需要readline程序库辅助实现)。此处为大家举一个简单的启动脚本文件例子,它为python命令行添加了按键自动补全内容和历史命令功能。[python@pytho
系统 2019-09-27 17:48:02 2243
下表列出了所有Python语言支持的赋值运算符。假设变量a持有10和变量b持有20,则:例如:试试下面的例子就明白了所有在Python编程语言可供选择的赋值运算符:#!/usr/bin/pythona=21b=10c=0c=a+bprint"Line1-Valueofcis",cc+=aprint"Line2-Valueofcis",cc*=aprint"Line3-Valueofcis",cc/=aprint"Line4-Valueofcis",cc=2
系统 2019-09-27 17:47:51 2243
基本命令显示版本信息pip-V安装指定包pipinstallpipinstall-i'host'指定下载源卸载指定包pipuninstall列出已安装的包piplist显示有关已安装包的信息pipshow查找指定包pipsearch修改下载源Linuxvim~/.pip/pip.conf#编辑用户目录下隐藏的配置文件,没有的话生成一个格式如下:[global]index-url=http://mirrors.aliyun.com/pypi/simple/[
系统 2019-09-27 17:45:41 2243
1、序列中元素的索引:第一个元素索引是0,第二个是1,依次递增最后一个元素索引是-1,倒数第二个是-2,依次递减2、序列(Sequence)的种类:列表(list)、元组(tuple)、字符串(string)、Unicode字符串、buffer对象、xrange对象3、列表和元组的区别:列表可以进行修改,但是元组不行4、tuple常作为字典的键5、序列都可以进行以下操作:索引(indexing)、分片(sliceing)、加(adding)、乘(multi
系统 2019-09-27 17:37:36 2243
前言pandas是基于Numpy构建的含有更高级数据结构和工具的数据分析包类似于Numpy的核心是ndarray,pandas也是围绕着Series和DataFrame两个核心数据结构展开的。Series和DataFrame分别对应于一维的序列和二维的表结构。pandas约定俗成的导入方法如下:frompandasimportSeries,DataFrameimportpandasaspd1.1.Pandas分析步骤1、载入日志数据2、载入area_ip数
系统 2019-09-27 17:37:36 2243