在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。可以通过在beautifulsoup中指定字符编码,解决问题。复制代码代码如下:importurllib2fromBeautifulSoupimportBeautifulSouppage=urllib2.urlopen('http://www.163.com');soup=BeautifulSoup(page,from_encoding="gb2312")printsoup.origi
系统 2019-09-27 17:51:09 1714
1、str.split不支持正则及多个切割符号,不感知空格的数量,比如用空格切割,会出现下面情况。>>>s1="aabbcc">>>s1.split('')['aa','bb','','cc']因此split只适合简单的字符分割2、re.split,支持正则及多个字符切割>>>printlineabcaa;bb,cc|dd(xx).xxx12.12'xxxx按空格切>>>re.split(r'',line)['abc','aa;bb,cc','|','d
系统 2019-09-27 17:50:51 1714
平时做数据处理基本离不了日志记录功能。每次都配置一堆挺烦人,索性封装个模块,这里记录一下,与大家共享。说明本日志模块目前只有一个方法getLogger,其他配置项通过参数传递,包括日志文件名,等级,日志文件划分方式,日志清除配置,日志格式等。logger.pyimportloggingfromloggingimporthandlers#日志级别字典__level_dict={'critical':logging.CRITICAL,'fatal':loggi
系统 2019-09-27 17:50:32 1714
数据描述每条数据项储存在列表中,最后一列储存结果多条数据项形成数据集data=[[d1,d2,d3...dn,result],[d1,d2,d3...dn,result],..[d1,d2,d3...dn,result]]决策树数据结构classDecisionNode:'''决策树节点'''def__init__(self,col=-1,value=None,results=None,tb=None,fb=None):'''初始化决策树节点args:co
系统 2019-09-27 17:50:26 1714
阅读更多Python调用hanlp的方法此前有分享过,本篇文章分享自“逍遥自在017”的博客,个别处有修改,阅读时请注意!1.首先安装jpype首先各种坑,jdk和python版本位数必须一致,我用的是JPype1-py3版本号0.5.5.2、1.6jdk和Python3.5,win764位下亲测没问题。否则死翘翘,有可能虚拟机都无法启动:出错调试,原因已说;测试成功会有输出。下面启动虚拟机跑hanlp2.下载各种安装包使用自定义的HanLP——HanLP
系统 2019-09-27 17:50:23 1714
Python从文件中读取指定的行如果想根据给出的行号,从文本文件中读取一行数据,Python标准库linecache模块非常适合这个任务:测试文件内容:Thisisline1.Thisisline2.Thisisline3.Thisisline4.Thisisline5.Thisisline6.Thisisline7.Thisisline8.测试代码:>>>importlinecache>>>file_path=r'D:\work\python\test.
系统 2019-09-27 17:50:14 1714
一般来说,选择用于应用程序的GUI工具箱会是一件棘手的事。使用Python(许多语言也一样)的程序员可以选择的GUI工具箱种类繁多,而每个工具箱都有各自的优缺点。有些速度比其它工具箱快,有些比较小;有些易于安装,有些更适合于跨平台使用(对于这一点,还要指出,有些支持您需要满足的特定特性)。当然,各种库都相应具有各种许可证。对于Python程序员而言,缺省的GUI选择是Tk(通过Tkinter绑定)―其原因显而易见。Tkinter和闲置的IDE是由Pytho
系统 2019-09-27 17:49:34 1714
ccs的优点:css相对xpath语法比xpath简洁,定位速度比xpath快css的缺点:css不支持用逻辑运算符来定位,而xpath支持。css定位语法形式多样,相对xpath比较难记。css定位建议多用,这个定位方式很强大,定位速度快且准确度高。至于难记,用熟了就好了,对勤快的人来说,这不是问题。CSS_selector常用符号:#表示id.表示class>表示子元素,层级1.通过id属性定位:find_element_by_css_selector
系统 2019-09-27 17:49:19 1714
采用Appium进行自动化的功能性测试最酷的一点是,你可以使用具有最适合你的测试工具的任何一门语言来写你的测试代码。大家选择最多的一个测试编程语言就是Python。使用Appium和Python为iOS和Android应用编写测试代码非常容易。在这篇博文中我们将详细讲解使用Appium下的Python编写的测试的例子代码对一个iOS的样例应用进行测试所涉及的各个步骤,而对Android应用进行测试所需的步骤与此非常类似。开始,先自https://githu
系统 2019-09-27 17:49:15 1714
前面介绍过vSQLAlchemy中的Engine和Connection,这两个对象用在rowSQL(原生的sql语句)上操作,而ORM(ObjectRelationalMapper)则是一种用面向对象的思维来操作表数据的技术。所谓ORM就是Python对象到数据表的一种映射关系。以前SQLAlchemy是怎么把Python对象和数据库中表里面的每条记录进行映射的呢?通过一个mapping函数先来看个例子:fromsqlalchemyimportTable,
系统 2019-09-27 17:48:55 1714