参考:python文本相似度计算原始语料格式:一个文件,一篇文章。#!/usr/bin/envpython#-*-coding:UTF-8-*-importjiebafromgensimimportcorpora,models,similaritiesimportcodecsdefcut_words(file):withopen(file,'r',encoding="utf-8")asf:text=f.read()words=jieba.lcut(text
系统 2019-09-27 17:48:40 2042
在python中的数据类型和控制流这篇文章中我们提到过列表,它是基本的数据类型之一。通俗来说,它就是用来存储一系列数据的。比如存储一个班级的学生。列表中的每个元素可以通过下标(索引)访问,索引从0开始。既然列表存储的是一系列值,这必然存在「增删改查」的情况,就像一个班级的学生,有进入学的,也有退学的。接下来我们来说说,首先我们先从列表的创建开始。创建列表list=[ele1,ele2,elem3,...,elen]比如,创建一个数字列表或英文字符列表num
系统 2019-09-27 17:48:06 2042
max()方法返回其参数最大值:最接近正无穷大的值。语法以下是max()方法的语法:max(x,y,z,....)参数x--这是一个数值表达式。y--这也是一个数值表达式。z--这是一个数值表达式。返回值此方法返回其参数的最大值。例子下面的例子显示了max()方法的使用。#!/usr/bin/pythonprint"max(80,100,1000):",max(80,100,1000)print"max(-20,100,400):",max(-20,100
系统 2019-09-27 17:47:38 2042
下面程序能够爬取百度图片一个网页里面的所以图片,值得关注的是匹配字段,正则表达式要写正确,虽然匹配成功的但是爬取的图片还是较少,下篇我会采取get方法来请求更多图片来爬取。importurllib.requestimportreimporttimedefopen_url(url):req=urllib.request.Request(url)req.add_header('User-Agent','Mozilla/5.0(WindowsNT6.1;WOW6
系统 2019-09-27 17:47:28 2042
0x00marshalmarshal使用的是与Python语言相关但与机器无关的二进制来读写Python对象的。这种二进制的格式也跟Python语言的版本相关,marshal序列化的格式对不同的版本的Python是不兼容的。marshal一般用于Python内部对象的序列化。一般地包括:基本类型booleans,integers,floatingpointnumbers,complexnumbers序列集合类型strings,bytes,bytearray
系统 2019-09-27 17:47:22 2042
看这个模块要先看withas的用法,最常用的方法就是打开一个文件:复制代码代码如下:withopen(“filename”)asf:f.read()with可以调用一个上下文管理器,产生运行时的上下文环境。上下文管理器主要定义两个方法,__enter__,__exit__。__enter__返回上下文里操作的对象,如f。__exit__是销毁对象和异常处理。contextlib模块对外有三个接口,contextmanager装饰器,装饰的函数必须是一个生成
系统 2019-09-27 17:47:16 2042
FromPython正则表达式re.match(pattern,string,flags=0)尝试从字符串起始位置匹配一个模式;如果不是起始位置匹配成功,则re.match()返回none.匹配成功,re.match()返回一个匹配的对象,否则返回None.pattern-匹配的正则表达式string-要匹配的字符串flags-标志位,控制正则表达式的匹配方式,如,是否区分大小写,多行匹配等.e.g.#!/usr/bin/python#-*-coding:
系统 2019-09-27 17:46:48 2042
本文实例讲述了python面试题之列表声明。分享给大家供大家参考,具体如下:下面程序输出的结果为?val=[['a']*2]*2printvalval[0][1]='b'printval答案为:[['a','a'],['a','a']][['a','b'],['a','b']]而不是[['a','a'],['a','a']][['a','b'],['a','a']]请看下面的例子:val=['a']*2#或者直接声明val=['a','a']printva
系统 2019-09-27 17:45:59 2042
Python数据结构与算法(几种排序)数据结构与算法(Python)冒泡排序冒泡排序(英语:BubbleSort)是一种简单的排序算法。它重复地遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。冒泡排序算法的运作如下:比较相邻的元素。如果第一个比第二个大(升序),就交换他们两个。对每一对相邻元素
系统 2019-09-27 17:45:58 2042
ini文件是windows中经常使用的配置文件,主要的格式为:复制代码代码如下:[Section1]option1:value1option2:value2python提供了一个简单的模块ConfigParser可以用来解析类似这种形式的文件。对于ConfigParser模块可以解析key:value和key=value这样的类型,对于#和;开头的行将会自动忽视掉。相当于注释行。常用的函数:复制代码代码如下:ConfigParser.RawConfigPa
系统 2019-09-27 17:45:50 2042