中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(MaximumMatching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。●算法思想正向最大匹配算法:从左到右将待分词文本中的几个
系统 2019-08-29 21:59:36 1967
使用List和Map有很多共性,比如说不能再1方设置inverse="true"不同的是,list可以保留元素的顺序,这个使通过一个idx字段来实现的,比如说Team和Student的1对多关系,我们给team加入学生的时候,需要记录加入的顺序,这时候我们可以使用list方式,并在student表中新增加一个idx字段(但在Student实体类中不定义idx属性)数据库结构:createtableteamList(idvarchar(32),teamnam
系统 2019-08-12 09:29:27 1967
本文实例讲述了Python学习笔记之读取文件、OS模块、异常处理、withas语法。分享给大家供大家参考,具体如下:文件读取#读取文件f=open("test.txt","r")print(f.read())#打印文件内容#关闭文件f.close()获取文件绝对路径:OS模块os.environ["xxx"]获取系统环境变量os.getcwd获取当前python脚本工作路径os.getpid()获取当前进程IDos.getppid()获取父进程ID异常#读
系统 2019-09-27 17:57:26 1966
使用列表List作为样本点表示的欧氏距离计算方法:importmath#计算两点之间的距离defeucliDist(A,B):returnmath.sqrt(sum([(a-b)**2for(a,b)inzip(A,B)]))X=[1,2,3,4]Y=[0,1,2,3]print(eucliDist(X,Y))使用np.array作为样本点表示的欧氏距离计算方法:importnumpyasnp#计算两点之间的距离defeucliDist(A,B):retu
系统 2019-09-27 17:56:21 1966
最近在使用爬虫爬取数据时,经常会返回403代码,大致意思是该IP访问过于频繁,被限制访问。限制IP访问网站最常用的反爬手段了,其实破解也很容易,就是在爬取网站是使用代理即可,这个IP被限制了,就使用其他的IP。对于高大上的公司来说,他们基本都使用收费的代理,基本不会有什么问题,比较稳定。像我这样的矮矬穷,肯定是用不起收费的代理。一般都是使用国内免费的代理,网上也有很多提供免费的代理。很多人都是从网上爬取一批免费的代理IP,存放在存储媒介中,例如excel文
系统 2019-09-27 17:56:04 1966
python读取excel文件生成sql文件实例详解学了python这么久,总算是在工作中用到一次。这次是为了从excel文件中读取数据然后写入到数据库中。这个逻辑用java来写的话就太重了,所以这次考虑通过python脚本来实现。在此之前需要给python添加一个xlrd模块,这个模块是专门用来操作excel文件的。在mac中可以通过easy_installxlrd命令实现自动安装模块importxdrlib,sysimportxlrddefopen_e
系统 2019-09-27 17:55:37 1966
最直观的上下文,莫过于小学的语文课,经常会问联系上下文,推测...,回答...,表明作者...。文章里的上下文比较好懂,无非就是前与后。在了解了计算机的执行状态,程式的运行,才稍微对计算机的上下文(context)有了一定的认识,多半还是只可意会,不可言传。本文所讨论的上下文,简而言之,就是程式所执行的环境状态,或者说程式运行的情景。提及上下文,就不可避免的涉及Python中关于上下文的魔法,即上下文管理器(contextor)。资源的创建和释放场景上下文
系统 2019-09-27 17:55:33 1966
这是我使用python写的第一个类(也算是学习面向对象语言以来正式写的第一个解耦的类),记录下改进的过程。分析需求最初,因为使用time模块显示日期时,每次都要设置时间字符串的格式,挺麻烦,但还是忍了。后来,在处理多线程任务时需要实现定时控制的功能,更麻烦,终于决定自己做一个解决这些问题的通用代码(虽然网上有现成的模块,但亲手编写这部分代码正好能锻炼一下我的面向对象编程)。分析框架刚开始,我计划做一个模仿时钟的抽象类,让它独立运行在一个线程中,让它提供显示
系统 2019-09-27 17:54:34 1966
一、内置函数下面简单介绍几个:1.abs()求绝对值2.all()如果iterable的所有元素都为真(或者如果可迭代为空),则返回True3.any()如果iterable的任何元素为真,则返回True。如果iterable为空,则返回False4.callable()如果object参数出现可调,则返回True,否则返回False5.divmod()以两个(非复数)数字作为参数,并在使用整数除法时返回由商和余数组成的一对数字。对于混合操作数类型,二进制
系统 2019-09-27 17:54:34 1966
itchat模块官方参考文档:https://itchat.readthedocs.io/zh/latest/安装pipinstallitchat/pip3installitchat原理Python模仿网页版微信登陆,并且现有一套操作网页版微信的API,可以将你使用微信中产生的数据爬下来,并做出相应的处理。操作1.导入这套微信API的包itchatimportitchat2.模仿网页版微信登陆itchat.auto_login()3.使用相关函数找到相关微
系统 2019-09-27 17:54:06 1966