中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(MaximumMatching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。●算法思想正向最大匹配算法:从左到右将待分词文本中的几个
系统 2019-08-29 21:59:36 1999
在我们的项目中遇到这样一个问题:我们的项目需要连接多个数据库,而且不同的客户在每次访问中根据需要会去访问不同的数据库。我们以往在spring和hibernate框架中总是配置一个数据源,因而sessionFactory的dataSource属性总是指向这个数据源并且恒定不变,所有DAO在使用sessionFactory的时候都是通过这个数据源访问数据库。但是现在,由于项目的需要,我们的DAO在访问sessionFactory的时候都不得不在多个数据源中不断
系统 2019-08-29 21:58:55 1999
使用List和Map有很多共性,比如说不能再1方设置inverse="true"不同的是,list可以保留元素的顺序,这个使通过一个idx字段来实现的,比如说Team和Student的1对多关系,我们给team加入学生的时候,需要记录加入的顺序,这时候我们可以使用list方式,并在student表中新增加一个idx字段(但在Student实体类中不定义idx属性)数据库结构:createtableteamList(idvarchar(32),teamnam
系统 2019-08-12 09:29:27 1999
1.Python中的异常栈跟踪之前在做Java的时候,异常对象默认就包含stacktrace相关的信息,通过异常对象的相关方法printStackTrace()和getStackTrace()等方法就可以取到异常栈信息,能打印到log辅助调试或者做一些别的事情。但是到了Python,在2.x中,异常对象可以是任何对象,经常看到很多代码是直接raise一个字符串出来,因此就不能像Java那样方便的获取异常栈了,因为异常对象和异常栈是分开的。而多数Python
系统 2019-09-27 17:56:45 1998
相关模块osos.pathshutilpathlib(Newinversion3.4)基本操作判断文件(夹)是否存在。os.path.exists(pathname)#newpathlib.Path(pathname).exists()判断路径名是否为文件。os.path.isfile(pathname)#newpathlib.Path(pathname).is_file()判断路径名是否为目录。os.path.isdir(pathname)#newpat
系统 2019-09-27 17:56:34 1998
本文实例讲述了python自动化测试之setUp与tearDown的用法,分享给大家供大家参考。具体如下:实例代码如下:classRomanNumeralConverter(object):def__init__(self):self.digit_map={"M":1000,"D":500,"C":100,"L":50,"X":10,"V":5,"I":1}defconvert_to_decimal(self,roman_numeral):val=0for
系统 2019-09-27 17:56:11 1998
最近在使用爬虫爬取数据时,经常会返回403代码,大致意思是该IP访问过于频繁,被限制访问。限制IP访问网站最常用的反爬手段了,其实破解也很容易,就是在爬取网站是使用代理即可,这个IP被限制了,就使用其他的IP。对于高大上的公司来说,他们基本都使用收费的代理,基本不会有什么问题,比较稳定。像我这样的矮矬穷,肯定是用不起收费的代理。一般都是使用国内免费的代理,网上也有很多提供免费的代理。很多人都是从网上爬取一批免费的代理IP,存放在存储媒介中,例如excel文
系统 2019-09-27 17:56:04 1998
[Python标准库]decimal――定点数和浮点数的数学运算作用:使用定点数和浮点数的小数运算。Python版本:2.4及以后版本decimal模块实现了定点和浮点算术运算符,使用的是大多数人所熟悉的模型,而不是程序员熟悉的模型,即大多数计算机硬件实现的IEEE浮点数运算。Decimal实例可以准确地表示任何数,对其上取整或下取整,还可以对有效数字个数加以限制。Decimal小数值表示为Decimal类的实例。构造函数取一个整数或字符串作为参数。使用浮
系统 2019-09-27 17:56:03 1998
先看服务端的代码importsys#importsocketimporttimeimportgeventfromgeventimportsocketfromgeventimportmonkeymonkey.patch_all()#类似于python中的黑魔法,把很多模块的阻塞的变成非阻塞的,比如socket中的rece和send都变#为不阻塞了defserver(port):s=socket.socket()s.bind(("127.0.0.1",port
系统 2019-09-27 17:55:42 1998
本文实例讲述了python基于queue和threading实现多线程下载的方法,分享给大家供大家参考。具体方法如下:主代码如下:#downloadworkerqueue_download=Queue.Queue(0)DOWNLOAD_WORKERS=20foriinrange(DOWNLOAD_WORKERS):DownloadWorker(queue_download).start()#startadownloadworkerformd5inMD5S:
系统 2019-09-27 17:55:42 1998