- 军军小站|张军博客
搜索到与相关的文章
编程技术

【Lucene3.0 初窥】索引创建(3):DocumentWrite

上接《索引创建(2):DocumentWriter处理流程一》1.3.2第二车间——DocInverterPerFieldDocInverterPerField负责对DocFieldProcessorPerThread对象的Fieldable[]数组的内容建立倒排索引,也就是处理同名字的所有Field。但实际上这个类主要解决的是前期工作,比如分词,统计位置信息等。倒排索引结构的核心的工作由TermsHashPerField和FreqProxTermsWri

系统 2019-08-29 21:59:47 1738

编程技术

【排序结构6】 桶排序

从《基于比较的排序结构总结》中我们知道:全依赖“比较”操作的排序算法时间复杂度的一个下界O(N*logN)。但确实存在更快的算法。这些算法并不是不用“比较”操作,也不是想办法将比较操作的次数减少到logN。而是利用对待排数据的某些限定性假设,来避免绝大多数的“比较”操作。桶排序就是这样的原理。桶排序的基本思想假设有一组长度为N的待排关键字序列K[1....n]。首先将这个序列划分成M个的子区间(桶)。然后基于某种映射函数,将待排序列的关键字k映射到第i个桶

系统 2019-08-29 21:59:41 1738

编程技术

【文本分类】文本表示 --- VSM

要使得计算机能高效的处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实的反映文档内容(主题、领域或结构等),另一方面也要有对不同文档的区分能力。目前文本表示通常采用向量空间模型(vectorspacemodel,VSM)。VSM是20世纪60年代末期由G.Salton等人提出的,是当前自然语言处理中常用的主流模型。下面首先给出VSM设计的基本概念:(1)文档(document):通常是文章中具有一定规模的字符串。文档通常我们也叫文本。(

系统 2019-08-29 21:59:30 1738

编程技术

大话重构连载17:抽取方法的实践

说了那么多理论,我们来看看怎样使用抽取方法来重构遗留系统。如前所述,重构的过程首先是阅读程序代码,边阅读边整理程序。将功能相对独立的代码段放在一起,在前面加上注释。调整一些程序的顺序,将相关的代码尽量放在一起,但要保证程序执行的结果不会发生改变。比较典型的,将变量的定义与使用变量的代码放在一起。这个步骤比较实用,因为许多的遗留系统,其代码都有一个坏毛病,就是在程序开始时定义一大堆变量,但要弄清这些变量都用来做什么,却十分困难。边读边调整,将变量的定义逐渐迁

系统 2019-08-29 21:59:02 1738

编程技术

grasp设计模式笔记回顾

根据讲师所讲做了一下笔记以便自己能方便学习:------------------------------------------grasp设计模式;grasp(generalresponsibilityassignmentsoftwarepatterns:通用职责分配软件模式)模式相对于gof23模式更加抽象,它的核心思想:职责如何分配和如何用用职责设计对象;它的五个基本模式:---信息专家、创建者、高内聚、低耦合、控制器;四个扩展模式;---多态性、纯虚

系统 2019-08-12 01:33:35 1738

Python

python垃圾回收机制

python垃圾回收机制一、什么是垃圾回收机制?垃圾回收机制(简称GC)是Python解释器自带一种机制,专门用来回收不可用的变量值所占用的内存空间二、为什么要用垃圾回收机制?程序运行过程中会申请大量的内存空间,而对于一些无用的内存空间如果不及时清理的话会导致内存使用殆尽(内存溢出),导致程序崩溃,因此管理内存是一件重要且繁杂的事情,而python解释器自带的垃圾回收机制把程序员从繁杂的内存管理中解放出来。python采用的是引用计数机制为主,标记-清除和

系统 2019-09-27 17:57:11 1737

Python

Python提取文本tf、idf

"""python提取文本的tfidf特征"""importmathfromcollectionsimportCounter#1.语料库corpus=['thisisthefirstdocument','thisisthesecondseconddocument','andthethirdone','isthisthefirstdocument']#2.对语料进行分词word_list=[]foriinrange(len(corpus)):word_lis

系统 2019-09-27 17:57:10 1737

Python

Python中的join()函数的用法

Python中有join()和os.path.join()两个函数,具体作用如下:join():连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串os.path.join():将多个路径组合后返回一、函数说明1、join()函数语法:'sep'.join(seq)参数说明sep:分隔符。可以为空seq:要连接的元素序列、字符串、元组、字典上面的语法即:以sep作为分隔符,将seq所有的元素合并成一个新的字符串返回值:返

系统 2019-09-27 17:57:06 1737

Python

python rsync服务器之间文件夹同步脚本

本文实例为大家分享了pythonrsync服务器之间文件夹同步的具体代码,供大家参考,具体内容如下Aboutrsync配置两台服务器之间3ssh-key后,可以实现自动化无需手动输入密码,脚本如下:importargparseimportdatetimefromfunctoolsimportpartialimportmultiprocessingasmpimportosimportparamikoaspmkimporttimedefcheck_ssh(ho

系统 2019-09-27 17:57:04 1737