- 军军小站|张军博客
搜索到与相关的文章
编程技术

【文本分类】文本表示 --- VSM

要使得计算机能高效的处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实的反映文档内容(主题、领域或结构等),另一方面也要有对不同文档的区分能力。目前文本表示通常采用向量空间模型(vectorspacemodel,VSM)。VSM是20世纪60年代末期由G.Salton等人提出的,是当前自然语言处理中常用的主流模型。下面首先给出VSM设计的基本概念:(1)文档(document):通常是文章中具有一定规模的字符串。文档通常我们也叫文本。(

系统 2019-08-29 21:59:30 1906

编程技术

TAB式导航栏的快捷实现(IE & FF)

应同事要求做了一个,效果如下:当鼠标移上时变色。没有使用脚本,纯粹通过css实现。同时通过调整背景图片位置的方式解决图片的闪动,主要代码如下:TRS--导航

系统 2019-08-12 09:29:55 1906

编程技术

正则基础之——捕获组(capture group) .

1概述1.1什么是捕获组捕获组就是把正则表达式中子表达式匹配的内容,保存到内存中以数字编号或显式命名的组里,方便后面引用。当然,这种引用既可以是在正则表达式内部,也可以是在正则表达式外部。捕获组有两种形式,一种是普通捕获组,另一种是命名捕获组,通常所说的捕获组指的是普通捕获组。语法如下:普通捕获组:(Expression)命名捕获组:(?Expression)普通捕获组在大多数支持正则表达式的语言或工具中都是支持的,而命名捕获组目前只有.NET

系统 2019-08-12 09:29:52 1906

各行各业

测试Storm的多源头锚定

过程,Spout发送msgid1-10一级Bolt,msgid1的tuple做为基本组合tuple,其他8个和一组合,然后发送给二级Bolt,同时单个msgid对应的tuple都ack一次,msgid1对象tuple,acker将会跟踪8个二级bolt处理情况.二级Bolt,发送ackfail(模拟处理失败)结果:在spoutfail下出现msg1-9都失败的情况.拓扑代码packagestorm.starter;importbacktype.storm.

系统 2019-08-12 09:26:55 1906

各行各业

从简单需求到OLAP的RANK系列函数

同事问了一个非常简单的问题,怎么取出每个partition里面另外一个列的最小值?createtablet1(intc1,intc2);假如按照c2分区,0-10,10-20,20-30,30-40,40-50insertintot1values(101,1);insertintot1values(102,2);insertintot1values(111,11);insertintot1values(112,12);insertintot1values(

系统 2019-08-12 09:26:53 1906

编程技术

没有太多钱的互联网企业如何迅速的积累用户?

公司成立两年了,今天老板组织了一场“头脑风暴”,主要是讨论如何提升产品的竞争力,如何让公司迅速的积累更多的客户。和很多互联网公司一样我们也面临着很多困惑,产品如何定位,市场如何拓展,用户如何积累,商业模式到底如何进行,从公司成立到现在还没有百分之百的定论。还是归到本文的主题来吧,自己随便发表一点自己的看法。首先说一下没有太多钱的互联网企业的定义,它不是没有钱的互联网企业,指的是在保持现有规模的前提下,在一到两年的时间不会有资金的压力。我认为要迅速的积累用户

系统 2019-08-12 01:33:29 1906

Python

python线程中的同步问题及解决方法

多线程开发可能遇到的问题假设两个线程t1和t2都要对num=0进行增1运算,t1和t2都各对num修改1000000次,num的最终的结果应该为2000000。但是由于是多线程访问,有可能出现下面情况:fromthreadingimportThreadimporttimenum=0deftest1():globalnumforiinrange(1000000):num+=1print("--test1--num=%d"%num)deftest2():glo

系统 2019-09-27 17:57:16 1905

Python

搞清楚 Python traceback的具体使用方法

1.Python中的异常栈跟踪之前在做Java的时候,异常对象默认就包含stacktrace相关的信息,通过异常对象的相关方法printStackTrace()和getStackTrace()等方法就可以取到异常栈信息,能打印到log辅助调试或者做一些别的事情。但是到了Python,在2.x中,异常对象可以是任何对象,经常看到很多代码是直接raise一个字符串出来,因此就不能像Java那样方便的获取异常栈了,因为异常对象和异常栈是分开的。而多数Python

系统 2019-09-27 17:56:45 1905

Python

Python中的上下文管理器

Python中的上下文管理器,实际上就是实现了上下文管理协议的对象。在Python中打开文件的时候,我们需要确保文件被使用完毕之后,对其进行关闭操作——调用文件对象的close()方法。如果不使用上下文管理器,经典的处理方式就是将close()方法的调用放在一个finally语句中:f=open("www.log")try:print("dosomethingwithfile")finally:f.close()这里finally的唯一作用就是确保文件对象

系统 2019-09-27 17:56:31 1905

Python

Python selenium使用入门

#版本python==3.7.3selenium==4.0.0a1#seleniumpypi地址https://pypi.org/project/selenium/在目录前提示一下,有时候我们在获取了一组元素,然后进行循环时,会报错'陈旧的元素.....',为了避免这个错误,建议在需要处理一组元素时,我们先算出元素的数量,然后通过range(element_counter),来通过索引值再次搜索需要处理的元素.目录:一、初始化二、元素查找三、select标

系统 2019-09-27 17:56:10 1905