各行各业 - 军军小站|张军博客
各行各业

Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4版本号,在cygwin下运行crawl命令进行爬取。bin/nutchcrawlurls-dircrawl-depth3-topN30爬取的流程例如以下:inject:将urls下的url文档中的url注入到数据库,generate:从数据库中取得url

系统 2019-08-12 01:33:22 2378

各行各业

关系,依赖,

依赖dependency通常情况下,依赖关系体现在某个类的方法使用另一个类作为参数。也可以说依赖另一个类才可以完成自己的工作。在UML中你可以在其它的事物之间使用依赖关系,特别是包和节点之间。一般化generalization就是继承,isa,关联association关联是一种结构化的关系,指一种对象和另一种对象有联系。给定有关联的两个类,可以从一个类的对象得到另一个类的对象。有1对1,1对多,多对多等聚合基本聚合有聚合关系的关联指出,某个类是另外某个类

系统 2019-08-12 01:32:41 2378

各行各业

封装原来的DirectoryInfo类,添加事件,可以代

usingSystem;usingSystem.IO;//封装原来的DirectoryInfo类,添加事件,可以代替FileSystemWatcher类publicclassDirectoryInfoNotify{publicDirectoryInfoNotify(stringpath){internalDirInfo=newDirectoryInfo(path);}privateDirectoryInfointernalDirInfo=null;publ

系统 2019-08-12 01:32:40 2378

各行各业

mac下goagent使用 Address already in use错误

此错误为端口占用错误!是你上一次运行goagent没有关闭占用的端口,需要关闭该端口,重新建立连接在命令行下:1:sudolsof-i:8087这是goagent默认的监听端口结果COMMANDPIDUSERFDTYPEDEVICESIZE/OFFNODENAMEPython49503root5uIPv40x8885ceefec08e8910t0TCPlocalhost:8087(LISTEN)其中49503为该进程的id2:结束上述占用端口的进程sudo

系统 2019-08-12 09:27:21 2377

各行各业

将Jenkins的测试结果整合到Testlink

如果试用Jenkins进行构建,构建中的测试结果可以直接作为Testlink的自动直接结果。1.Testlink中新增customfield。2.用例中customfield中加入该用例对应测试类名和方法名,格式:com.example.demo.TestUrl#prodApi。3.Jenkins中安装TestlinkPlugin,安装后在“管理Jenkins”->“组态设定”->“TestLinkInstallation”中填入你的Testlink资料。

系统 2019-08-12 09:27:01 2377

各行各业

使用开源项目打造GIS应用系统

使用开源项目打造GIS应用系统本文讲述如何使用国际开源项目构建一个完整的GIS(地理信息)应用系统。通常的GIS应用系统包括:GIS内核、空间数据导入/转换、空间数据引擎、应用服务器、桌面应用程序、Web应用程序、(移动设备应用程序),实际应用中可以根据需要进行取舍。1、GIS内核GeotoolsGeotools是一套基于Java平台的开源GISAPI中间件,实现了完整的GIS底层功能。2、空间数据导入/转换地理数据的获取地理数据来自文件、数据库和WMS/

系统 2019-08-12 09:27:00 2376

各行各业

第二人生的源码分析(三十八)构造一个消息包并发

消息解包已经看得比较多了,现在就来分析一下怎么样打包一个消息包。上面已经介绍了通过UDP发送消息包给服务器,这里主要介绍打包的过程,它的代码如下:#001voidgive_money(constLLUUID&uuid,LLViewerRegion*region,S32amount,BOOLis_group,#002S32trx_type,constLLString&desc)#003{下面判断是否有钱要给别人。#004if(0==amount)return

系统 2019-08-12 01:32:51 2376

各行各业

H Language Blueprint

HLanguageBlueprintIwilldesigntheHlanguageinthevery-soonfuture,itwillbelike:1-ascriptlanguage2-butintegratedwiththemini-sqlengine.3-soIwouldliketocallita"datahacking"language.BR,MarsJuly3,2013Anytoshare,e-me:mars.fu@foxmail.comHLan

系统 2019-08-12 09:27:39 2375

各行各业

【Selenium专题】元素定位之一简单定位

UI自动化工具千变万化、架构千变万化,但都逃离不开的关键一步就是元素定位。下面以Selenium为例介绍常见的几个元素定位方法ID-元素id属性WebElementEl=driver.findElement(by.id(“id”))name-元素name属性WebElementEl=driver.findElement(by.name(“name”))className-元素class属性WebElementEl=driver.findElement(by

系统 2019-08-12 09:27:31 2375

各行各业

Word历史版本汇总

MS-DOS的版本包括:1983年11月Word11985年Word21986年Word31987年Word4akaMicrosoftWord4.0forthePC1989年Word51991年Word5.5AppleMacintosh的版本包括:1985年1月Word1fortheMacintosh1987年Word31989年Word41991年Word51993年Word61998年Word982000年Word2001,最后一个与MacOS9兼容的

系统 2019-08-12 09:26:58 2374

各行各业

OpenStack Networking

今天的数据中心网络比以往不论什么时候包括的设备都要多,比如server、网络设备、存储系统和安全设备等。这当中有非常多被近一步划分为多个虚拟机和虚拟网络。IP地址的数量、路由配置和安全规则能够迅速达到百万级别。传统的网络管理技术面对下一代网络非常难提供一个真正可扩展的、自己主动化的网络管理方式。OpenStack网络管理是一个插件式的、能够水平扩展的、API驱动的系统,使用该系统能够有效管理您的网络和IP地址。与云操作系统的其它模块累世,管理员和用户使用O

系统 2019-08-12 09:26:54 2374

各行各业

Ffmpeg和SDL如何同步视频

ong>PTS和DTS幸运的是,音频和视频流都有一些关于以多快速度和什么时间来播放它们的信息在里面。音频流有采样,视频流有每秒的帧率。然而,如果我们只是简单的通过数帧和乘以帧率的方式来同步视频,那么就很有可能会失去同步。于是作为一种补充,在流中的包有种叫做DTS(解码时间戳)和PTS(显示时间戳)的机制。为了这两个参数,你需要了解电影存放的方式。像MPEG等格式,使用被叫做B帧(B表示双向bidrectional)的方式。另外两种帧被叫做I帧和P帧(I表示

系统 2019-08-12 09:26:44 2374

各行各业

如何做一个真正牛X 的开源项目

近年来,越来越多的开发者选择将自己的产品以开源形式发布,有时的结果是——你满怀诚意地开源,却无人问津。尽管你的产品做得相当好,但是仅把产品的源代码公布出来,这还不算开源,因为其他用户可能无从下手。没有用户,久而久之,你的满腔热情就会熄灭。那么如何才能让开源项目为更多人所知,成为一个真正牛X的开源项目呢?除了项目自身优秀外,你还需要注意以下事项。一、有一个真正有用的README即使你为你的开源项目制作了一个很好的网站,但是一些潜在用户很可能会首先通过阅读RE

系统 2019-08-12 01:33:11 2374

各行各业

实时流式计算框架Storm 0.9.0发布通知(中文版)

实时流式计算框架Storm0.9.0发布通知(中文版)Storm0.9.0发布通知中文翻译版(2013/12/10by富士通邵贤军有错误一定告诉我shaoxianjun@hotmail.com^_^)我们很高兴宣布Storm0.9.0已经成功发布,你可以从thedownloadspage下载.本次发布对茁壮成长的Storm来说是一次巨大的进步。我们追加了一些新特性,你会在下面看到详细的介绍,此外这次发布的另一个着重点是修复了大量跟稳定性相关的bug.虽然很

系统 2019-08-12 01:32:18 2374

各行各业

ffmpeg2.2.3编译安装

参考文档:http://blog.chinaunix.net/uid-23069658-id-4018842.html下载所需解码器:lame:wgethttp://nchc.dl.sourceforge.net/project/lame/lame/3.99/lame-3.99.5.tar.gzlibogg:wgethttp://downloads.xiph.org/releases/ogg/libogg-1.3.2.tar.gzlibvorbis:wge

系统 2019-08-12 09:27:38 2373