各行各业

Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4版本号,在cygwin下运行crawl命令进行爬取。bin/nutchcrawlurls-dircrawl-depth3-topN30爬取的流程例如以下:inject:将urls下的url文档中的url注入到数据库,generate:从数据库中取得url

系统 2019-08-12 01:33:22 2535

各行各业

构建易于维护的分布式程序

摘要:本篇博客没有新东西,只不过是把去年在珠三角技术沙龙做的一次演讲的其中一张ppt展开讲一讲。本文标题中的“易于维护”指的是supportability,不是maintainability。前者是从运维人员角度说,程序管理起来很方便,日常的劳动负担小;后者是从开发人员的角度说,代码好读好改。前文《分布式系统中的进程标识》我提到一个观点:分布式系统中的每个长期运行的、会与其他机器打交道的进程都应该提供一个管理接口,对外提供一个维修探查通道,可以查看进程的全

系统 2019-08-12 01:32:57 2535

各行各业

回顾2007——技术篇

概述再有十多天又会进入新的一年,看到大家都在写“我的2007”,对自己一年的工作、生活等做一个总结。而我自己的2007真的总结不出来什么,这一年基本可以用“荒废”或者“颓废”来总结。本篇文章主要对2007年的技术(主要指.NET平台)做一个简单的回顾。ASP.NETAJAX经过了漫长的CTP版本、以及从CTP到Beta1时的巨变,ASP.NETAJAX1.0终于在2007年1月24日跟大家见面了,并且在一周后,微软在Ms-RL协议下发布了ASP.NETAJ

系统 2019-08-12 09:26:43 2534

各行各业

What's WiX?

很简单WiXWindowsInstallerXML(WiX)平台是一组开源的工具与规范,使您能够创建MicrosoftWindowsInstaller数据库文件(MSI和MSM[MergeModules]).WiX工具承袭了根据源代码创建可执行文件所使用的传统编译和链接模型.WiX的源代码是使用XML文件编写的.WiX源代码经过预处理,编译与链接,以创建WindowsInstaller数据库.来源:http://baike.baidu.com/view/2

系统 2019-08-12 01:32:51 2533

各行各业

Grizzly NIO框架 理论篇 【4】

PortUnificationOverview(端口统一)针对在一个端口上开放多种协议的服务,类似下图:通过PortunificationFilter去判断三种协议,然后针对不同协议传递到下一个Filter执行后续工作。其中Finder的Grizzly官方给了一个简单用例,针对协议包头是"add"的Finder/***{@linkProtocolFinder},responsibletodetermineifincomingbytebuffer*repre

系统 2019-08-12 09:27:24 2532

各行各业

Gdal1.6版本编译心得

半年前,写了一个Gdal1.4的编译,前一段时间又开始用Gdal了,发现已经日新月异到1.6版了,还推出了针对.NET开发的solution编译,实在是大大方便了我这样的C#程序员。但是很奇怪的是官网下载的源码居然编译出错,仔细研究了一会才发现代码中确实有个低级错误,不知道是不是由于编程语言之间的转换造成的。在此写出来,供自己和大家参考。1、源代码地址http://download.osgeo.org/gdal/gdal160.zip2、打开makegda

系统 2019-08-12 09:26:45 2531

各行各业

配置使用率报告

本文内容:关于使用率报告配置WindowsSharePointServices使用率日志记录启用使用率报告激活使用率报告监视使用率报告关于使用率报告使用率报告是一种服务,网站管理员、网站集管理员和共享服务提供程序(SSP)管理员可通过它来监视有关其网站使用情况的统计信息。使用率报告还包括搜索查询的使用率报告,该报告可由执行搜索操作的SSP管理员和网站集管理员查看。若要配置使用率报告,服务器场管理员必须首先为承载包含SSP的Web应用程序的场启用Window

系统 2019-08-12 09:27:00 2530

各行各业

Nutch搜索引擎Solr简介及安装

Nutch搜索引擎(第2期)_Solr简介及安装1、Solr简介Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。Solr最初由CNETNetworks开发,2006年初,ApacheSoftwareFoundation在Lucene顶级项目的支持下得到了Sol

系统 2019-08-12 01:32:53 2530

各行各业

thrift安装 - xiaoshe的专栏 - 博客频道 - CSDN

thrift安装-xiaoshe的专栏-博客频道-CSDN.NETthrift安装分类:thrift2011-06-2109:05876人阅读评论(1)收藏举报Thrift是Facebook开发出的一个软件库和一组代码生成工具,以加快高效率、可扩展的后端服务的开发与实现的速度。它通过对各语言最常用的部分加以抽象,把它们放进一个通用库里,再用各个语言实现,来实现跨编程语言的高效而可靠的通信。亦即,Thrift允许开发者在一个单独的语言无关的文件里,定义数据类

系统 2019-08-12 01:32:46 2530

各行各业

[Qt]用QFileSystemWatcher来监视文件和目录的改

UseCase:两个程序共享同一个Configuration文件,当一个程序作出改变的时候,需要另外一个程序能够及时响应。之前其实猜的八九不离十,估计是有一个Timer,然后定时查询Configuration文件是否改变。今天兴趣来了,正好一看,果然,同时也感慨Qt之博大精深。废话莫谈,那我们就看看内部机制吧:-----------------------------------------------------Qt提供了QFileSystemWatch

系统 2019-08-12 09:26:55 2528

各行各业

zabbix数据存储

一、zabbix数据库zabbix-server将采集到的数据存储在数据库中,最常用的Mysql,数据存储的大小和每秒处理的数据量有关,数据存储取决于每秒处理的数据量和Housekeeper的删除数据。zabbix-server讲采集到的数据主要存储在History和Trends表中History表主要存储收集到的历史数据,而Trends主要存储经过计算的历史数据,如每小时数据的最小值、最大值和平均值。对于超过期限的数据,zabbix用Housekeepe

系统 2019-08-12 09:27:23 2527

各行各业

OpenCascade Primitives BRep - Box

OpenCascadePrimitivesBRep-Boxeryar@163.comAbstract.BRepisshortforBoundaryRepresentation.BoundaryRepresentationgivesacompletedescriptionofanobjectbyassociatingtopologicalandgeometricinformationforsolidmodeling.Inthiscase,objectsare

系统 2019-08-12 01:31:54 2527

各行各业

【Selenium专题】元素定位之一简单定位

UI自动化工具千变万化、架构千变万化,但都逃离不开的关键一步就是元素定位。下面以Selenium为例介绍常见的几个元素定位方法ID-元素id属性WebElementEl=driver.findElement(by.id(“id”))name-元素name属性WebElementEl=driver.findElement(by.name(“name”))className-元素class属性WebElementEl=driver.findElement(by

系统 2019-08-12 09:27:31 2526

各行各业

OpenStack Networking

今天的数据中心网络比以往不论什么时候包括的设备都要多,比如server、网络设备、存储系统和安全设备等。这当中有非常多被近一步划分为多个虚拟机和虚拟网络。IP地址的数量、路由配置和安全规则能够迅速达到百万级别。传统的网络管理技术面对下一代网络非常难提供一个真正可扩展的、自己主动化的网络管理方式。OpenStack网络管理是一个插件式的、能够水平扩展的、API驱动的系统,使用该系统能够有效管理您的网络和IP地址。与云操作系统的其它模块累世,管理员和用户使用O

系统 2019-08-12 09:26:54 2526

各行各业

第二人生的源码分析(109)脚本的语法分析(3)

下面来详细地分析语法分析相关的类,以便了解整个语法分析的过程和细节,这样也方便地复用第二人生里的脚本编译器,达到源码复用的目标。先来分析类LLScriptFilePosition,它的声明代码如下:#001classLLScriptFilePosition#002{#003public:构造函数,保存脚本所在的行号和列号。#004LLScriptFilePosition(S32line,S32col)#005:mLineNumber(line),mColu

系统 2019-08-12 01:32:38 2526