搜索到与相关的文章
各行各业

Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4版本号,在cygwin下运行crawl命令进行爬取。bin/nutchcrawlurls-dircrawl-depth3-topN30爬取的流程例如以下:inject:将urls下的url文档中的url注入到数据库,generate:从数据库中取得url

系统 2019-08-12 01:33:22 2641

Linux

基于Linux的虚拟主机搭建

为了建设二级网站建设,我考察了多个开源和商业的虚拟主机和控制面板。主要察看了Linux下的。很多工具,例如开源的VHCS,商业的Plesk功能虽然十分强大,但他们的主要服务对象是商业虚拟主机客户,和我们的集中管理模式不太一样。最后我选用了Webmin的一个支持虚拟主机的模块virtual-host。因为我对Webmin比较了解,它在Linux管理上非常强大和稳定。主要安装步骤如下:1安装webmin,地址http://ip:100002进入webmin安装

系统 2019-08-12 01:33:01 2641

各行各业

使用NDK移植开源项目,JNI的使用技巧

jni的介绍JNI是JavaNativeInterface的缩写,中文为JAVA本地调用。从Java1.1开始,JavaNativeInterface(JNI)标准成为java平台的一部分,它允许Java代码和其他语言写的代码进行交互。JNI一开始是为了本地已编译语言,尤其是C和C++而设计的,但是它并不妨碍你使用其他语言,只要调用约定受支持就可以了。以下介绍Android中如何使用jni移植开源库的技巧.JNI日志输出到Logcat中#include

系统 2019-08-12 01:31:48 2641

Python

Python使用MyQR制作专属动态彩色二维码

Python中有一个非常有趣好玩的库MyQR,不仅可以制作各种漂亮的二维码,还可以生成动态彩色二维码。MyQR是一个能够生成自定义二维码的第三方库,你可以根据需要生成普通二维码、带图片的艺术二维码,也可以生成动态二维码。生成动态二维码效果图如下:二维码扫描上图看看我们首先要安装MyQR库,直接用pip3installmyqr(orMyQR)。需要注意的是MyQR依赖于Python3,在Python2的环境下可能无法正常运行。这个库提供了两种使用方法,一种是

系统 2019-09-27 17:57:36 2640

Python

Python中的深拷贝和浅拷贝

一、赋值1、在python中,对象的赋值就是简单的引用,a=[1,2,3],b=a,在上述情况下,a和b是一样的,他们指向同一片内存,b不过是a的别名,是引用,我们可以使用bisa去判断,返回True,表名他们地址相同内容也相同,也可以使用id()函数来查看.看两个列表地址是否相同。2、赋值操作(包括对象作为参数、返回值),不会开辟新的内存空间,他只是赋值了对象的引用.也就是除了b这个名字之外,没有其他的内存开销,修改了a也就影响了b,修改了b,也就影响了

系统 2019-09-27 17:56:57 2640

Python

Python 通过打码平台实现验证码的实现

在爬虫时,经常遇到登录需要验证码的情况,简单的验证码可以自己解决,复制的验证码需要借助机器学习,有一定的难度。还有一个简单的方案就是采用付费的打码平台。比如R若快(http://www.ruokuai.com/client),还有云打码平台(http://www.yundama.com/price.html)下面以R若快为例介绍打码平台的思路:R若快平台需要注册两个用户,一个是普通用户,一个开发者用户,1、首先验证码截图,就是截取网站上登录页面的验证码图片

系统 2019-09-27 17:56:53 2640

Python

Python操作excel的方法总结(xlrd、xlwt、openpyxl)

前言在处理excel数据时发现了xlwt的局限性�C不能写入超过65535行、256列的数据(因为它只支持Excel2003及之前的版本,在这些版本的Excel中行数和列数有此限制),这对于实际应用还是不够的。为此经过一番寻找发现了一个支持07/10/13版本Excel的openpyxl,虽然功能很强大,但是操作起来感觉没有xlwt方便。下面分别说下几个模块的常用操作。xlrdxlrd是用来从Excel中读写数据的,但我平常只用它进行读操作,写操作会遇到些

系统 2019-09-27 17:54:33 2640

Javascript

Python、Javascript中的闭包比较

同为脚本语言,python和Javascript具有相似的变量作用域,不像php,函数的内部的所有变量和外部都是隔绝的,也就是说,函数要想处理其外部的数据,必须使用参数把需要处理的数据传递进来(使用global关键词这里不讨论),而python和Javascript不同,如果在函数声明变量,它会逐级网上查找,直到返回着个值或者未定义。那么这样说,python的闭包应该很简单了,像javascript一样,我们编写类似的代码:deffunc1():a=1de

系统 2019-09-27 17:52:31 2640

Python

python中的字典

1.字典是另一种可变数据类型,可存储任意类型对象。无序的序列,键值对的输入顺序和在内存中的存储顺序不一致字典中的数据存储以键值对的方式字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中s={}print(s,type(s))#创建一个空字典#字典:key-value键值对s={'linux':[100,99,88],'python':[190,56,78]}print(s,type(s)工厂

系统 2019-09-27 17:47:24 2640

Python

Python自定义类的数组排序实现代码

首先把实现方法写出来,其实很简单,只需要一句代码即可:复制代码代码如下:productlist.sort(lambdap1,p2:cmp(p1.getPrice(),p2.getPrice()))数组productlist中存储的是自定义类Product,Product有一个方法是返回商品的价格,于是对productlist按照Product的价格从低到高进行排序,仅需要如此简单的一行代码即可实现。Python真的是一门简洁而强大的语言,实际上,我也是从写

系统 2019-09-27 17:38:08 2640