Terms数据磁盘文件存储细节从这篇开始,已经涉及到倒排索引表的信息存储问题了。我们都知道倒排索引表中的Dictionary有许多不同的terms组成,Lucene关于这些terms数据的存储,就放在磁盘的.tii和.tis文件中。★.tii词典索引文件.tis词典数据文件1、tii保存了tis中每隔IndexInterval个词的位置信息,这是为了加快对词典文件tii中词的查找速度具体结构如下:TermInfoIndex(.tii)-->TIVersio
系统 2019-08-29 21:59:40 2090
一个简易的TCP端口扫描器,使用python3实现。需求:扫描目标网站开放哪些端口号,将所有开放的端口号输出。分析:使用socket连接,如果连接成功,认为端口开放,如果连接失败,认为端口关闭(有可能端口开放但连接失败,这里简单认为端口不开放)使用到的库:socket,threading过程:先定义一个函数,对给定的(ip,port)进行扫描,看其是否能连接成功。deftcpPortScan(ip,port,openPort):sock=socket.so
系统 2019-09-27 17:55:41 2089
目录一、进程同步二、为什么需要进程同步三、Python中实现进程同步四、多进程模拟同时抢票4.1通过锁控制进程资源访问总结尽管并发编程让我们能更加充分的利用IO资源,但是也给我们带来了新的问题:当多个进程使用同一份数据资源的时候,就会引发数据安全或顺序混乱问题。一、进程同步多个进程同时执行,为了相互制约各进程对资源的访问,使得各个进程的执行相互同步。在我的理解里,进程同步也算是进程间通讯(ipc)的一种手段。二、为什么需要进程同步多进程会引发抢占资源的问题
系统 2019-09-27 17:54:58 2089
之前想爬取一些淘宝的数据,后来发现需要登录,找了很多的资料,有个使用request的sessions加上cookie来登录的,cookie的获取在登录后使用开发者工具可以找到。不过这个登录后获得的网页的代码是静态的,获取动态网页还得另寻他法,一般需要的数据可以在网页的源码中得到,但是你知道的,有些动态加载的就不是那么简单了,而且我发现这样获得的源码中,有些想要获取的数据的格式是经过改动的,比如我要某个商品的具体链接,发现并不能直接使用。总体而言,这是一次失
系统 2019-09-27 17:54:47 2089
创建列表复制代码代码如下:sample_list=['a',1,('a','b')]Python列表操作复制代码代码如下:sample_list=['a','b',0,1,3]得到列表中的某一个值复制代码代码如下:value_start=sample_list[0]end_value=sample_list[-1]删除列表的第一个值复制代码代码如下:delsample_list[0]在列表中插入一个值复制代码代码如下:sample_list[0:0]=['
系统 2019-09-27 17:53:48 2089
1.函数添加importsyssys.pathsys.path.append("c:\\")2.修改pythonpath(试不通)windows:PYTHONPATH3.增加.pth文件(可以)site-packages或者python安装目录添加xx.pth,文件内容为模块目录。linux(ubuntu)/usr/local/lib/python2.7/dist-packageslinux(redhat)/usr/lib/python2.7/site-p
系统 2019-09-27 17:53:45 2089
getpwname只能得到gid一个username。importpwdmyGroupId=pwd.getpwnam(username).pw_gidgetgroups只能获取groups脚本用户。importosmyGroupIds=os.getgroups()我怎么能得到所有groups的任意一个username,比如id-Gn命令?id-Gn`whoami`解决方案#!/usr/bin/envpythonimportgrp,pwduser="myna
系统 2019-09-27 17:53:36 2089
这里爬取的是http://sc.chinaz.com/tag_tupian/OuMeiMeiNv.html网站献上欧美美女!!!!fromlxmlimportetreeimporturllib.request,os,timeclassOuMeiSpider(object):def__init__(self,start_page,end_page):self.start_page=start_pageself.end_page=end_pageself.fi
系统 2019-09-27 17:53:14 2089
在学习过程中,把开发过程中重要的一些内容备份一下,下面内容是关于python实现中文繁体和中文简体之间的相互转换的内容,应该是对码农们有所好处。#转换繁体到简体line=Converter('zh-hans').convert(line.decode('utf-8'))line=line.encode('utf-8')#转换简体到繁体line=Converter('zh-hant').convert(line.decode('utf-8'))line=li
系统 2019-09-27 17:52:50 2089
最近在做游戏服务分层的时候,一直想把mysql的访问独立成一个单独的服务DBGate,原因如下:请求收拢到DBGate,可以使DBGate变为无状态的,方便横向扩展当请求量或者存储量变大时,mysql需要做分库分表,DBGate可以内部直接处理,外界无感知通过restful限制对数据请求的形式,仅支持简单的get/post/patch/put进行增删改查,并不支持复杂查询。这个也是和游戏业务的特性有关,如果网站等需要复杂查询的业务,对此并不适合DBGate
系统 2019-09-27 17:52:45 2089