简易的分布式文件系统本来初期打算用Hadoop2,可是后来有限的服务器部署了SolrCloud,各种站点,发现资源不够了,近10T的文件,已经几乎把服务器的磁盘全部用光。想来想去,由于目前架构基于Scala的,所以还是用ScalaAkka实现了一个简单版本的分布式文件系统。Scala版本是2.10.3:http://www.scala-lang.org,Akka版本是2.2.3:http://akka.io。所有文件随机放在不同的服务器上,在数据库中记录了
系统 2019-08-12 01:31:55 2198
在编程界,Python是一种神奇的存在。有人认为,只有用Python才能优雅写代码,提高代码效率;但另一部分人恨不能把Python喷成筛子。那么,Python到底有没有用?作为一名C++开发者,我自认为我的语言优点太多,可做的应用也更多,这一瞬间被Python这个毛头小伙追赶上来,所以学习了Python的内容。不过,Python真有这么强吗?学了才知道,真的强大!Python到底能做什么?Python易学,编译速度又超快。因为其拥有大量第三方库,所以开发人
系统 2019-09-27 17:57:50 2197
前言关于python爬虫目前有两个主流的库一个是urllib和requests在python3中urllib2已经没有了,取而代之的是urllib.request。这里的话我将首先介绍urllib.request的使用。之后我再介绍request,我本人是打算做一个系列的爬虫教程不仅仅包括入门还有实战进阶所以我希望浏览我写的博客时可以按顺序浏览学习。那么废话不多说奉上名言成功没有偶然。即便有些胜利者谦虚地说,自己的成功是偶然的缘故。——尼采开始正片!!!u
系统 2019-09-27 17:57:27 2197
JOSN字符串转换为自定义类实例对象有时候我们有这种需求就是把一个JSON字符串转换为一个具体的Python类的实例,比如你接收到这样一个JSON字符串如下:{"Name":"Tom","Sex":"Male","BloodType":"A","Hobbies":["篮球","足球"]}我需要把这个转换为具体的一个Person类的实例,通过对象的方式来进行操作。在Java中有很多实现比如Gson或者FastJosn。如下代码所示(这里不是全部代码,值标识最
系统 2019-09-27 17:57:06 2197
爬虫工作的三个基本步骤:爬取网页、解析内容、存储数据准备先安装爬取网页需要用到的第三方库:requests和bs4pipinstallrequestspipinstallbs4爬取网页#coding:UTF-8importrequestslink="http://www.santostang.com/"headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(K
系统 2019-09-27 17:57:02 2197
本文实例讲述了python自动化测试之从命令行运行测试用例withverbosity,分享给大家供大家参考。具体如下:实例文件recipe3.py如下:classRomanNumeralConverter(object):def__init__(self,roman_numeral):self.roman_numeral=roman_numeralself.digit_map={"M":1000,"D":500,"C":100,"L":50,"X":10,
系统 2019-09-27 17:55:59 2197
我们都知道验证码是一张图片,这样程序自动识别的难度大,安全性高。设计到图片,先来看一下img标签里的src属性,也是实现验证码的一个小原理我们都知道src属性可以直接把图片拿过来:比如说拿到本地的图片就在直接可以显示在页面上那它是怎么实现的呢?其实src属性同样像服务端发送了一个请求,Django服务端接收到之后,自动把本地文件读取并返回给了客户端,就实现了上面的效果下面来自己实现一下:html:#src属性是一个url,对应处理函数:deftu2(req
系统 2019-09-27 17:54:30 2197
很多企业开发语言从Python转向了Golang的原因因为原生Python的性能真的是太捉襟见肘了。单机运行计算型任务,速度慢是有目共睹的。IO型人物不涉及多线程(比如用协程)的还好,一旦涉及到多线程,立刻懵逼。比如,你开个Python线程,让它sleep5秒,再开第二个线程,随便算个fibonacci或者直接写个busyloop,你就会发现你的程序实际上会sleep6秒。想突破也不难,用pybinding11写c++,再用python调用。但都这样了
系统 2019-09-27 17:54:29 2197
廖雪峰Python教程笔记(六)8模块使用模块8模块在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护。把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,很多编程语言都采用这种组织代码的方式。在Python中,一个.py文件就称之为一个模块(Module)。模块的好处:最大的好处是大大提高了代码的可维护性。引用其他模块,编写代码不必从零开始可以避免函数名和变量名冲突,尽量不要与内置函数名字
系统 2019-09-27 17:54:19 2197
数据集:https://archive.ics.uci.edu/ml/datasets/Adult这个数据集是字符数据集,你需要自己进行清洗数据转换数据之类的,好在python的字符串操作特别简单,好处理。特征取了学位情况、工作职业性质、工作单位之类的。朴素贝叶斯:https://www.bilibili.com/video/av36338359?from=search&seid=1177086802297258225这个的数据集是预测一个人的年薪是否能超
系统 2019-09-27 17:52:08 2197