MongoDB是一个开源的、无模式的文档型数据库,是当前流行的NOSQL类型数据库的一种(非关系型数据库)MongoDB的数据结构非常松散,是类似json的bjson格式,同时支持对数据建立索引。是一个面向集合的,模式自由的文档型数据库。1.面向集合意思是数据被分组存储在数据集合中,被称为一个集合2.模式自由意味着对于存储在MongoDB数据库中的文件,我们不需要知道它的任何结构定义。提了这么多次"无模式"或"模式自由",它到是个什么概念呢?例如,下面两个
系统 2019-08-12 01:33:45 2269
WenQuanYi-OpenSourceChinese:About1.“文泉驿”项目简介2.“文泉驿”开发小组成员2.1.文泉驿项目维护人2.2.编辑委员会(用户发送审核)2.3.文泉驿信任委员会(版权管理)2.4.捐款管理2.5.主要贡献者2.6.点阵项目参与成员2.7.矢量项目参与成员1.“文泉驿”项目简介作为几千年中华文明的见证,浩瀚传统文化传承的载体,汉字是让我们每一个中国人引以为豪的东方文明标志之一。我们的祖先创造汉字,书写汉字,利用汉字和汉语的
系统 2019-08-12 01:31:49 2269
H2O中的随机森林算法介绍及其项目实战(python实现)包的引入:fromh2o.estimators.random_forestimportH2ORandomForestEstimatorH2ORandomForestEstimator的常用方法和参数介绍:(一)建模方法:model=H2ORandomForestEstimator(ntrees=n,max_depth=m)model.train(x=random_pv.names,y='Catrgo
系统 2019-09-27 17:57:17 2268
0引言上周被一则新闻震惊到了,《2454万元大奖无人认领!福彩史上第二大弃奖在广东中山产生》,在2019年5月2日开奖的双色球中,广东中山一位彩民博中2454万元,兑奖时间截至2019年7月1日。令人遗憾的是,中奖者最终未现身领奖,2454万元大奖成为弃奖。经中山市福彩中心查证,这是中国福彩史上金额第二大的弃奖。根据《彩票管理条例实施细则》的有关规定,这次的2454万元弃奖奖金将被纳入彩票公益金。一直在为福彩做贡献的我,啥时候能摊上这样的好事啊。于是我用P
系统 2019-09-27 17:56:54 2268
常用终端命令(python虚拟环境+git)基础新建文件夹mkdir[文件夹名]新建文件touch[文件名]编辑文件vi[文件名]查看当前文件夹位置中的所有文件ls(-a/-all)-a:显示隐藏文件;-all:显示隐藏文件和属性python虚拟环境jupyternotebook添加虚拟环境变量(需要在该变量中)python-mipykernelinstall(--user)--name[环境名称]--display-name"[显示的名称]"#####查
系统 2019-09-27 17:56:37 2268
python小技巧记录我发现1、str转bool方法2、python判断文件和文件夹是否存在、创建文件夹3、文件操作4、python字典遍历的几种方法4.1、遍历key值4.2、遍历value值4.3、遍历字典项4.4、遍历字典健值5、Python列表(List)的三种遍历(序号和值)方法6、python字典判断某个Key是否存在我发现好多有用的小技巧其实都不难,但是每次用的时候,我都要去百度,主要是懒得去记,刚好突然有个想法,总结一些实用小技巧,归类整理
系统 2019-09-27 17:56:06 2268
基础篇正则表达式在python中运用的非常多,因为他可以进行任意的匹配,可以匹配我们想要提取的信息。当我们接触正则的时候你就会知道正则的强大。正则有一个库re在一些工程中我们会经常调用正则的库来做与匹配相关的问题。字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。正则表达式是一种用来匹配字符
系统 2019-09-27 17:55:32 2268
函数定义函数是一段实现特定功能的代码,定义一个函数名称,通过这个函数名称可以多次调用该函数函数的定义方法以及特点函数名:一般说只要合法标识符就行,但为了代码的通读性,约定全部小写字母,多个字母之间用下划线形参列表:用于定义函数可接收的参数,多个参数用逗号隔开,在函数中定义了参数,在调用的时候必须传参函数关键字def函数可以定义零个或者多个参数使用return结束函数。默认返回None。函数帮助文档定义函数帮助文档:只需要一段字符串放在函数声明之后,函数体之
系统 2019-09-27 17:52:49 2268
通常在使用Spark算子函数,比如使用map()或者reduce函数我们向函数传入条件时,函数内部可以使用驱动程序中定义的变量,但是这样会使集群中所有任务都会得到变量新的副本,这些副本的更新不会传播回驱动程序,导致读写共享变量效率低下或者内存溢出,为了解决这个问题Spark提供了两种共享变量类型:广播变量和累加器广播变量:用来高效分发较大对象,只能在Driver定义,不能在Executor端定义,同时RDD不存储数据所以不能广播出去累加器:用来对信息进行聚
系统 2019-09-27 17:52:33 2268
之前的文章里面谈到过,我从R转到Python上,一个很大的不习惯就是R的数据结构比较简单,但是Python的数据类型比较多,很容易就令人头脑混乱。但是今天学习了一下Udacity的课程,顿时就清楚多了。Python最基础的数据类型包括数组、列表、字典比较常见的。而Numpy和Pandas的数据类型是在基础数据类型上建立,彼此相关,又彼此不同。Numpy里面最基本的就是一维的对象np代指,这点我认为和列表list基本没有什么不同,很多操作(比如各种的for循
系统 2019-09-27 17:49:11 2268