--*******************************************--RMAN备份路径困惑(使用plusarchivelog时)--*******************************************最近RMAN备份时,碰到一点疑惑。即使用plusarchivelog时不管是使用format参数指定备份文件的路径还是使用configure配置RMAN备份路径,都不能将数据文件和日志文件备份到同一路径。在因为以前使用
系统 2019-08-12 01:33:29 2296
前言Hive是Hadoop一个程序接口,Hive让数据分析人员快速上手,Hive使用了类SQL的语法,Hive让JAVA的世界变得简单而轻巧,Hive让Hadoop普及到了程序员以外的人。从Hive开始,让分析师们也能玩转大数据。1.Hive介绍Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语
系统 2019-08-29 22:25:21 2288
Hive是facebook贡献给apache的开源项目,是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为QL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工
系统 2019-08-12 09:27:29 2276
由于hive也支持sql,很多人会把hql跟标准sql进行比较,甚至有的时候会直接套用。hive不支持事务也不支持索引,更不支持追加写,但是对于一般的sql都是能够支持的。但是对于一些子查询确实无法支持的,例如select*fromt_ext_1_bkdoubledeletewheref1=(selectmax(f1)fromt_ext_1_bkdoubledelete)这个sql在mysql中是能够支持的,意思是找到val最大的那一行记录,然后在hive
系统 2019-08-12 09:27:38 2246
第一步:下载hive打开:http://hive.apache.org/releases.html#Download,在页面下方可以看到hive与hadoop的版本匹配信息,如下图:因为我已经安装的hadoop的版本是1.0.3,所以我选择下载hive-0.9.0点击Downloadareleasenow,下载hive-0.9.0.tar.gz第二步:解压tar-zxvfhive-0.9.0.tar.gz我解压后的路径为:/Users/zhangosufe
系统 2019-08-29 22:00:31 2237
1、命令行操作(1)打印查询头,需要显示设置:sethive.cli.print.header=true;(2)加"--",其后的都被认为是注释,但CLI不解析注释。带有注释的文件只能通过这种方式执行:hive-fscript_name(3)-e后跟带引号的hive指令或者查询,-S去掉多余的输出:hive-S-e"select*FROMmytableLIMIT3">/tmp/myquery(4)遍历所有分区的查询将产生一个巨大的MapReduce作业,如
系统 2019-08-12 09:26:57 2235
hive并发调用的运行方式-个人经验篇-ggjucheng-博客园前言使用hive,我们很多情况下会并发调用hive程序,将sql任务转换成mapreuce提交到hadoop集群中,而在本人使用hive的过程中,发现并发调用hive有几个问题,在这个和大家分享下.正文默认安装hive,hive是使用derby内存数据库保存hive的元数据,这样是不可以并发调用hive的,需要配置为使用mysql保存hive的元数据。运行hive,可以有以下访问方式:1.h
系统 2019-08-12 01:32:57 2235
搜索研发部官方博客»BlogArchive»相似度计算常用方法综述相似度计算常用方法综述(2012-7-0509:07:59)标签:主题相似度,向量空间模型,相似度计算分类:数据挖掘引言相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、
系统 2019-08-12 01:32:55 2177
1.安装hive2.hive实战3.hive存储模型4.深入hql查询语言5.参考资料及代码下载<1>.安装hive下载hive,下载地址http://mirror.bjtu.edu.cn/apache//hive/,解压该文件:xuqiang@ubuntu:~/hadoop/src/hive$tarzxvfhive-0.7.0-bin.tar.gz设置环境变量:xuqiang@ubuntu:~/hadoop/src/hive$cdhive-0.7.0-b
系统 2019-08-12 01:33:29 2173
在linux的终端运行:$HIVE_HOME/bin/hive会进入交互模式;$HIVE_HOME/bin/hive-e或者-f是非交互模式1、非交互模式运行HQL语句$HIVE_HOME/bin/hive-e'select*frommovielimit10'会显示mapreduce的进度,但不会进入hive的交互模式,终于现实查询结果2、非交互模式运行HQL语句(-S静音模式)$HIVE_HOME/bin/hive-S-e'select*frommovi
系统 2019-08-12 01:33:12 2170
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10andB.userid<10andA.
系统 2019-08-12 09:26:44 2156
一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b
系统 2019-08-12 09:27:24 2125
参考:http://blog.csdn.net/qiaochao911/article/details/8613988http://xm-king.iteye.com/blog/1088422HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是,如果我们需要取特定分区的数据,只需要
系统 2019-08-12 01:55:14 2093
(1)建student&student1表:(hive托管)createtablestudent(idINT,ageINT,nameSTRING)partitionedby(stat_dateSTRING)clusteredby(id)sortedby(age)into4bucketsrowformatdelimitedfieldsterminatedby',';createtablestudentrc(idINT,ageINT,nameSTRING)pa
系统 2019-08-12 09:27:07 2023
6.1SELECT...FROM语句hive>SELECTname,salaryFROMemployees;--普通查询hive>SELECTe.name,e.salaryFROMemployeese;--也支持别名查询当用户选择的列是集合数据类型时,Hive会使用JSON语法应用于输出:hive>SELECTname,subordinatesFROMemployees;显示JohnDoe["MarySmith","ToddJones"]数组类型的显示hi
系统 2019-08-12 09:27:05 1964