- 军军小站|张军博客

个人简介

java-web项目加密运行（支持window/linux）

网址导航

JAVA项目加密(Windows/Linux/Mac/龙芯系统)

视频讲解-Java调用DLL

hive UDAF开发入门和运行过程详解

介绍hive的用户自定义聚合函数（UDAF）是一个很好的功能，集成了先进的数据处理。hive有两种UDAF：简单和通用。顾名思义，简单的UDAF，写的相当简单的，但因为使用Java反射导致性能损失，而且有些特性不能使用，如可变长度参数列表。通用UDAF可以使用所有功能，但是UDAF就写的比较复杂，不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和groupby联合使用，hive的groupby对于每个分组，只能返回一条记录，这点和m

系统 2019-08-12 01:32:14 3340

Hive

hive 0.11的安装配置

一、上传hive0.11解压后的文件到linux1、用的版本是shark站点提供的，可能是针对shark修改了代码。2、追加mysql、oracle两个jdbc驱动包到lib目录下。二、配置相关文件1、.bash_profile文件exportHIVE_HOME=/home/kituser/bigdata/hive-0.11.0-binexportHIVE_CONF_DIR=$HIVE_HOME/confexportCLASSPATH=$CLASSPATH

系统 2019-08-12 09:27:02 3332

Hive

Hive Metastore ObjectStore PersistenceManage

最近在测试HCatalog，由于Hcatalog本身就是一个独立JAR包，虽然它也可以运行service，但是其实这个service就是metastorethriftserver，我们在写基于Hcatalog的mapreducejob时候只要把hcatalogJAR包和对应的hive-site.xml文件加入libjars和HADOOP_CLASSPATH中就可以了。不过在测试的时候还是遇到了一些问题，hivemetastoreserver在运行了一段时间

系统 2019-08-12 01:52:10 3332

Hive

hive并发调用的运行方式-个人经验篇 - ggjuchen

hive并发调用的运行方式-个人经验篇-ggjucheng-博客园前言使用hive，我们很多情况下会并发调用hive程序，将sql任务转换成mapreuce提交到hadoop集群中，而在本人使用hive的过程中，发现并发调用hive有几个问题,在这个和大家分享下.正文默认安装hive，hive是使用derby内存数据库保存hive的元数据，这样是不可以并发调用hive的，需要配置为使用mysql保存hive的元数据。运行hive，可以有以下访问方式:1.h

系统 2019-08-12 01:32:57 3328

Hive

HIVE：用外连接替代子查询

由于hive也支持sql，很多人会把hql跟标准sql进行比较，甚至有的时候会直接套用。hive不支持事务也不支持索引，更不支持追加写，但是对于一般的sql都是能够支持的。但是对于一些子查询确实无法支持的，例如select*fromt_ext_1_bkdoubledeletewheref1=(selectmax(f1)fromt_ext_1_bkdoubledelete)这个sql在mysql中是能够支持的，意思是找到val最大的那一行记录，然后在hive

系统 2019-08-12 09:27:38 3279

Hive

hive 操作

1、命令行操作（1）打印查询头，需要显示设置：sethive.cli.print.header=true;（2）加"--"，其后的都被认为是注释，但CLI不解析注释。带有注释的文件只能通过这种方式执行：hive-fscript_name（3）-e后跟带引号的hive指令或者查询，-S去掉多余的输出：hive-S-e"select*FROMmytableLIMIT3">/tmp/myquery（4）遍历所有分区的查询将产生一个巨大的MapReduce作业，如

系统 2019-08-12 09:26:57 3279

Hive

Hive安装及使用攻略

前言Hive是Hadoop一个程序接口，Hive让数据分析人员快速上手，Hive使用了类SQL的语法，Hive让JAVA的世界变得简单而轻巧，Hive让Hadoop普及到了程序员以外的人。从Hive开始，让分析师们也能玩转大数据。1.Hive介绍Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语

系统 2019-08-29 22:25:21 3275

Hive

hive实战

1.安装hive2.hive实战3.hive存储模型4.深入hql查询语言5.参考资料及代码下载<1>.安装hive下载hive，下载地址http://mirror.bjtu.edu.cn/apache//hive/，解压该文件：xuqiang@ubuntu:~/hadoop/src/hive$tarzxvfhive-0.7.0-bin.tar.gz设置环境变量：xuqiang@ubuntu:~/hadoop/src/hive$cdhive-0.7.0-b

系统 2019-08-12 01:33:29 3259

Hive

搜索研发部官方博客 » Blog Archive » 相似度计

搜索研发部官方博客»BlogArchive»相似度计算常用方法综述相似度计算常用方法综述(2012-7-0509:07:59)标签：主题相似度,向量空间模型,相似度计算分类：数据挖掘引言相似度计算用于衡量对象之间的相似程度，在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分，对象的特征表示，特征集合之间的相似关系。在信息检索、网页判重、推荐系统等，都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景，受限于数据规模、

系统 2019-08-12 01:32:55 3248

Hive

hive的非交互模式

在linux的终端运行：$HIVE_HOME/bin/hive会进入交互模式；$HIVE_HOME/bin/hive-e或者-f是非交互模式1、非交互模式运行HQL语句$HIVE_HOME/bin/hive-e'select*frommovielimit10'会显示mapreduce的进度，但不会进入hive的交互模式，终于现实查询结果2、非交互模式运行HQL语句（-S静音模式）$HIVE_HOME/bin/hive-S-e'select*frommovi

系统 2019-08-12 01:33:12 3204

Hive

hive 优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10andB.userid<10andA.

系统 2019-08-12 09:26:44 3199

Hive

hive优化之------控制hive任务中的map数和reduc

一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2.举例：a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b

系统 2019-08-12 09:27:24 3149

Hive

Hive之Partition的使用

参考：http://blog.csdn.net/qiaochao911/article/details/8613988http://xm-king.iteye.com/blog/1088422HIVE分区，实际上是通过一个路径来标识的，而不是在物理数据中。比如每天的数据，可能分区是pt=20121023这样，那么路径中它就会变成：/hdfs/path/pt=20121023/data_files。通过路径来标识的好处是，如果我们需要取特定分区的数据，只需要

系统 2019-08-12 01:55:14 3067

Hive

hive中使用rcfile

（1）建student&student1表：（hive托管）createtablestudent(idINT,ageINT,nameSTRING)partitionedby(stat_dateSTRING)clusteredby(id)sortedby(age)into4bucketsrowformatdelimitedfieldsterminatedby',';createtablestudentrc(idINT,ageINT,nameSTRING)pa

系统 2019-08-12 09:27:07 3007

Hive

Hive[6] HiveQL 查询

6.1SELECT...FROM语句hive>SELECTname,salaryFROMemployees;--普通查询hive>SELECTe.name,e.salaryFROMemployeese;--也支持别名查询当用户选择的列是集合数据类型时，Hive会使用JSON语法应用于输出：hive>SELECTname,subordinatesFROMemployees;显示JohnDoe["MarySmith","ToddJones"]数组类型的显示hi

系统 2019-08-12 09:27:05 2883

首页
上一页
1
2
3
共 3页,共45条

热门排行