拥有Hadoop标签的文章
Hadoop

安装hadoop

张军博客
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

张军 2019-08-10 19:54:59 1308

Hadoop

Hadoop视频教程

张军博客
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

张军 2019-08-20 20:29:55 596

Hadoop

hadoop mapred-queue-acls 配置

张军博客
hadoop作业提交时可以指定相应的队列,例如:-Dmapred.job.queue.name=queue2通过对mapred-queue-acls.xml和mapred-site.xml配置可以对不同的队列实现不同用户的提交权限.先编辑mapred-site.xml,修改配置如下(增加四个队列):mapred.queue.namesdefault,queue1,queue2,queue3,que

系统 2019-08-29 21:58:40 619

Hadoop

hadoop datanode 启动正常,但master无法识别(

张军博客
start-all.sh启动坑爹找不出错试了各种办法,重新formaet查看集群ID是否相同。都无效日志也没看到错按官网方法手动一步步启,问题照旧master节点,yarnnamenode启动(打印详细日志)node节点yarndatanode启动看到错了15/07/0203:32:51INFOdatanode.DataNode:BlockpoolBP-89742471-127.0.1.1-1435821846469(DatanodeUuidnull)se

系统 2019-08-12 09:27:32 556

Hadoop

hadoop核心逻辑shuffle代码分析-map端

张军博客
一直对书和各种介绍不太满意,终于看到一篇比较好的了,迅速转载.首先要推荐一下:http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程,强烈推荐先读一下。不过,上文没有写明一些实现的细节,比如:spill的过程,mapper生成文件的partition是怎么做的等等,相信有很多人跟我一样在看了上面的文章后还是有很多疑问,我也是带着疑问花了很久的看

系统 2019-08-12 09:27:08 545

Hadoop

hadoop的1TB排序

张军博客
原文链接:http://www.javaeye.com/topic/7099861、1TB(或1分钟)排序的冠军作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个

系统 2019-08-12 09:30:30 536

Hadoop

搜索 hadoop

张军博客
最近几年中,web和企业已经见证了数据膨胀。这一现象有很多种原因,例如,便宜的terabyte量级的存储硬件的商品化,随着时间的推移已接近临界规模的企业数据,以及允许轻松进行信息供应和交换的标准。从企业的角度来说,日益增长的信息已经很难存储在标准关系型数据库甚至数据仓库中。这些问题提到了一些在实践中已存在多年的难题。例如:怎样查询一个十亿行的表?怎样跨越数据中心所有服务器上的所有日志来运行一个查询?更为复杂的问题是,大量需要处理的数据是非结构化或者半结构化

系统 2019-08-29 23:41:01 523

Hadoop

hadoop1.2.1控制namenode检查点发生的频率

张军博客
1、停止所有hadoop进程,修改core-site.xml文件,改为2分钟检查一次,增加如下内容2、复制文件到其他两个slave节点3、启动hadoop所有进程,进入fs.checkpoint.dir设置的目录下,可以看见current每隔两分钟检查更新一次4、停止所有hadoop服务,更改core-site.xml文件,改为1分钟检查一次,如下图5、复制到其他两个节点,然后重新启动hadoop所有进程,6、进入到fs.checkpoint.dir设置的

系统 2019-08-12 09:29:34 517

Hadoop

Installing Apache Hadoop Single Node

张军博客
platform:Ubuntu14.04LTShadoop1.2.11.installssh:$sudoapt-getinstallopenssh-server$sudoapt-getinstallopenssh-client2.sshnopasswordaccess:$sshwubin(yourcomputer)$ssh-keygen$sshlocalhost$cat~/.ssh/id_rsa.put>>~/.ssh/authorized_keys(se

系统 2019-08-12 09:26:52 504

Hadoop

分布式计算开源框架Hadoop入门实践(一)

张军博客
──分布式计算开源框架Hadoop入门实践(一)在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《TigerConcurrentPractice--日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的工作,还是需要有所准备。现在最火的技术词汇莫过于“云计算”,

系统 2019-08-29 22:08:16 503

Hadoop

hadoop 任务失败重复次数的处理方法

张军博客
hadoop任务分为maptask和reducetask,当maptask执行失败后会重试,超过重试次数(mapred.map.max.attempts指定,默认为4),整个job会失败,这是我们不想看到的。解决办法:hadoop提供配置参数“mapred.max.map.failures.percent”解决这个问题。如果一个Job有200个maptask,该参数设置为5的话,则单个job最多允许10个maptask(200x5%=10)失败,这是我想要

系统 2019-08-29 22:58:44 499

Hadoop

Hadoop分布式文件系统:架构和设计要点

张军博客
Hadoop分布式文件系统:架构和设计要点原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关

系统 2019-08-12 09:30:05 497

Hadoop

hadoop 2.2.0的datanode中存储block的多个文件

张军博客
hadoop的分布式文件系统HDFS的存储方式是,将数据分成block,分布式存储在整个hadoop集群的datanode中,每个block默认的大小是64M,这些block文件的具体存储位置是在hadoop的配置文件中定义的,进入/home/hadoop2/hadoop2/etc/hadoop的配置文件目录(hadoop版本为社区版2.2.0):vi/home/hadoop2/hadoop2/etc/hadoop/hdfs-site.xml

系统 2019-08-12 09:27:27 497

Hadoop

用 Hadoop 进行分布式并行编程, 第 2 部分

张军博客
前言在上一篇文章:“用Hadoop进行分布式并行编程第一部分基本概念与安装部署”中,介绍了MapReduce计算模型,分布式文件系统HDFS,分布式并行计算等的基本原理,并且详细介绍了如何安装Hadoop,如何运行基于Hadoop的并行程序。在本文中,将针对一个具体的计算任务,介绍如何基于Hadoop编写并行程序,如何使用IBM开发的HadoopEclipseplugin在Eclipse环境中编译并运行程序。回页首分析WordCount程序我们先来看看Ha

系统 2019-08-12 09:29:58 485

Hadoop

用 Hadoop 进行分布式并行编程, 第 1 部分

张军博客
Hadoop简介Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统HDFS(HadoopDistributedFileSystem)。也许到目前为止,Hadoop还不是那么广为人知,其最新的版本号也仅仅是0.16,距离1.0似乎都还有很长的一段距离,但提及Hadoop一脉相承的另外两个开源项目Nutch和Lucene(三者的创始人都是DougCutting),

系统 2019-08-12 09:29:58 482