hadoop

基于mdrill的大数据分析 2015-11-03

数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵.几十亿.几百亿.甚至几千亿的数据量,如何才能高效的分析? mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤. mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据. 在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入.目前集群的总存储3200多亿80~400

Hadoop入库mysql 2015-11-02

后面hadoop如何处理数据等有时间再写,今天先将Hadoop入库的步骤更新如下: 1.dfs放入文件sourcefile到的destfile中 destfile目录需要与脚本中指定的目录一致,不然找不到文件. 2.运行相关shell命令中,该脚本中涉及到hadoop中数据的处理,处理后的数据会上传到mysql,略过不提. 3.查看数据库 具体操作参考mysql指令和sql命令.

HADOOP(2.4)+HBASE(0.98.1)高可用集群详细部署 2015-10-29

一.主机分布 节点功能 主机 ZK JN zkfc NN DN RM NM HM HR kdc Test1 * * * * * * * * * Test2 * * * * * * * * * Test3 * * * * * Host 所有节点: 127.0.0.1 localhost 192.168.3.11 test1 192.168.3.12 test2 192.168.3.13 test3 创建ssh信任关系 主节点要信任自己和其它节点,即ssh连接不用密码. 主机test1: # ssh

hadoop和hbase的安全认证Kerberos部署 2015-10-29

(接上一篇) 五.Kerberos 1.jsvc 所有节点: # cd ~/soft # wget http://mirror.bit.edu.cn/apache/commons/daemon/source/commons-daemon-1.0.15-native-src.tar.gz # tar zxfcommons-daemon-1.0.15-native-src.tar.gz # cd commons-daemon-1.0.15-native-src/unix;./configure; m

hadoop1.2.0集群安装与配置 2015-10-27

http://bbs.itcast.cn/thread-1-1.html .硬件环境1.windows7旗舰版64位 2.VMwareWorkstationACE版6.0.2 3.RedhatLinux5 4.Hadoop-1.2.0 Windows VM [url=]虚拟机器Linux[/url] IP 作用 Window7 64位 VMwareWorkstation Redhat1 192.168.24.250 NameNode.master.jobTracker Redhat2

Hadoop源代码分析(IFile) 2015-10-27

Mapper的输出,在发送到Reducer前是存放在本地文件系统的,IFile提供了对Mapper输出的管理.我们已经知道,Mapper的输出是<Key,Value>对,IFile以记录<key-len, value-len, key,value>的形式存放了这些数据.为了保存键值对的边界,很自然IFile需要保存key-len和value-len. 和IFile相关的类图如下: 其中,文件流形式的输入和输出是由IFIleInputStream和IFIleOutputStream抽

pig用户自定义函数(UDF) 2015-10-27

用户自定义函数(UDF) public abstract class EvalFunc<T> { public abstract T exec(Tuple input) throws IOException; public List<FuncSpec> getAvgToFuncMapping() throws FrontendException; public FuncSpec outputSchema() throws FrontendException; } 输入元组的字段包含

hadoop 追查key在哪个part 2015-10-27

简单的perl脚本实现,利用hadoop的命令参数 keyfieldbasePartitioner,如下: #!usr/bin/perl $q="q:allszy"; $str="KeyFieldBasedPartitioner \"$q\" 10000"; system("$str"); exit(0);

Hadoop读书笔记2 Hadoop I/O 2015-10-26

Chapter 4 Hadoop I/O 1) Integrity HDFS transparently checksums all data written to it and by default verifies checksums when reading data.The default is 512 bytes, and because a CRC-32 checksum is 4 bytes long, the storage overhead is less than 1%. D

一个适合MapReduce处理的gz压缩方式 2015-10-26

最近在筹备hadoop,测试集群只有普通的6个虚拟机,每个1G内存,100G硬盘.所以在yarn进行资源调度的时候比较纠结,硬盘空间也有限.在执行作业的时候就希望能够尽量对输入数据进行压缩. hadoop可以直接处理gz格式的压缩文件,但不会产生split,而是不论多大都直接交给一个Mapper去做,因为gz在算法上不支持split.虽然bzip2支持split,但压缩速度又比较慢,gz可以说是最常用的压缩方式了. 一开始想当然的尝试压缩分卷,结果当然是失败,因为不管分多少个卷,gz还是要以一个

HDFS Scribe Integration 2015-10-25

It is finally here: you can configure the open source log-aggregator, scribe, to log data directly into the Hadoop distributed file system. Many Web 2.0 companies have to deploy a bunch of costly filers to capture weblogs being generated by their app

Summer School实验二 2015-10-25

hive登陆 创建表 CREATE TABLE u_data( userid INT, movieid INT, rating INT, unixtime STRING) ROW FORMATDELIMITED FIELDS TERMINATEDBY '\t' STORED AS TEXTFILE; ROW FORMAT DELIMITED表示不限制每行的具体格式 FIELDS TERMINATED BY '\t'表示以制表符来分割字段 STOED AS TEXTFILE是使用文本文件的格式来存

Hadoop2.4.0 Eclipse插件制作及问题记录 2015-10-24

问题导读: 1.build.xml文件的作用是什么? 2.hadoop2.4用的commons-lang-2.6.jar,在build.xml中该如何修改? 3.插件包的制作需要经过几个步骤? 参考hadoop2x-eclipse-plugin 说说我的整个制作过程吧: 想导入到eclipse中制作,但是导入进去之后觉得麻烦就算了,直接在win7 64位.JDK1.6.ANT1.8的环境下以命令行运行 依葫芦画瓢,设置eclipse的目录和hadoop的目录,在没有修改任何文件的情况下直接运行

Cloudera部署Hadoop规划与安装 2015-10-24

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架.MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的海量数据处理,目前最成功的应用是分布式搜索引擎.随着2007年底该模式Java开源实现项目Apache Hadoop的出现,使得程序员可以轻松地编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算.近两年尤其是今年国内外采用MapReduce模型的应用也逐渐丰富起来,如像NTT KDDI和中国移动这类的

HDFS balancer实践 2015-10-24

HDFS balancer 在hadoop的hdfs集群中新添加节点后,在新节点上运行./start-balancer.sh. 运行的日志信息如下,重复判断.迁移,速度相当慢. 为了降低集群负荷.避免干扰其他用户,均衡器被设计为在后台运行.在不同节点之间复制数据的带宽也是受限的,默认值是1MB/s. 2 over-utilized: [Source[192.168.70.0010, utilization=61.784966362172845], Source[192.168.70.92

Storm高级原语(二) DRPC详解 2015-10-24

Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU密集型(CPU intensive)的计算任务.DRPC的stormtopology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流. DRPC其实不能算是storm本身的一个特性, 它是通过组合storm的原语stream.spout.bolt. topology而成的一种模式(pattern).本来应该把DRPC单独打成一个包的, 但是DRPC实在是太有用了,所以我们我们把它和storm捆绑

配置secondarynamenode 2015-10-24

secondarynamenoded 配置很容易被忽视,如果jps检查都正常,大家通常不会太关心,除非namenode发生问题的时候,才会想起还有个secondary namenode,它的配置共两步: 集群配置文件conf/master中添加secondarynamenode的机器 修改/添加 hdfs-site.xml中如下属性: [html] view plaincopy 1. <property> 2. <name>dfs.http.address</name>

hadoop windows setup 2015-10-23

准备步骤: 1.eclipse安装程序(我的是3.7). 2.eclipse和hadoop的插件安装包:hadoop-0.20.3-dev-eclipse-plugin.jar. 3.hadoop 的安装包我用的是:hadoop-0.20.2 版本. 4.cygwin 虚拟linux环境.http://www.cygwin.com/setup.exe eclipse下配置hadoop步骤: 1.将 hadoop-0.20.3-dev-eclipse-plugin.jar放到到 eclipse安装

hadoop linux setup 2015-10-23

大家可以在官网上下载到最近的版本,网址为http://apache.etoak.com/hadoop/core/. Hadoop最早是为了在Linux平台上使用而开发的,但是Hadoop在UNIX.Windows和Mac OS X系统上也运行良好.不过,在Windows上运行Hadoop稍显复杂,首先必须安装Cygwin以模拟Linux环境,然后才能安装Hadoop. 在Unix上安装Hadoop的过程与在Linux上安装基本相同,因此下面不会对其进行详细介绍. 在Linux上安装与配置Hado
一周排行
  • 虎嗅注:作为好莱坞为数不多地仍然坚持胶片拍摄的大导演之一,<蝙蝠侠>导演克里斯托弗·诺兰最近在<华尔街日报>专栏上撰文:<电影的未来仍然将会吸引观众回到影院>(Christophe ...
  • 易网科技讯 11月6日消息,据国外媒体报道,在某些较旧型号的手机中运行Android 5.0棒棒糖系统,可能会导致电池续航能力降低.使用Nexus 5测试就会发现,若运行Android 5.0,再开启Wi-Fi的话, ...
  • 16.Because of a logical corruption in your production database, you wanted to perform Tablespace Point in Ti ...
  • 拥有放下的心态,就能征服全世界! 永远不要在乎名和利,只需要将这些东西视作一种理想的工具就可以了,然后你就能够轻装上阵! 不在乎财富,你才能拥有财富! 不在乎已经拥有的东西,你才不会很快地把它们失去! 如果说,赚钱和 ...
  • 今天继续和大家分享涉及到listview的内容.在很多时候,我们会用到listview和checkbox配合来提供给用户一些选择操作.比如在一个清单页面,我们需要记录用户勾选了哪些条目.这个的实现并不太难,但是有很多 ...
  • /计算圆面积/#include<stdio.h> int main() { double r,s; printf("enter r:"); scanf("%lf", ...
  • 第6章 Shell Shell就是一个命令解释器,负责完成用户与内核之间的交互. 目前流行电Shell主要有:Bourne Shell( sh ).Bourne Again Shell( Bash ).C Shell ...
  • 易网科技讯 9月26日消息,爱立信今天正式推出了一款超小型的蜂窝基站,这款产品的尺寸小到可以用单手握住,却可以提供足够大的室内覆盖范围. 对于运营商而言,这款新产品的推出意义非凡.一般来说,建筑物内的环境都比较复杂, ...
  • 方法1: '利用dir()循环: ------------------------------------ Option Explicit Private Sub Command1_Click()Dim s As S ...
  • 原文链接   http://blog.csdn.net/totogo2010/article/details/7839061 代码块本质上是和其他变量类似.不同的是,代码块存储的数据是一个函数体.使用代码块是,你可以 ...