hadoop

基于mdrill的大数据分析 2015-11-03

数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵.几十亿.几百亿.甚至几千亿的数据量,如何才能高效的分析? mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤. mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据. 在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入.目前集群的总存储3200多亿80~400

Hadoop入库mysql 2015-11-02

后面hadoop如何处理数据等有时间再写,今天先将Hadoop入库的步骤更新如下: 1.dfs放入文件sourcefile到的destfile中 destfile目录需要与脚本中指定的目录一致,不然找不到文件. 2.运行相关shell命令中,该脚本中涉及到hadoop中数据的处理,处理后的数据会上传到mysql,略过不提. 3.查看数据库 具体操作参考mysql指令和sql命令.

HADOOP(2.4)+HBASE(0.98.1)高可用集群详细部署 2015-10-29

一.主机分布 节点功能 主机 ZK JN zkfc NN DN RM NM HM HR kdc Test1 * * * * * * * * * Test2 * * * * * * * * * Test3 * * * * * Host 所有节点: 127.0.0.1 localhost 192.168.3.11 test1 192.168.3.12 test2 192.168.3.13 test3 创建ssh信任关系 主节点要信任自己和其它节点,即ssh连接不用密码. 主机test1: # ssh

hadoop和hbase的安全认证Kerberos部署 2015-10-29

(接上一篇) 五.Kerberos 1.jsvc 所有节点: # cd ~/soft # wget http://mirror.bit.edu.cn/apache/commons/daemon/source/commons-daemon-1.0.15-native-src.tar.gz # tar zxfcommons-daemon-1.0.15-native-src.tar.gz # cd commons-daemon-1.0.15-native-src/unix;./configure; m

hadoop1.2.0集群安装与配置 2015-10-27

http://bbs.itcast.cn/thread-1-1.html .硬件环境1.windows7旗舰版64位 2.VMwareWorkstationACE版6.0.2 3.RedhatLinux5 4.Hadoop-1.2.0 Windows VM [url=]虚拟机器Linux[/url] IP 作用 Window7 64位 VMwareWorkstation Redhat1 192.168.24.250 NameNode.master.jobTracker Redhat2

Hadoop源代码分析(IFile) 2015-10-27

Mapper的输出,在发送到Reducer前是存放在本地文件系统的,IFile提供了对Mapper输出的管理.我们已经知道,Mapper的输出是<Key,Value>对,IFile以记录<key-len, value-len, key,value>的形式存放了这些数据.为了保存键值对的边界,很自然IFile需要保存key-len和value-len. 和IFile相关的类图如下: 其中,文件流形式的输入和输出是由IFIleInputStream和IFIleOutputStream抽

pig用户自定义函数(UDF) 2015-10-27

用户自定义函数(UDF) public abstract class EvalFunc<T> { public abstract T exec(Tuple input) throws IOException; public List<FuncSpec> getAvgToFuncMapping() throws FrontendException; public FuncSpec outputSchema() throws FrontendException; } 输入元组的字段包含

hadoop 追查key在哪个part 2015-10-27

简单的perl脚本实现,利用hadoop的命令参数 keyfieldbasePartitioner,如下: #!usr/bin/perl $q="q:allszy"; $str="KeyFieldBasedPartitioner \"$q\" 10000"; system("$str"); exit(0);

Hadoop读书笔记2 Hadoop I/O 2015-10-26

Chapter 4 Hadoop I/O 1) Integrity HDFS transparently checksums all data written to it and by default verifies checksums when reading data.The default is 512 bytes, and because a CRC-32 checksum is 4 bytes long, the storage overhead is less than 1%. D

一个适合MapReduce处理的gz压缩方式 2015-10-26

最近在筹备hadoop,测试集群只有普通的6个虚拟机,每个1G内存,100G硬盘.所以在yarn进行资源调度的时候比较纠结,硬盘空间也有限.在执行作业的时候就希望能够尽量对输入数据进行压缩. hadoop可以直接处理gz格式的压缩文件,但不会产生split,而是不论多大都直接交给一个Mapper去做,因为gz在算法上不支持split.虽然bzip2支持split,但压缩速度又比较慢,gz可以说是最常用的压缩方式了. 一开始想当然的尝试压缩分卷,结果当然是失败,因为不管分多少个卷,gz还是要以一个

HDFS Scribe Integration 2015-10-25

It is finally here: you can configure the open source log-aggregator, scribe, to log data directly into the Hadoop distributed file system. Many Web 2.0 companies have to deploy a bunch of costly filers to capture weblogs being generated by their app

Summer School实验二 2015-10-25

hive登陆 创建表 CREATE TABLE u_data( userid INT, movieid INT, rating INT, unixtime STRING) ROW FORMATDELIMITED FIELDS TERMINATEDBY '\t' STORED AS TEXTFILE; ROW FORMAT DELIMITED表示不限制每行的具体格式 FIELDS TERMINATED BY '\t'表示以制表符来分割字段 STOED AS TEXTFILE是使用文本文件的格式来存

Hadoop2.4.0 Eclipse插件制作及问题记录 2015-10-24

问题导读: 1.build.xml文件的作用是什么? 2.hadoop2.4用的commons-lang-2.6.jar,在build.xml中该如何修改? 3.插件包的制作需要经过几个步骤? 参考hadoop2x-eclipse-plugin 说说我的整个制作过程吧: 想导入到eclipse中制作,但是导入进去之后觉得麻烦就算了,直接在win7 64位.JDK1.6.ANT1.8的环境下以命令行运行 依葫芦画瓢,设置eclipse的目录和hadoop的目录,在没有修改任何文件的情况下直接运行

Cloudera部署Hadoop规划与安装 2015-10-24

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架.MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的海量数据处理,目前最成功的应用是分布式搜索引擎.随着2007年底该模式Java开源实现项目Apache Hadoop的出现,使得程序员可以轻松地编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算.近两年尤其是今年国内外采用MapReduce模型的应用也逐渐丰富起来,如像NTT KDDI和中国移动这类的

HDFS balancer实践 2015-10-24

HDFS balancer 在hadoop的hdfs集群中新添加节点后,在新节点上运行./start-balancer.sh. 运行的日志信息如下,重复判断.迁移,速度相当慢. 为了降低集群负荷.避免干扰其他用户,均衡器被设计为在后台运行.在不同节点之间复制数据的带宽也是受限的,默认值是1MB/s. 2 over-utilized: [Source[192.168.70.0010, utilization=61.784966362172845], Source[192.168.70.92

Storm高级原语(二) DRPC详解 2015-10-24

Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU密集型(CPU intensive)的计算任务.DRPC的stormtopology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流. DRPC其实不能算是storm本身的一个特性, 它是通过组合storm的原语stream.spout.bolt. topology而成的一种模式(pattern).本来应该把DRPC单独打成一个包的, 但是DRPC实在是太有用了,所以我们我们把它和storm捆绑

配置secondarynamenode 2015-10-24

secondarynamenoded 配置很容易被忽视,如果jps检查都正常,大家通常不会太关心,除非namenode发生问题的时候,才会想起还有个secondary namenode,它的配置共两步: 集群配置文件conf/master中添加secondarynamenode的机器 修改/添加 hdfs-site.xml中如下属性: [html] view plaincopy 1. <property> 2. <name>dfs.http.address</name>

hadoop windows setup 2015-10-23

准备步骤: 1.eclipse安装程序(我的是3.7). 2.eclipse和hadoop的插件安装包:hadoop-0.20.3-dev-eclipse-plugin.jar. 3.hadoop 的安装包我用的是:hadoop-0.20.2 版本. 4.cygwin 虚拟linux环境.http://www.cygwin.com/setup.exe eclipse下配置hadoop步骤: 1.将 hadoop-0.20.3-dev-eclipse-plugin.jar放到到 eclipse安装

hadoop linux setup 2015-10-23

大家可以在官网上下载到最近的版本,网址为http://apache.etoak.com/hadoop/core/. Hadoop最早是为了在Linux平台上使用而开发的,但是Hadoop在UNIX.Windows和Mac OS X系统上也运行良好.不过,在Windows上运行Hadoop稍显复杂,首先必须安装Cygwin以模拟Linux环境,然后才能安装Hadoop. 在Unix上安装Hadoop的过程与在Linux上安装基本相同,因此下面不会对其进行详细介绍. 在Linux上安装与配置Hado
一周排行
  •     随着高校信息化建设的逐步深入,各高校教务工作对信息系统依赖的程度越来越高.作为高校窗口的高校网站,所面向的用户群也越来越广泛,所承载的功能也越来越全面,不单是面向校内,同时面向社会也提供了诸多服务功能.高校网 ...
  • 解决方法: 1.打开控制面板. 2.进入程序模块. 3.进入程序和功能. 4.点击启用或关闭Windows功能. 5.把hyper-v选项取消. 6.点击确定. 这样就ok了.
  • java 虚拟机自动内存管理. java虚拟机在执行java程序的过程中会把它所管理的内存划分为若干个不同区域   1 程序计数器 每个线程都有一个独立的计数器,用来指示需要执行的字节码的位置.   2 虚拟机栈 虚 ...
  • 为了更加的熟悉字符串操作的函数,所以把相应的函数积累如下: (1)sprintf()函数:把格式化的数据写入某个字符串 sprintf函数现在用的最多的就是用来各种类型转换成字符串的应用. 头文件:stdio.h 函 ...
  • SQL Server 2000 JDBC driver使用:"com.microsoft.jdbc.sqlserver.SQLServerDriver" SQL Server 2005 and 2 ...
  • iPhone的Dock栏只能放4个图标,在iPhone即使用上MultiDock这类插件也最多只能多放一.二个图标,不然挤得有密集恐惧症的人想把手机扔了,但如果常用应用太多都想塞到Dock栏怎么办? 开发Zephyr ...
  •     在网上搜罗了一些好玩的404页面,有的页面非常有创意,没准哪款就适合你,为你的网站添加一些亮色,或许哪一个会为你带来创意,设计出有个性的404页面. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10 ...
  • 易网科技讯 4月14日消息 近日,吴奇隆和蓝港互动CEO王峰共同宣布,双方将组建合资公司,双方将合作研发<蜀山战纪>同名手游.尽管并未披露双方投资比例,但王峰披露,该公司将是蓝港互动旗下子公司之一,吴奇隆 ...
  • 一.(:: operator)解决局部变量与全局变量重名问题 1 int var = 10; 2 int main() 3 { 4 int var = 8; 5 cout<<var<<endl ...
  • IPSEC简介: Ipsec 规定了一系列的协议标准,IPSEC协议不是一个单独的协议,它给出了应用于ip网络数据安全的一整套体系结构,在对等层选择包括网络认证协议Authentication Header(AH). ...