hadoop

基于mdrill的大数据分析 2015-11-03

数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵.几十亿.几百亿.甚至几千亿的数据量,如何才能高效的分析? mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤. mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据. 在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入.目前集群的总存储3200多亿80~400

Hadoop入库mysql 2015-11-02

后面hadoop如何处理数据等有时间再写,今天先将Hadoop入库的步骤更新如下: 1.dfs放入文件sourcefile到的destfile中 destfile目录需要与脚本中指定的目录一致,不然找不到文件. 2.运行相关shell命令中,该脚本中涉及到hadoop中数据的处理,处理后的数据会上传到mysql,略过不提. 3.查看数据库 具体操作参考mysql指令和sql命令.

HADOOP(2.4)+HBASE(0.98.1)高可用集群详细部署 2015-10-29

一.主机分布 节点功能 主机 ZK JN zkfc NN DN RM NM HM HR kdc Test1 * * * * * * * * * Test2 * * * * * * * * * Test3 * * * * * Host 所有节点: 127.0.0.1 localhost 192.168.3.11 test1 192.168.3.12 test2 192.168.3.13 test3 创建ssh信任关系 主节点要信任自己和其它节点,即ssh连接不用密码. 主机test1: # ssh

hadoop和hbase的安全认证Kerberos部署 2015-10-29

(接上一篇) 五.Kerberos 1.jsvc 所有节点: # cd ~/soft # wget http://mirror.bit.edu.cn/apache/commons/daemon/source/commons-daemon-1.0.15-native-src.tar.gz # tar zxfcommons-daemon-1.0.15-native-src.tar.gz # cd commons-daemon-1.0.15-native-src/unix;./configure; m

hadoop1.2.0集群安装与配置 2015-10-27

http://bbs.itcast.cn/thread-1-1.html .硬件环境1.windows7旗舰版64位 2.VMwareWorkstationACE版6.0.2 3.RedhatLinux5 4.Hadoop-1.2.0 Windows VM [url=]虚拟机器Linux[/url] IP 作用 Window7 64位 VMwareWorkstation Redhat1 192.168.24.250 NameNode.master.jobTracker Redhat2

Hadoop源代码分析(IFile) 2015-10-27

Mapper的输出,在发送到Reducer前是存放在本地文件系统的,IFile提供了对Mapper输出的管理.我们已经知道,Mapper的输出是<Key,Value>对,IFile以记录<key-len, value-len, key,value>的形式存放了这些数据.为了保存键值对的边界,很自然IFile需要保存key-len和value-len. 和IFile相关的类图如下: 其中,文件流形式的输入和输出是由IFIleInputStream和IFIleOutputStream抽

pig用户自定义函数(UDF) 2015-10-27

用户自定义函数(UDF) public abstract class EvalFunc<T> { public abstract T exec(Tuple input) throws IOException; public List<FuncSpec> getAvgToFuncMapping() throws FrontendException; public FuncSpec outputSchema() throws FrontendException; } 输入元组的字段包含

hadoop 追查key在哪个part 2015-10-27

简单的perl脚本实现,利用hadoop的命令参数 keyfieldbasePartitioner,如下: #!usr/bin/perl $q="q:allszy"; $str="KeyFieldBasedPartitioner \"$q\" 10000"; system("$str"); exit(0);

Hadoop读书笔记2 Hadoop I/O 2015-10-26

Chapter 4 Hadoop I/O 1) Integrity HDFS transparently checksums all data written to it and by default verifies checksums when reading data.The default is 512 bytes, and because a CRC-32 checksum is 4 bytes long, the storage overhead is less than 1%. D

一个适合MapReduce处理的gz压缩方式 2015-10-26

最近在筹备hadoop,测试集群只有普通的6个虚拟机,每个1G内存,100G硬盘.所以在yarn进行资源调度的时候比较纠结,硬盘空间也有限.在执行作业的时候就希望能够尽量对输入数据进行压缩. hadoop可以直接处理gz格式的压缩文件,但不会产生split,而是不论多大都直接交给一个Mapper去做,因为gz在算法上不支持split.虽然bzip2支持split,但压缩速度又比较慢,gz可以说是最常用的压缩方式了. 一开始想当然的尝试压缩分卷,结果当然是失败,因为不管分多少个卷,gz还是要以一个

HDFS Scribe Integration 2015-10-25

It is finally here: you can configure the open source log-aggregator, scribe, to log data directly into the Hadoop distributed file system. Many Web 2.0 companies have to deploy a bunch of costly filers to capture weblogs being generated by their app

Summer School实验二 2015-10-25

hive登陆 创建表 CREATE TABLE u_data( userid INT, movieid INT, rating INT, unixtime STRING) ROW FORMATDELIMITED FIELDS TERMINATEDBY '\t' STORED AS TEXTFILE; ROW FORMAT DELIMITED表示不限制每行的具体格式 FIELDS TERMINATED BY '\t'表示以制表符来分割字段 STOED AS TEXTFILE是使用文本文件的格式来存

Hadoop2.4.0 Eclipse插件制作及问题记录 2015-10-24

问题导读: 1.build.xml文件的作用是什么? 2.hadoop2.4用的commons-lang-2.6.jar,在build.xml中该如何修改? 3.插件包的制作需要经过几个步骤? 参考hadoop2x-eclipse-plugin 说说我的整个制作过程吧: 想导入到eclipse中制作,但是导入进去之后觉得麻烦就算了,直接在win7 64位.JDK1.6.ANT1.8的环境下以命令行运行 依葫芦画瓢,设置eclipse的目录和hadoop的目录,在没有修改任何文件的情况下直接运行

Cloudera部署Hadoop规划与安装 2015-10-24

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架.MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的海量数据处理,目前最成功的应用是分布式搜索引擎.随着2007年底该模式Java开源实现项目Apache Hadoop的出现,使得程序员可以轻松地编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算.近两年尤其是今年国内外采用MapReduce模型的应用也逐渐丰富起来,如像NTT KDDI和中国移动这类的

HDFS balancer实践 2015-10-24

HDFS balancer 在hadoop的hdfs集群中新添加节点后,在新节点上运行./start-balancer.sh. 运行的日志信息如下,重复判断.迁移,速度相当慢. 为了降低集群负荷.避免干扰其他用户,均衡器被设计为在后台运行.在不同节点之间复制数据的带宽也是受限的,默认值是1MB/s. 2 over-utilized: [Source[192.168.70.0010, utilization=61.784966362172845], Source[192.168.70.92

Storm高级原语(二) DRPC详解 2015-10-24

Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU密集型(CPU intensive)的计算任务.DRPC的stormtopology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流. DRPC其实不能算是storm本身的一个特性, 它是通过组合storm的原语stream.spout.bolt. topology而成的一种模式(pattern).本来应该把DRPC单独打成一个包的, 但是DRPC实在是太有用了,所以我们我们把它和storm捆绑

配置secondarynamenode 2015-10-24

secondarynamenoded 配置很容易被忽视,如果jps检查都正常,大家通常不会太关心,除非namenode发生问题的时候,才会想起还有个secondary namenode,它的配置共两步: 集群配置文件conf/master中添加secondarynamenode的机器 修改/添加 hdfs-site.xml中如下属性: [html] view plaincopy 1. <property> 2. <name>dfs.http.address</name>

hadoop windows setup 2015-10-23

准备步骤: 1.eclipse安装程序(我的是3.7). 2.eclipse和hadoop的插件安装包:hadoop-0.20.3-dev-eclipse-plugin.jar. 3.hadoop 的安装包我用的是:hadoop-0.20.2 版本. 4.cygwin 虚拟linux环境.http://www.cygwin.com/setup.exe eclipse下配置hadoop步骤: 1.将 hadoop-0.20.3-dev-eclipse-plugin.jar放到到 eclipse安装

hadoop linux setup 2015-10-23

大家可以在官网上下载到最近的版本,网址为http://apache.etoak.com/hadoop/core/. Hadoop最早是为了在Linux平台上使用而开发的,但是Hadoop在UNIX.Windows和Mac OS X系统上也运行良好.不过,在Windows上运行Hadoop稍显复杂,首先必须安装Cygwin以模拟Linux环境,然后才能安装Hadoop. 在Unix上安装Hadoop的过程与在Linux上安装基本相同,因此下面不会对其进行详细介绍. 在Linux上安装与配置Hado
一周排行
  • Model 与数据库,框架和开发方式无关   知识产权保护请从我做起,转载请注明出处. http://blog.csdn.net/struts2   代码示例请参看:http://code.google.com/p/ ...
  • 近日,来自铁道部运输局的一则公告明确表示,12306网站是直接销售中国铁路火车票的唯一专业网站,强调没有授权或委托任何其他网站开展火车票发售及代购业务.据<中国经营报>记者从多家火车票代售点了解,铁道部近 ...
  • 以前总是看别人写的笔经面经,今天自己终于可以写自己亲身经历的一篇了 T-T. 前阵子去了唯品会的秋招宣讲会,华工场(现在才知道原来找家互联网公司工作的人好多),副总裁介绍了VIP的商业模式是逛街式的购物,与京东和淘宝 ...
  • 环境: CentOS release 6.5 (Final)64位 python是系统自带的Python 2.6.6 Django版本:Django1.6 step1:下载Django1.6,使用命令:wget -c ...
  • 随着3G应用逐渐普及,三大运营商与SP厂商竞相介入无线阅读市场,基于无线互联网应用的手机阅读呈现出百家争鸣的局面.而工信部的大力支持也让该市场进一步繁荣起来.随着3G应用逐渐普及,三大运营商与SP厂商竞相介入无线阅读 ...
  • 昨天刚刚学了点git基础操作,[email protected] https 进行操作.可是在用 https 进行 push 时,都需要输入帐号和密码. [email protected]& ...
  •   飘云QQ的主要作者RunJin和疯狂绅士今日双双宣布退出飘云显IP QQ开发,以下是飘云发给cnBeta的声明全文,文章很长:又是一个金色的秋天,遍地金黄,繁华似锦,高楼矗立,煤海流金,大海扬波,长城起舞.秋天, ...
  • 感谢大家一直以来的支持! 各大商店均开始销售:京东:http://item.jd.com/11659696.html当当:http://product.dangdang.com/23659809.html<Co ...
  • 梦想世界成就,黎明的曙光,该怎样获取呢?以下的相关,对该成就的获取方式,进行了一番介绍和总结,请参阅该文 梦想世界黎明的曙光成就流程: 神武尊→溯天灵→魔影近卫队(防御)→刹魔影(防御)→月影雪爪→巡逻小队长(单杀, ...
  • 请问大家用过uc浏览器,他收藏一个网页是怎么操作的? 是不是这样,按菜单键——弹出添加网页,收藏网页等等的菜单操作,这个菜单操作很人性化了,并且在前面的篇幅已经说过了,这里不做太多的赘述了. 我这里只说一说添加书签这 ...