hadoop

基于mdrill的大数据分析 2015-11-03

数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵.几十亿.几百亿.甚至几千亿的数据量,如何才能高效的分析? mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤. mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据. 在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入.目前集群的总存储3200多亿80~400

Hadoop入库mysql 2015-11-02

后面hadoop如何处理数据等有时间再写,今天先将Hadoop入库的步骤更新如下: 1.dfs放入文件sourcefile到的destfile中 destfile目录需要与脚本中指定的目录一致,不然找不到文件. 2.运行相关shell命令中,该脚本中涉及到hadoop中数据的处理,处理后的数据会上传到mysql,略过不提. 3.查看数据库 具体操作参考mysql指令和sql命令.

HADOOP(2.4)+HBASE(0.98.1)高可用集群详细部署 2015-10-29

一.主机分布 节点功能 主机 ZK JN zkfc NN DN RM NM HM HR kdc Test1 * * * * * * * * * Test2 * * * * * * * * * Test3 * * * * * Host 所有节点: 127.0.0.1 localhost 192.168.3.11 test1 192.168.3.12 test2 192.168.3.13 test3 创建ssh信任关系 主节点要信任自己和其它节点,即ssh连接不用密码. 主机test1: # ssh

hadoop和hbase的安全认证Kerberos部署 2015-10-29

(接上一篇) 五.Kerberos 1.jsvc 所有节点: # cd ~/soft # wget http://mirror.bit.edu.cn/apache/commons/daemon/source/commons-daemon-1.0.15-native-src.tar.gz # tar zxfcommons-daemon-1.0.15-native-src.tar.gz # cd commons-daemon-1.0.15-native-src/unix;./configure; m

hadoop1.2.0集群安装与配置 2015-10-27

http://bbs.itcast.cn/thread-1-1.html .硬件环境1.windows7旗舰版64位 2.VMwareWorkstationACE版6.0.2 3.RedhatLinux5 4.Hadoop-1.2.0 Windows VM [url=]虚拟机器Linux[/url] IP 作用 Window7 64位 VMwareWorkstation Redhat1 192.168.24.250 NameNode.master.jobTracker Redhat2

Hadoop源代码分析(IFile) 2015-10-27

Mapper的输出,在发送到Reducer前是存放在本地文件系统的,IFile提供了对Mapper输出的管理.我们已经知道,Mapper的输出是<Key,Value>对,IFile以记录<key-len, value-len, key,value>的形式存放了这些数据.为了保存键值对的边界,很自然IFile需要保存key-len和value-len. 和IFile相关的类图如下: 其中,文件流形式的输入和输出是由IFIleInputStream和IFIleOutputStream抽

pig用户自定义函数(UDF) 2015-10-27

用户自定义函数(UDF) public abstract class EvalFunc<T> { public abstract T exec(Tuple input) throws IOException; public List<FuncSpec> getAvgToFuncMapping() throws FrontendException; public FuncSpec outputSchema() throws FrontendException; } 输入元组的字段包含

hadoop 追查key在哪个part 2015-10-27

简单的perl脚本实现,利用hadoop的命令参数 keyfieldbasePartitioner,如下: #!usr/bin/perl $q="q:allszy"; $str="KeyFieldBasedPartitioner \"$q\" 10000"; system("$str"); exit(0);

Hadoop读书笔记2 Hadoop I/O 2015-10-26

Chapter 4 Hadoop I/O 1) Integrity HDFS transparently checksums all data written to it and by default verifies checksums when reading data.The default is 512 bytes, and because a CRC-32 checksum is 4 bytes long, the storage overhead is less than 1%. D

一个适合MapReduce处理的gz压缩方式 2015-10-26

最近在筹备hadoop,测试集群只有普通的6个虚拟机,每个1G内存,100G硬盘.所以在yarn进行资源调度的时候比较纠结,硬盘空间也有限.在执行作业的时候就希望能够尽量对输入数据进行压缩. hadoop可以直接处理gz格式的压缩文件,但不会产生split,而是不论多大都直接交给一个Mapper去做,因为gz在算法上不支持split.虽然bzip2支持split,但压缩速度又比较慢,gz可以说是最常用的压缩方式了. 一开始想当然的尝试压缩分卷,结果当然是失败,因为不管分多少个卷,gz还是要以一个

HDFS Scribe Integration 2015-10-25

It is finally here: you can configure the open source log-aggregator, scribe, to log data directly into the Hadoop distributed file system. Many Web 2.0 companies have to deploy a bunch of costly filers to capture weblogs being generated by their app

Summer School实验二 2015-10-25

hive登陆 创建表 CREATE TABLE u_data( userid INT, movieid INT, rating INT, unixtime STRING) ROW FORMATDELIMITED FIELDS TERMINATEDBY '\t' STORED AS TEXTFILE; ROW FORMAT DELIMITED表示不限制每行的具体格式 FIELDS TERMINATED BY '\t'表示以制表符来分割字段 STOED AS TEXTFILE是使用文本文件的格式来存

Hadoop2.4.0 Eclipse插件制作及问题记录 2015-10-24

问题导读: 1.build.xml文件的作用是什么? 2.hadoop2.4用的commons-lang-2.6.jar,在build.xml中该如何修改? 3.插件包的制作需要经过几个步骤? 参考hadoop2x-eclipse-plugin 说说我的整个制作过程吧: 想导入到eclipse中制作,但是导入进去之后觉得麻烦就算了,直接在win7 64位.JDK1.6.ANT1.8的环境下以命令行运行 依葫芦画瓢,设置eclipse的目录和hadoop的目录,在没有修改任何文件的情况下直接运行

Cloudera部署Hadoop规划与安装 2015-10-24

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架.MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的海量数据处理,目前最成功的应用是分布式搜索引擎.随着2007年底该模式Java开源实现项目Apache Hadoop的出现,使得程序员可以轻松地编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算.近两年尤其是今年国内外采用MapReduce模型的应用也逐渐丰富起来,如像NTT KDDI和中国移动这类的

HDFS balancer实践 2015-10-24

HDFS balancer 在hadoop的hdfs集群中新添加节点后,在新节点上运行./start-balancer.sh. 运行的日志信息如下,重复判断.迁移,速度相当慢. 为了降低集群负荷.避免干扰其他用户,均衡器被设计为在后台运行.在不同节点之间复制数据的带宽也是受限的,默认值是1MB/s. 2 over-utilized: [Source[192.168.70.0010, utilization=61.784966362172845], Source[192.168.70.92

Storm高级原语(二) DRPC详解 2015-10-24

Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU密集型(CPU intensive)的计算任务.DRPC的stormtopology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流. DRPC其实不能算是storm本身的一个特性, 它是通过组合storm的原语stream.spout.bolt. topology而成的一种模式(pattern).本来应该把DRPC单独打成一个包的, 但是DRPC实在是太有用了,所以我们我们把它和storm捆绑

配置secondarynamenode 2015-10-24

secondarynamenoded 配置很容易被忽视,如果jps检查都正常,大家通常不会太关心,除非namenode发生问题的时候,才会想起还有个secondary namenode,它的配置共两步: 集群配置文件conf/master中添加secondarynamenode的机器 修改/添加 hdfs-site.xml中如下属性: [html] view plaincopy 1. <property> 2. <name>dfs.http.address</name>

hadoop windows setup 2015-10-23

准备步骤: 1.eclipse安装程序(我的是3.7). 2.eclipse和hadoop的插件安装包:hadoop-0.20.3-dev-eclipse-plugin.jar. 3.hadoop 的安装包我用的是:hadoop-0.20.2 版本. 4.cygwin 虚拟linux环境.http://www.cygwin.com/setup.exe eclipse下配置hadoop步骤: 1.将 hadoop-0.20.3-dev-eclipse-plugin.jar放到到 eclipse安装

hadoop linux setup 2015-10-23

大家可以在官网上下载到最近的版本,网址为http://apache.etoak.com/hadoop/core/. Hadoop最早是为了在Linux平台上使用而开发的,但是Hadoop在UNIX.Windows和Mac OS X系统上也运行良好.不过,在Windows上运行Hadoop稍显复杂,首先必须安装Cygwin以模拟Linux环境,然后才能安装Hadoop. 在Unix上安装Hadoop的过程与在Linux上安装基本相同,因此下面不会对其进行详细介绍. 在Linux上安装与配置Hado
一周排行
  •      打开控制面版管理工具本地安全策略IP安全策略,在本地机器安全服务器(要求安全设置)所有IP通讯 要求安全设置所有IP通讯 除了广播--在筛选器下面双击(是)在目标地址里选(一个特定的IP地址)-填上要封的I ...
  • 本文分析基于Linux Kernel 1.2.13 原创作品,转载请标明http://blog.csdn.net/yming0221/article/details/7549340 更多请查看专栏,地址http:// ...
  • 本文由CSDN用户zuishikonghuan所作,转载请注明出处:http://blog.csdn.net/zuishikonghuan/article/details/46649211 前两篇中介绍了Stat ...
  • yield()暂时交出 cpu 控制权,从 running 状态转为 runnalbe 状态,但是仍有 可能被调度, sleep()线程指定休眠一段时间, wait()在其他线程调用此对 象的 notify()或 n ...
  • javascript 确实很强大, toString(), 不但能转换成字符串,而且还能按制定的进制转换: 如: Math.random().toString(2) Math.random().toString() ...
  • 易网科技讯 1月6日消息,据国外媒体报道,科技研究公司comScore最新调查显示,使用基于谷歌Android系统手机的美国人数量超过了使用苹果公司iPhone的人. comScore调查显示,在截至11月份的三个月 ...
  •     这本是馆系列里的最新一部,2006年出的,读完这本馆系列就真的全部看完了.     从是否吸引读者的角度看,还算挺不错的,基本上读到一半之后就爱不释手了.     风格上很合我胃口:幽深的宅邸,孤僻的爷孙俩, ...
  • 科技日报杭州5月7日电 (通讯员周炜 记者宦建新)浙江大学医学院附属第一医院传染病诊治国家重点实验室感染性疾病诊治协同创新中心和中国医学科学院基础研究所等科研人员最新研究发现:存在于血浆中的一种调节肽--血浆血管紧张 ...
  • 最近由于工作需要,使用java在调用cmd程序时,为了避免在路径当中有多个空格(例如:c:\\aa a\t t\m m),所以使用了 Runtime time = Runtime.getRuntime(); try{ ...
  • 易网科技讯 5月30日消息,据国外媒体报道,由于土卫二和木卫二拥有着丰富的水源,并有证据表明这两颗卫星的海洋海底能够提供生命所需的元素,而且土卫二海洋中存在很可能是生命起源地的热液喷口,因此它们成为科学家们寻觅生命存 ...