基于mdrill的大数据分析

数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?
mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80~400维度的数据。

mdrill的特性

1.满足大数据查询需求:adhoc每天的数据量为30亿条,随着日积月累,数据会越来越大,mdrill采用列存储,索引,分布式技术,适当的分区等满足用户对数据的实时在线分析的需求。
2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。
4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。

6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)

mdrill的定位

大数据

要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。

多维分析

要任意维度组合与过滤
还要对任意指标进行统计和排序

即席查询

要查询快,秒级响应。
还要数据快,数据分钟级延迟。

资源列表

其他

更多相关文章
  • 周末安全综述: 据瑞星"云安全"系统统计,上周末期间,共有1,538,800人次的网民遭到网页挂马攻击,瑞星共截获了103,441个挂马网址. 周末被挂马网站Top5: 1."湖南省招标投标监管网":www.bidding.hunan.gov.cn/item/ ...
  • after work for almost two years, I have realize the truth notes can help a lot for us.    avoiding my lazy life, I decide to sign something important ...
  • 12月4日下午,主管部门终于"兑现承诺",正式发放4G牌照.值得注意的是,三大运营商首批获得的都是基于TD-LTE技术的4G牌照,而另一通行的国际标准FDD-LTE的4G标准则不在首批发放之列.对于4G牌照的发放,中国移动表现得很热情,而中国电信和中国联通则表现得十分淡定.&qu ...
  • 简介 stackprof 是基于采样的一个调优工具,采样有什么好处呢?好处就是你可以线上使用,按照内置的算法抓取一部分数据,只影响一小部分性能.它会产生一系列的 dump 文件,然后你在线下分析这些文件,从而定位出问题,google 有一篇基于采样的论文,也基本证明了采样是可行的.而 stackpr ...
  • 数据库一般分为 关系型和对象型,关系型是主流,对象型数据库是直接把对象存入数据库. 常用关系型数据库: PC:Oracle MySQL SQL Server DB2 嵌入式/移动端:SQLite 本文主要介绍SQLite的基本情况与SQL基本语句. 1.SQLite实际无类型,但是表层划分数据为以下 ...
  • Language:   Memory Limit: 65536K Total Submissions: 7969   Accepted: 3061 题意:有N对钥匙,M扇门,每对钥匙要是用了其中一个另外一个就会马上消失,每扇门上有两把锁,只要打开其中一把锁门就打开了.开门顺序是输入的顺序,问最多能开 ...
一周排行
  • 近日,在高层客户会议中,戴尔正式宣布调整在中国的战略.这家1995年即进入中国的国际IT巨头,过去视中国为其重要市场,后来逐步实现主要制造能力向中国的转移.现在,戴尔表示将"更进一步本地化".中国 ...
  • 数据库无关性(DB Independ),指应用程序运行不依赖于某一数据库(如 SqlServer),能够简单(不再编译)切换至其它数据库(如 Oracle).数据库无关性是衡量系统的一个指标. 实现数据库无关的应用程 ...
  • mac修改终端的提示文字   环境变量PS1就是终端的提示文字格式,默认为“\h:\W \u\$”,可以用echo来查看:  echo $PS1   www.2cto.com   PS2则是换行后的提示符,默认为“& ...
  • 俺的名字叫Computer,或许你对这个名字感到很陌生,但是一提俺的中文名字相信大家就非常熟悉--计算机或电脑.虽然现在许多家庭都有俺的影子,但是随着时间的流逝和岁月的蹉跎,发现俺最近有点力不从心,身手也没有以前那么 ...
  • 使用到的布局文件 [java] <?xml version="1.0" encoding="utf-8"?>  <LinearLayout xmlns:and ...
  • 与从失败中学习一样,云管理员同样能从成功中学到相同的东西.分析云项目中哪些做对的事情能保证下一个尝试会更顺利. 设计者常常有会过度关注在失败上的倾向.但如果你的云项目很意外的一炮而红呢?了解一个云项目为什么会失败是很 ...
  • MPAndroidChart 1.在项目当中很多时候要对数据进行分析就要用到图表,在gitHub上有很多优秀的图表开源库,这里就简单介绍一下MPAndroidChart. 他可以实现图表的拖动,3D,局部查看,数据动 ...
  • 服务器端: using System; using System.Windows.Forms; using System.Net.Sockets; using System.Net;//IPAddress,IPEnd ...
  • Written by 蒋彪 201204271.       Class load的流程加载à验证 -> 准备 -> 解析 -> 初始化 -> 使用 -> 卸载其中初始化由new 命令完 ...
  • 我的世界特殊地形种子大全_我的世界特殊地形种子全部汇总.一起跟随小编过来看看吧 今天小编给大家带来我的世界特殊地形种子大全:不知道特殊地形种子去哪找的玩家们和小编一起看看吧! 冰刺之地 蘑菇岛 热带雨林 沼泽 针叶林 ...