基于mdrill的大数据分析

数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?
mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80~400维度的数据。

mdrill的特性

1.满足大数据查询需求:adhoc每天的数据量为30亿条,随着日积月累,数据会越来越大,mdrill采用列存储,索引,分布式技术,适当的分区等满足用户对数据的实时在线分析的需求。
2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。
4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。

6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)

mdrill的定位

大数据

要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。

多维分析

要任意维度组合与过滤
还要对任意指标进行统计和排序

即席查询

要查询快,秒级响应。
还要数据快,数据分钟级延迟。

资源列表

其他

更多相关文章
  • 周末安全综述: 据瑞星"云安全"系统统计,上周末期间,共有1,538,800人次的网民遭到网页挂马攻击,瑞星共截获了103,441个挂马网址. 周末被挂马网站Top5: 1."湖南省招标投标监管网":www.bidding.hunan.gov.cn/item/ ...
  • after work for almost two years, I have realize the truth notes can help a lot for us.    avoiding my lazy life, I decide to sign something important ...
  • 12月4日下午,主管部门终于"兑现承诺",正式发放4G牌照.值得注意的是,三大运营商首批获得的都是基于TD-LTE技术的4G牌照,而另一通行的国际标准FDD-LTE的4G标准则不在首批发放之列.对于4G牌照的发放,中国移动表现得很热情,而中国电信和中国联通则表现得十分淡定.&qu ...
  • 简介 stackprof 是基于采样的一个调优工具,采样有什么好处呢?好处就是你可以线上使用,按照内置的算法抓取一部分数据,只影响一小部分性能.它会产生一系列的 dump 文件,然后你在线下分析这些文件,从而定位出问题,google 有一篇基于采样的论文,也基本证明了采样是可行的.而 stackpr ...
  • 数据库一般分为 关系型和对象型,关系型是主流,对象型数据库是直接把对象存入数据库. 常用关系型数据库: PC:Oracle MySQL SQL Server DB2 嵌入式/移动端:SQLite 本文主要介绍SQLite的基本情况与SQL基本语句. 1.SQLite实际无类型,但是表层划分数据为以下 ...
  • Language:   Memory Limit: 65536K Total Submissions: 7969   Accepted: 3061 题意:有N对钥匙,M扇门,每对钥匙要是用了其中一个另外一个就会马上消失,每扇门上有两把锁,只要打开其中一把锁门就打开了.开门顺序是输入的顺序,问最多能开 ...
一周排行
  • 原文地址:http://wangyan.org/blog/rtorrent-and-rutorrent-tutorial.htmlrTorrent 是一款非常简洁优秀的BT客户端,它完全基于文本并可以在Linux终端 ...
  •   10月14日, 环球教育科技集团公司(GEDU.NAS,下称环球雅思)CEO张永琪在其位于北京的集团总部接受记者专访时表示,2007年至2009年,环球雅思总营收分别为9678万元.1.64亿元.2.46亿元,净 ...
  • http://wgcimpression.pub
  • 易网科技讯 11月20日消息,日本共同社今日报道,正在进行经营重组的夏普公司已解除了与台湾鸿海精密工业公司的手机业务合作.此外,有关太阳能电池业务,夏普正在研究停止英国组装工厂的生产.夏普的手机业务受到美国苹果公司i ...
  •        今天是开学的第一天,很意外的一天没课.但是我知道还有很多事情在等待这我,不能懈怠!安排好计划,把重要不紧急的事情逐渐蚕食掉,切不可养虎为患,等拖到它变成重要紧急事件后,那就后悔莫及了.        下 ...
  • 1. 下载的Oracle SQL Developer,rpm文件,下载地址:  http://www.oracle.com/technology/software/products/sql/index.html    ...
  • C114讯 北京时间1月29日凌晨消息(蒋均牧)诺基亚发布了其截至2009年12月31日的第四季度财务业绩报告.据财报显示,由于新推出的手机带动了其智能手机市场份额,诺基亚第四季度利润大幅增长,但销售额略有下降,不过 ...
  • 今天来和大家简单谈一下rba ,rba = redo byte address .  讲到rba,这里涉及到了几点需要大家提前预知,即controlfile header,ckpt process 与 dbwn pr ...
  • 恢复内容开始 新公司用的nodejs作为app和网站的后台服务server,所以最近对nodejs一直在学习,加上之前简单的学习了一点,看了两天后台接口源码,所以就直接上手干活了,下面是我和写后台接口的哥哥的一段对话 ...