找回密码
 立即注册

从大数据到数据库

| 2022-3-29 10:13 阅读 3206 评论 20

这个专栏虽然是 TiDB AP 组的,但根基不代表官方态度(这样可以写的随意一点)。从上半年开栏,到开天窗到现在也是忸捏。年末了,感受还是需要写点什么 :) 翻开知乎意想到自己还挂着大数据答者的标签,这也是我原本的范畴,所以这篇还是从我熟悉的范畴说起吧,也许还能多骗几个赞。

先说下,小我水平也有限,这破文也没人考核,下面一切扯淡的部分,若有说错的属于我小我,于公司无关 :)

大数据兴起

从 70 年月关系型数据库进入历史舞台,很长一段时候它几近是包打全国的挑选。你极能够可以用一套数据库玩转一切营业,你也不需要一个连的工程师来保护她。哪怕你也许营业复杂,需要分歧的数据库,但她们毕竟是还是数据库,温柔关心。

这个黄金时代整整延续了20多年。

上世纪 90 年月人们起头会商「Big Data」。SGI 首席科学家 John Mashey 在一个名为「Big Data… and the Next Wave of Infrastress」的文章里提到,让这个辞汇变得风行。阿谁时辰,人们会商着硬盘容量和收集带宽,在未来数据爆炸的阴影下瑟瑟发抖。阿谁时辰,互联网公司是第一批真正尝试处理大数据题目标先行者。有外传统的运营方式让它们率先面临了大数据时代著名的 3V 题目(By Gartner)。

  • 容量(Volumn):爆炸性的买卖量带来爆炸性的数据容量
  • 速度(Velocity):和在这个范围下仍供给高速的数据利用
  • 多样性(Variety): 以及为了支持营业变更和复杂性所酿成的数据多样性

与传统公司分歧,互联网公司的数据单元代价偏低,但数据量及其庞大。而且它们并纷歧定是结构化的,并非完万能用 SQL 来处置。简而言之,它们已经超越了那时数据库的才能鸿沟。而那时的互联网公司巨头们如 Google 和 Amazon,纷纷挑选抛弃了传统手段,重起炉灶,由此拉开了「大数据」时代的大幕。

有爱好的童鞋,可以翻翻下面的论文:

  • The Google File System - 2003
  • MapReduce: Simplified Data Processing on Large Clusters - 2004
  • Bigtable: A Distributed Storage System for Structured Data - 2006
  • Dynamo: Amazon’s Highly Available Key-value Store - 2007

也许你并不领会 Google 内的 GFS,MapReduce 大概 BigTable 具体是什么样子的。不外相信既然你看到了这里,你一定听说过 Apache Hadoop 和 NoSQL。Hadoop 加上属于 NoSQL 的 HBase,就是以上面 Google 的几篇论文为根本开辟而成的。这是一个真正现象级的开源通用大范围散布式数据存储和处置套件。它的影响力是庞大的,稍具范围的互联网公司就不能不用,稍有经历的从业者便可以支付不菲的薪水,大家都以能向其提交一个补钉为荣,更不用提一个实打实的 Committer,你都可以从他脑后看到光环。不管现在几多人宣称 Hadoop 已死,XXX 是真理,可是以 Hadoop + NoSQL 为根本,所谓大数据根本架构所带来的想法变迁,一向延续到了明天,且并没有太大变化:

  • 选用白菜价的硬件组成集群,突出 Scale Out 而非 Scale Up
  • 极端简化和粗鲁的计较模子
  • 几近不经整理的存储格式,在多种引擎之间同享,所谓数据湖
  • 疏忽 / 弱化分歧性,抛弃关系模子,简化甚至疏忽事务,所谓 NoSQL

你可以说这是开源社区的伟力,但追根究底还是 Google,Amazon 这些先行者卓有远见的工作为大师摊平了门路。不外,有些反直觉的是:这些援用数几千几万的论文实在并没有提出巧夺天工的设想;相反,它们本质上是告诉了业界,把数据库换成设想如此粗糙狂野的架构,仍然可以处理题目:就算你没钱买超高真个软硬件,只要你放宽心,告诉自己,疏忽分歧性,忘记精巧的优化履行器和存储结构,疏忽半结构化带来的紊乱,干掉 SQL 说话,多雇几个码农,你仍然活的下去,而且可以活的还不错。

这些到底为我们带来了什么?且看已经很是著名的 Sort Benchmark。

  • 2004 年,NEC Express 5800 / 1320 Xd 单机,价格能够介于 200-600 万 USD 之间,1 分钟排序 34G
  • 2006 年,Fujitsu PrimeQuest 480 单机,2 年将成果推高 6G,1 分钟排序 40G 数据;机械价格不成考
  • 2007 年,麻省理工林肯国防尝试室,Bradley C. Kuszmaul 利用 TX-2500 磁盘集群(550 万 + USD),440 节点用 Infiband 串联,利用了便宜系统(文件系统,通讯模块),在履历了无数硬件软件故障以后,一分钟内排序了 214GB 数据;该实验相比之前的超奢华办事器,已经起头利用「廉价硬件」,可是利用便宜软件系统
  • 2009年,Yahoo! 利用 Hadoop 以近似的总价(500 万 USD,以单价反推)但近1/3的单价串联了1400个白菜价节点集群,获得了一倍多的速度,排序了500G。而这里 1400 的节点数是为了凑整 500G / 1分钟 而非只能这么多大概必须这么多

请答应我用一句诗来总结它的意义:「旧时名门堂前燕,飞入平常百姓家」。

王之鄙弃

与业界的欢娱分歧,那时数据库研讨者圈子对此的反应已经不是嗤之以鼻,而是切齿痛恨了。这有点像,教员傅练了一辈子技艺,你忽然告诉他,打架只要抡大锤就行了。

MapReduce: A major step backwards by David DeWitt & Michael Stonebraker

上面这篇文章是 DeWitt 和 Stonebraker 大神合写的对 MapReduce 的批评。这两尊是真神,DeWitt 是美国工程院院士,微软 Jim Gray 尝试室老迈,而石破天,则是图灵奖获得者。在他们看来,这破玩意抛弃了数据库一切美好的特点,实现也丑陋,还接不上数据库工具,简直臭不成闻。文末,老人家们「酸酸」地说,我们很兴奋看到社区对这些技术感爱好,可是也别把我们几十年的研讨功效当 X 啊。



两位的批评,哪怕延长到全部大数据生态,就算放到时隔多年的明天,也还是套的上去。但这套糙快猛的理念催生的技术栈,已经无需赘述获得了多大的成功。哪怕是数据库圈内的人,也时有埋怨:老一辈的人偶然辰不够 Open-Minded。所以,他们说错了么?

也许他们对业界面临的困扰不够感同身受,也许他们不够有包容心。不外,他们对技术的判定实在是精准到位的。

究竟上,没过量久,人们在大数据系统中引入了 SQL,MPP 引擎,列存,加入了向量化,JIT,实现了 CBO。对于数据库圈外的童鞋们,偶然你看社区兴高采烈地宣称,他们实现了何等奇异的技术,恍如普罗米修斯从天上带来了火种,实在他们只是从十几甚至几十年前的故纸堆中罗致了营养。

是大数据社区的人蒙昧能干是以重新「发现」数据库界玩烂的技术么?不,只是由于业界等不了数据库圈子渐渐悠悠匠心打磨:没有合适的工具,他们每分每秒都在损失 ¥。且不说大范围散布式买卖型数据库一向是老浩劫,就算脱开买卖型场景不谈,散布式的分析性数据库早已有之,却也由于负担繁重,还没来得及跟上时代的步伐,就被大数据的浪头打的狼狈不胜。Pivotal 先是由 Greenplum 折腾了对接 Hadoop 的 HAWQ ,继而被迫双双开源;就连 Teradata 这样的巨头也不能不支持 Hadoop。

只是,一旦社区步入小康,虽是蛮横发展的生态,也还是阻挡不了人们追求小资生活的决心:用户希望友爱,快速,高效,稳定的数据存储和处置手段,这是亘古稳定的需求。而这些,恰正是数据库范畴多年堆集地点。



摘自 http://pramodgampa.blogspot.com

现今的大数据生态,如同哥斯拉,强大而难以驯服。不管什么场景,似乎都经不起它尾巴一扫。但若说清洁工致地处理题目,却是难如登天。究竟狂野集约基因的产物,不管若何演变,都很难文雅起来。对数据湖而言,开放形状加上公共存储格式,能轻易串联多种引擎,但也几近抹杀了邃密整理数据的能够;而混沌的存储系统和不受控的数据进口,也限制了全部系统可以伸展腾挪的空间。对 NoSQL 而言,羸弱大概爽性不存在的事务,所谓终极分歧性,小儿科的 SQL 支持,也都成为人们诟病的来由。而全部圈子蛮横发展的开放系统,在获得庞大动能的同时,也使得用户体验几近不成能杰出。这些各种,使得大数据生态很洪流平上都只办事于工程师,而你需要一大票专家才能真的驯服大数据平台。从这个角度看,MapR 变卖产业给 HP,Hortonworks 被收买,Cloudera 巨亏股价狂泻,都是必定的:大数据生态根基不成能做成类似 Oracle 这样的标准件买卖。

也许,更偏向于数据库形状的计划,才是更和睦的计划;也许,随着技术的成熟,我们还有机遇回到黄金时代。

回归数据库

随着时候的推动,Google 这样的伟人自己也忍受不了自己缔造的怪物,又起头了新的摸索:哪怕是 Google 这样聪明脑壳会聚的地方,也不想总是需要自己花心机处置分歧性,大概用烦琐的代码实现 SQL 逻辑。

Spanner: Google’s Globally-Distributed Database - 2012

Spanner 是一个能像 NoSQL 一样延展(甚至横跨多个大陆),但却支持传统数据库事务的散布式买卖型数据库。它缔造性地用原子钟处理了以往散布式事务分歧性需要依靠中心节点,因此没法大范围扩大的题目。这算是拉开了所谓 NewSQL 的大幕。这启发了很多项目,比如小强,比如我们的 TiDB。她们具有对营业通明的 Sharding 设想和散布式事务,杰出的可扩容性,又兼顾了分歧性,这让散布式系统很洪流平上具有单机数据库近似的用户体验。不外成心机的是,哪怕论文最创新的点是基于原子钟的散布式事务,可是对很多人来说,它更大的意义仍然是:证实给一个类似 NoSQL 架构加上传统数据库特征,用来做传统数据库营业,是可行的(固然共鸣算法 Paxos / Raft 的利用也很重要)。天晓得这背后履历了几多试错,这就是先行者的巨大。

至此,业界也答应以说处理了全部系统中最难啃的题目:散布式买卖型数据库。而随着技术不竭成熟,人们也逐步起头接管这个新颖事物:光就 TiDB 而言,从第一个用户拿来做并不那末 TP 的边沿营业,到现在登上银行焦点系统。也许你在刷二维码付费的时辰,背后支持你这笔买卖的数据库就是 TiDB。

对我们来说,现有的 Multi-Raft 系统,供给了可自在伸缩,对用户通明的分片系统,以及可平衡的并行复制机制。以这些为根本,经过 Raft Learner 将数据从 TP 行存到 AP 列存停止异步异构复制但供给分歧性读取,我们得以整合了 TP 和 ODS 层,而且相互之间不影响,这就是今年我们折腾的 TiFlash。希望明年能尝试进一步一样经过 Raft 协议将列存引擎延长到传统的数仓营业,而同一更多场景。很多人不相信终极数据库能做到一站式办事( Silver Bullet),能简化到一个产物,去除平台间数据的迁移;而大数据系统里零零总总的工具,也许是一个必定。究竟,有些设想的取舍很难兼顾。我小我的看法是,也许,但通太谨慎的设想,我们现在已经可以做到将分歧的引擎无缝地整合到一个产物中。究竟,经过这十多年的大数据浪潮,哪怕浪不再那末高,社区毕竟沉淀下了贵重的财富,前人设想的得失也好,强大的开源引擎如 Spark 也好(Spark 已经渐渐离开蛮横生态直通云霄了),成熟的开源情况也好,甚至更多有经历的小伙伴也好。这都成为我们能借力的抓手,让我们能有勇气应战似乎不切现实的方针:让用户从大数据生态复杂的技术栈束缚出来,让数据平台收敛到单逐一个产物,由于这才是数据处置应有的样子,哪怕这是一条很长很长的路。

  • 游客 2022-3-29 10:31
    因为现在他们是云服务了。
  • 游客 2022-3-29 10:30
    为什么说spark直通云霄呢?
  • 游客 2022-3-29 10:29
    石破天…我一般称之为石敢当[飙泪笑]
  • 游客 2022-3-29 10:28
    当然理论上不会有大一统 但是覆盖常见场景还是有可能的 我们希望做一个铁人三项选手 而不是只能在赛道上短跑的人
  • 游客 2022-3-29 10:27
    马老师流弊!
  • 游客 2022-3-29 10:25
    目标没有去限制边界领域,不觉得可行。tidb或者span 这种能解决的场景只是一部分,期望大一统肯定不现实。侥幸各个场景都能覆盖到甚至都搞定了,成本以及复杂度高的令人发指了吧。

查看全部评论>>

文章点评
2022-03-27 18:08
互联网 移动互联网时代的管理模式:社交化
来源:tita.com专业的OKR管理与教练认证平台近现代的社会发展经历过这样三个阶段:工 <详情>
2022-03-27 18:21
互联网 移动互联网出海8年,我们到底对海外环境了解多少?
始自 2010 年的中国移动互联网的出海浪潮,几年时间里经过探索、爆发、迭代转型后,目 <详情>
2022-03-27 19:26
互联网 1.2 量子计算与量子电路
介绍完计算的基本单位qubit后,我们可以进行量子计算了。在经典计算机中,我们使用电 <详情>
2022-03-28 12:32
互联网 五年过去了 我的VR设备为什么还在吃灰
2018年,刚刚走上工作岗位的我为了心动已久的《节奏光剑》购入了PSVR。彼时的囊中羞涩 <详情>
2022-03-28 13:17
互联网 VR设备终于出了第一个爆款!2022将是关键一年
2020年以来,随着VR软硬件设备的迭代升级,硬件成本的下降以及体验感的提升,加上“元 <详情>
2022-03-28 15:26
互联网 量子计算重大突破:科学家实现512个量子位的中性原子体系
澎湃新闻记者 王蕙蓉近日,科学家在中性原子量子计算领域取得重大突破,首次实现具有5 <详情>
2022-03-28 17:22
互联网 AR.js 初探
写之前说几句,以下示例和参考都是github上的开源作品,小编只是分享在使用过程中的踩 <详情>
2022-03-28 17:56
互联网 三分钟了解NB-IoT物联网技术
今天我们来一起吹吹NB!其实,通信圈里的小伙伴已经猜到了,我所说的NB,就是它:在具 <详情>
2022-03-28 18:24
互联网 【2022.3.9】VR(虚拟现实)科普文/眼镜/电影/游戏/资源/元 ...
(一)VR设备从今年的情况来VR渐渐从寒冬苏醒过来,最为明显的信号就是各大厂商纷纷推 <详情>
2022-03-28 18:36
互联网 纯流量卡(物联网卡)经验科普贴
本人从事物联网行业多年,并且拥有自己的工作室,也见证了物联网卡的起起伏伏,在这里 <详情>
2022-03-29 08:49
互联网 五分钟带你了解物联网(IoT)及其未来应用方向
来源:物联网智库 导 读 未来的IoT应用,将在不同行业中,和不同领域中,从简单的状态 <详情>
2022-03-29 10:13
互联网 从大数据到数据库
这个专栏虽然是 TiDB AP 组的,但基本不代表官方态度(这样可以写的随意一点)。从上 <详情>
2022-03-29 10:19
互联网 大数据方向毕业设计如何做,分享我的思路
前言最近有很多人问我,大数据专业有什么好的毕设项目,我就简单的回复了一下。也有直 <详情>
2022-03-29 10:19
互联网 大数据毕业设计
1 开题指导1.1 起因近期开题的同学越来越多,很多同学不知道怎么选题,不知道老师分配 <详情>
2022-03-29 10:49
互联网 2021最全大数据学习路线(建议收藏)
个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师! 我 <详情>
2022-03-29 15:45
互联网 第一次有人把5G讲的这么简单明了
原作者:小枣君原出处:鲜枣课堂原链接:有史以来最强的5G入门科普!关于5G通信,常见 <详情>
2022-03-29 17:24
互联网 聊一聊 VR 虚拟现实(十一):VR 未来20年发展趋势预测
要想做好眼前的事,首先要知道它未来会是什么样子?本篇文章里,我们就讨论下VR的未来 <详情>
2022-03-29 17:25
互联网 2022年VR眼镜这么选?100-5000元内的VR眼镜推荐 ...
哈喽!大家好,我是热爱分享的 @雪雪雪雪碧 呀,这篇文章主要给大家分享家用VR眼镜的 <详情>
2022-03-29 17:26
互联网 个人向VR硬件推荐/选购指南(更新到2021)
联动游戏推荐贴:联动VR设置贴:VR组织QQ群推荐:(较为婆罗门S1论坛VR群,水分少,有 <详情>
2022-03-29 17:42
互联网 2022年VR眼镜评测,Oculus、Pico、Nolo、HTC品牌推荐 ...
【全文约4000字,精读10分钟】全文精华总结,不想看长内容的,直接看结论: 【VR眼镜 <详情>

热门文章