首页 网站首页 商业资讯 数据 查看内容

数据中台开源解决方案(二)

admin 数据 2022-12-9 11:58 5357人围观

前文提到数据中台贸易的处理计划有很多,开源框架品种繁多,每一个模块都有很多开源的套件。可供挑选的处理计划太多,重点保举开源处理计划,框架图以下图所示。



6.数据仓库

在数据平台挑选好后,下一步的重要工作是实现企业的数据资产化,满足前端营业对数据利用的需求。数据资产化的关键行动是对企业的原始数据停止清洗和规整,将其转化为代价数据,然后从中笼统出主数据,进一步构建分歧主题的数据标签系统。这些关键行动离不开数据仓库的标准化、存储、计较和建模系统化的支持。今朝,支流的数据仓库分为离线数据仓库和实时数据仓库,两者的典型区分是数据办事时候粒度。传统的离线数据仓库一般的数据办事时候粒度是天,实时数据仓库的数据办事时候粒度是分钟,甚至秒。从数据仓库存储和计较框架开源处理计划来看,今朝行业的离线数据仓库普遍采用Hive+Spark的综合计划,而实时数据仓库当前的支流计划之一是HDFS+Flink+Kafka。今朝,大部分企业在扶植数据仓库时,综合考量性能、硬朗性、投入产出比和运维复杂度,首要战略是以离线数据仓库的批处置计较为主,以实时数据仓库为帮助。

7.可视化自助数据分析

数据分析是实现数据代价的关键行动之一。透过扑朔迷离的数据关系发现代价点是一项吃力、费时的工作。好的工具可以使这项工作事半功倍。为了进步数据分析的效力,行业出现了多种处理计划,集合表现在自助取数、自助分析、多维分析、分析可视化这几个方面,方针是实现可视化自助数据分析。可视化自助数据分析的焦点功用是支持大都据源接入、权限治理、高性能计较和可视化多维分析。今朝,自助 OLAP 开源首要利用的计较引擎有Impala、Presto、ClickHouse和Kylin。在查询引擎部分,已经先容过这几种计较引擎的特点,在此不再赘述。开源可视化处理计划首要有Superset、Redash和Metabase。Superset出自Airbnp,今朝是Apache的开源项目,功用比力强大,网上的参考案例较多。Redash是一个轻量级的利用,摆设简单,短小精悍,能满足平常分析需求。Metabase 的功用丰富水平介于Superset和Redash之间,网上的参考案例较少。在现实利用中,笔者重点保举ClickHouse+Kylin+Superset的同一处理计划。估计较的OLAP利用Kylin引擎,实时查询的计较利用ClickHouse。

8.法则引擎

法则引擎是常用的实现数据代价的根本工具之一,常用的利用处景有风险治理、静态定价、精准营销、监控预警等。笔者曩昔一向利用开源工具Drools 连系二次开辟搭建法则引擎,其优点是语律例则简单、支持静态法则设置、社区热度高、网上落地案例丰富、功用丰富且不竭升级迭代,弱点是相对较重、利用门坎较高、聚合计较效力低等。对于实时法则利用处景,倡议利用流式计较引擎计较复杂的聚正当则,而简单的法则计较利用Drools内核。

9.机械进修引擎

要从扑朔迷离的数据中挖掘出焦点代价离不开算法的支持。智能化的真理是利用机械进修算法、Al算法和其他算法分歧水高山实现用机械替换野生。今朝, 各类开源的算法包出格多, 当建模数据行数在万万级别时, 笔者常用 Anaconda 包和 XGBoost 包。当建模数据行数在亿级别时,笔者常用Spark MLlib。笔者利用的Al算法框架是TensorFlow。在自然说话处置方面,笔者常用的是百度的ERNIE框架,该框架在多个公然中文数据集下的性能比Google的BERT框架略好。

10.元数据治理

Atlas和Hadoop无缝毗连,能有用地支持元数据治理、数据资产分类、元数据搜索、血缘关系可视化和数据治理。Atlas支持对元数据增加标签,然后经过标签对数据资产停止分门别类的治理,并基于标签停止同一权限控制和数据资产的平安治理。同时,Atlas还可以捕捉各类元数据信息(如数据的发生、表的建立和履行、数据交互、数据ETL履行、数据存储、数据平安拜候、数据的利用等),并支持检察元数据和血缘的可视化,便于实时发现数据的变化,快速定位数据题目。数据具偶然效性,Atlas支持数据全生命周期治理(如在过了数据时效后,姑且表被自动删除)。Atlas 还支持和多个内部平台(如Hive、SAS等)的元数据互联互通。我们可以将这些平台的元数据导入Atlas中,然后利用Atlas停止元数据治理和数据治理。

11.工作流调剂和监控

数据利用百花齐放,系统背景需要对这些数据利用的工作流停止公道调剂和监控,确保数据利用的实时性和稳定性。当使命运转失利时,系统要能实时发现并实时告诉相关数据运维职员。这些功用是对工作流调剂和监控工具的根基要求。今朝,行业常用的开源工作流调剂和监控工具主如果Oozie和Azkaban。两者的工作道理的最大区分是前者的工作流运转靠捕捉和监控加倍细粒度的MapReduce批处置使命履行级别信息,尔后者的工作流运转仅仅靠捕捉和监控较粗粒度的操纵进程级此外信息。这会致使在使命出现失利大概断电后,Azkaban需要重新履行工作流,而Oozie可以基于失利的工作流重新履行。不外Azkaban的这个功用可以经过二次开辟停止优化。Azkaban的上风是有完善的权限控制,支持对工作流的读写停止权限控制。

整体而言, Oozie的功用加倍丰富, 比如支持Web、Rest API、Java API操纵工作流,支持工作流的状态持久化存储、基于时候的按时使命调剂及丰富的数据源等,可是其设置更复杂,开放性较弱,二次开举事度高,利用门坎更高。Azkaban是一个轻量级的利用,聚焦批量工作量的调剂和监控,简单易用,更开放,支持二次开辟。

总之,经过上述先容的开源工具的摆设、利用和整合,企业可以低本钱且快速地搭建一套大数据平台,支持数据资产化,实现高性能的数据分析和数据利用,高效地支持营业的数字化和智能化转型。

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

我有话说......

相关推荐

各领域公开数据集下载

各领域公开数据集下载

整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济

快速找到论文数据的19个方法

快速找到论文数据的19个方法

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职

有哪些可以获取数据的网站?[大数据]

有哪些可以获取数据的网站?[大数据]

做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几

Detectron2训练自己的数据集手把手指导

Detectron2训练自己的数据集手把手指导

Detectron2训练自己的实例分割数据集This article was original written by Jin Tian,

数据增强(Data Augmentation)

数据增强(Data Augmentation)

我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而

数据迷思2:辛普森悖论下的香港死亡数字

数据迷思2:辛普森悖论下的香港死亡数字

如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季

数据看中国vs世界:2021世界各国/地区薪资排名

数据看中国vs世界:2021世界各国/地区薪资排名

数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名

数据可视化:打造高端的数据报表

数据可视化:打造高端的数据报表

本文是《如何快速成为数据分析师》的第五篇教程,如果想要了解写作初衷,可以先行阅读

最通俗易懂的理解什么是数据库

最通俗易懂的理解什么是数据库

1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的

数据可视化:深入浅出BI

数据可视化:深入浅出BI

本文是《如何快速成为数据分析师》的第六篇教程,如果想要了解写作初衷,可以先行阅读

数据分析师这个岗位,可能近几年会消亡

数据分析师这个岗位,可能近几年会消亡

近期成为月入两万的数据分析师的广告遍地都是,可能会对一些未入行的同学造成错觉。我

没数据分析项目经验,找工作也别太慌!

没数据分析项目经验,找工作也别太慌!

1. 你问不少同学加了微信,第一句往往类似这样: 在校或刚毕业的学生,没有实习经验,

Excel函数公式大全(图文详解)

Excel函数公式大全(图文详解)

我把每个函数的中文名都制作成了目录,通过目录能够快速定位到相应的函数。如果这篇文

18个超实用的神级免费网站,找论文和文献必备!

18个超实用的神级免费网站,找论文和文献必备!

写论文至关重要的一步就是查文献,为了让小伙伴们能够在查文献的路上少走弯路,顺利写

30个值得推荐的数据可视化工具(2020年更新)

30个值得推荐的数据可视化工具(2020年更新)

30个数据可视化工具(2020年更新)目录摘要• 零编程工具◦ 图表(9个)◦ 信息图(2

从三次人口普查的公开数据看兵源人口的变化与“征兵难”问题 ... ...

从三次人口普查的公开数据看兵源人口的变化与“征兵难”问题 ...

最近很多人私信询问如何看待出生人口或人口总量减少对征集兵员和国家安全的影响。这可

数据看中国VS世界:世界各国人类发展指数排名-2020

数据看中国VS世界:世界各国人类发展指数排名-2020

人类发展指数:Human Development Index(HDI),是联合国开发计划署从1990年开始发布

GIS数据免费下载网站

GIS数据免费下载网站

刚学习GIS和RS的同学肯定很困惑于数据的问题,因为没有数据,就没法分析,那么GIS最基

2022新数据出炉:透过性别比例与出生人口,我看到两个残酷的现实

2022新数据出炉:透过性别比例与出生人口,我看到两个残酷的现实

2022重磅数据公布,全年出生人口956万人,死亡人口1041万人。从性别构成来看,男性人

数据中台(一)什么是数据中台

数据中台(一)什么是数据中台

本文从数据中台的定义、核心能力、优点出发阐述企业数据中台建设的意义与必要性。一、

TA还没有介绍自己。

最近内容

电话咨询: 15924191378
添加微信