bi系统搭建
ERP里面也有报表,为什么还要专门上线BI工具做分析?
ERP里面也有报表,为什么还要专门上线BI工具做分析?
大数据架构有哪些?应该如何理解?
BI系统的总体架构图如下:
核心模块是立方体,是更高级的业务模型抽象,很多操作都可以在上面进行。大多数BI系统都是基于关系数据库,使用SQL语句进行操作。而SQL在多维运算和分析方面相对较弱,所以Cube有自己独特的查询语言MDX,MDX表达式具有更强的多维表达能力。所以以Cube为核心的分析系统基本占据了数据统计分析的半壁江山。大多数数据库服务供应商直接提供BI软件服务,可以轻松构建Olap分析系统。
以Hadoop系统为首的大数据分析平台:Hadoop系统的生态系统也在不断壮大。目前,围绕Hadoop系统的大数据架构大概有以下几种:
传统大数据架构
它的定位是解决传统BI的问题。简单来说,数据分析的业务没有改变,仍然保留ETL的动作,通过ETL动作将数据录入数据存储。
适用场景:
数据分析的需求仍然由BI场景主导,但是它可以 由于数据量和性能问题,无法满足日常使用。
流式架构
在传统大数据架构的基础上,流式架构非常激进,直接去掉了批处理,以流的形式处理数据的全过程,所以在数据访问端没有ETL,取而代之的是数据通道。流式处理的数据以消息的形式直接推送给消费者。虽然有存储部分,但是存储多是以窗口的形式存储,所以存储不是发生在数据湖,而是在外围系统。
适用场景:
预警、监控和需要数据有效性的情况。
λ架构
λ架构计算它是大数据系统中举足轻重的架构,大部分架构基本上都是Lambda架构或者基于其变体的架构。拉姆达 的数据通道分为两个分支:实时流和离线。实时流基于流式架构,保证了其时效性,而离线流主要基于批处理,保证了最终的一致性。为了保证流媒体通道处理的有效性,增量计算是主要的辅助参考,而批处理层对数据进行满标度运算,保证其最终的一致性。所以Lambda最外层有一个融合实时层和离线层的动作,这是Lambda中非常重要的动作。合并的一般思路如下:
适用场景:
既有实时需求,也有离线需求。
卡帕建筑
Kappa架构在Lambda的基础上进行了优化,结合了实时和流部分,用消息队列代替了数据通道。所以对于Kappa架构来说,流处理仍然是主要的方法,只是数据存储在数据湖级别。当需要离线分析或重新计算时,可以通过消息队列再次重放数据湖的数据。
适用场景:
与Lambda类似,架构的变化旨在实现Lambda优化。
Unifield架构
Unifield架构更激进,将机器学习和数据处理结合起来。从核心来说,Unifield还是以Lambda为主,但已经转型,在流处理层增加了一个机器学习层。可以看出,数据通过数据通道进入数据湖后,在流层增加并使用了模型训练部分。同时,流层不仅使用模型,还包括模型的持续训练。
适用场景:
有大量的数据要分析,同时对机器学习便利性有很大的需求或规划。
相关:
舆情大数据系统架构的设计与实现:
大数据架构的分析与应用;