当前位置: 代码迷 >> 综合 >> 从零开始了解大数据 以及 RedShift
  详细解决方案

从零开始了解大数据 以及 RedShift

热度:87   发布时间:2023-10-29 19:36:02.0

从零开始了解大数据

什么是数据仓库

百度百科:数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合

数据仓库常用语、词

  1. EDW(数据集市):
    Enterprise Data Warehouse
  1. Data mart (数据集市): 小型数据仓库,可以理解为数据仓库的子级,可以在某一个程度上缓解访问DW的瓶颈
  1. Data cube(数据立方): 是一种用于数据分析与索引的技术架构。它是针对大数据(big data)的处理利器,可以对元数据进行任意多关键字实时索引。通过数据立方对元数据进行分析之后,可以大大加快数据的查询和检索效率。
    数据立方是凌驾于数据存储层和数据库系统之上的,通过数据立方解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库、实时查询、查询结果实时传输等优势。

4.Star Schema(星型模型): 一张事实表被若干张维度表所包围。每一个维度代表了一张表,有主键关联事实表当中的外键。
※所有的事实都必须保持同一个粒度
※不同的维度之间没有任何关联

5.Fact和dimension table:这是数据仓库的两个概念,是数据仓库的两种类型表。从保存数据的角度来说,本质上没区别,都是表。区别在于,Fact表用来存fact 数据,就是一些可以计量的数据和可加性数据,数据数量,金额等。dimension table用来存描述性的数据,用来描述fact的数据,如区域,销售代表,产品等。star schema 就是一个fact表有多个维表(dimension table)关联。

6.columnar 与 row stranger (列与行存储引擎) :数据存储的两种格式

7.data mining (数据挖掘)

8.predictive analytics (预测分析):是数据挖掘(data mining)的一个分支,用于预测未来可能性和趋势。

9.BI(商务智能):Business Intelligence的英文缩写,中文解释为商务智能,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。简单讲就是业务、数据、数据价值应用的过程。

10.visualization tools (可视化工具)

11.MPP (大规模并行处理):Massively Parallel Processor的简写, 在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据 库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。

12.OLTP(联机事务处理):on-line transaction processing的缩写,表示对事务性要求非常高的系统,一般都是高可用的在线系统。

13.OLAP(联机分析处理):On-Line Analytical Processing的缩写,表示数据仓库这种的处理方式。

顺便介绍一下RedShift

Amazon Redshift 是一种基于行业标准 PostgreSQL实现的可轻松扩展的完全托管型 PB 级***支持sql***的***MPP数据仓库***服务,可与您现有的商业智能工具协作。它通过使用***列存储***、数据压缩区域映射***和***并行化***多个节点的查询来提供快速的查询性能。支持***预付费,数据可以很简单且快速的导出与导入Amazon S3 :百度百科,即十分***易迁移***、备份

RedShift

一个主节点用于解析sql分发到从节点,从节点会进行互相通信传递数据。

数据分配方式

1.KEY分配:
根据一列中的值分配行。领导节点会尝试将匹配的值放置到同一个节点切片上。如果基于联接键分配一对表,领导节点会根据联接列中的值在切片上并置行,使共同列的匹配值实际存储在一起。

2.ALL分配:
向每个节点分配整个表的副本。EVEN 分配或 KEY 分配只将表中的部分行放置在每个节点上,而 ALL 分配则确保为该表参与的所有联接并置每一行。

3.EVEN分配:
不管任意特定列中的值是什么,系统都以轮询方式向所有切片分配行。当表不参与联接或无法明确地在 KEY 分配和 ALL 分配之间做出选择时,即可使用 EVEN 分配。EVEN 分配是默认分配方式。

  相关解决方案