-
[数据仓库] 数据仓库要删老掉牙数据或将其汇总吗
数据仓库要删老数据或将其汇总吗本人是用户,我用过的库不管是仓库还是源系统,都保留20年以上的数据。仓库里的交易事实表,都存有很老的历史数据。但是看inmon等人的文章都说老数据要删掉不然影响速度之类。各位的系统里要考虑这个问题吗?谢谢回答------解决思路---------------------...
135
热度 -
133
热度 -
[数据仓库] 求极大似然这题怎么解
求极大似然这题如何解?EM算法是数据挖掘里的基础,要搞懂EM,先要了解极大似然估计。(不知道放在哪个板块好,先放在这里)在百度搜“极大似然估计练习题”出现的第一个百度文库里的例子第一题画横线处是如何得来的?为什么不是这样:=(θ^2)^1x(2θ(1-θ))^2x((1-θ)^2)^1=4θ^4x(...
123
热度 -
[数据仓库] 关于kettle 多表数据输入到同一个目标表中,并添加序列的有关问题
关于kettle多表数据输入到同一个目标表中,并添加序列的问题大牛们好,问题如题所示,我现在需要将三张表A、B、C的数据,分别提取一部分字段,将所有记录提取到一张新的表D中。其中ABC的记录是追加关系,只不过对应的字段名称不同。并,最后给D表的ID字段统一添加自增序列值。==============...
94
热度 -
[数据仓库] PowerCenter可不可以实现逻辑上的路由,而非数据上的路由
PowerCenter能否实现逻辑上的路由,而非数据上的路由?现有一个需求:有两张表结构完全相同的源表,分别存放了时间段A~B,B~C的流水数据,表结构含有时间字段;现需要按天抽取流水数据到同一张目标表中,如何实现自动根据抽取时间,判断从哪张表中取数据?有几十张类似这种情况的目标表,手工切换太麻烦了...
130
热度 -
84
热度 -
[数据仓库] MPP架构数据仓库,该如何解决
MPP架构数据仓库Greenplum是MPP架构share-nothing,支持线性扩展,我想请教下:线性扩展是是意思?怎么才是线性扩展?------解决思路----------------------比如你现在IO是50MB/S你感觉慢,那就再加一台和目前规模一样的机器节点,这样最后IO理论速度就...
123
热度 -
[数据仓库] mesa引见:google 近实时数据仓库系统
mesa介绍:google近实时数据仓库系统Google最近发表了一篇有关大数据系统的论文,讨论了一个名为Mesa的数据仓库系统,它能处理近实时数据,即使在整个数据中心断线后还能正常工作。Mesa是一个高度可扩展的分析数据仓库系统,能存储与Google广告业务有关的关键测量数据。Mesa能满足复杂和...
86
热度 -
[数据仓库] 关于数据仓库基础数据集成有关问题
关于数据仓库基础数据集成问题数据仓库中的基础层数据我按主题划分对于两个不同的系统,比如客户主题中,这两个系统都有客户表,但是字段不一样,我从源数据ETL到基础层过程中,这两个系统的客户表我应该放在同一张表里还是分开两张表?应该怎么集成?各位有什么经验、做法,请共享一下,谢谢!------解决思路--...
43
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库(二)
ppg_fdw:如何使用pgsql构建mpp数据仓库(二)(前面由于个人事情较多,所以暂停了博客,现在继续)。由于PG本身就是个庞大的基础软件,ppg_fdw调用了大量的PG内部的接口,因此很难一行行代码来介绍(上周一个QA同事让我给他讲解代码,被善意的拒绝了。主要是觉得这个完全不可行,因为本身代码...
109
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库(六)
ppg_fdw:如何使用pgsql构建mpp数据仓库(六)对orderby和limit的处理对于某些SQL来说,最后需要处理的operator就是orderby以及limit。例如下面这个SQL:selectl_returnflag,l_linestatus,sum(l_quantity)assum...
61
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库(五)
ppg_fdw:如何使用pgsql构建mpp数据仓库(五)子查询的处理说实话,本人在没看PG之前,一直看mysql的文档里面讲子查询,什么From、drived子查询啥的,一直晕乎乎的。但是在看了PG代码之后,终于感觉略微明白了点。具体说来,SQL里面,出现在rtable里面的子查询才可以称为是su...
58
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库(四)
ppg_fdw:如何使用pgsql构建mpp数据仓库(四)Join的处理Join的处理在数据库中占有相当重要的地位。一般来说,在查询优化阶段,PGSQL会首先调用reduce_outer_joins函数来尽量消灭外连接:例如将全外连接转成左、右外连接(或者反左右连接)甚至是内连接,将左右外连接转化成...
106
热度 -
[数据仓库] 《BI那一星半点事》数据挖掘各类算法——准确性验证
《BI那点儿事》数据挖掘各类算法——准确性验证准确性验证示例1:——基于三国志11数据库数据准备:挖掘模型:依次为:NaiveBayes算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图:依次排名为:1.神经网络算法(92.69%0.99)2.逻辑回归...
61
热度 -
[数据仓库] 《BI那丁点儿事—数据的艺术》理解维度数据仓库——事实表、维度表、聚合表
《BI那点儿事—数据的艺术》理解维度数据仓库——事实表、维度表、聚合表事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。SateProductMouthUnitsDoll...
82
热度 -
[数据仓库] 2、Soft-margin SVM
加州理工学院公开课:机器学习与数据挖掘_KernalMethod(第十五课)课程简介继续上一课最后的问题,当数据是非线性可分的时候需要把数据转化到Z空间(线性可分)才可以利用SVM,因此需要知道Z空间是什么。这节课解决了不用知道具体的Z空间就可以利用SVM进行分类。最后,该课程介绍了如何因对过拟化的...
118
热度 -
[数据仓库] 关于kettle增量更新的实现可以用 流表的的rowid 吗
关于kettle增量更新的实现可以用源表的的rowid吗?大牛们好,如题所示,我现在需要从源数据库更新500多张表过来,数据量也很大,目前的工具是kettle。由于源库是别人的,所以更改不了源表的结构,只能从我们这边儿想办法。。那么,通过每个表的rowid能能实现吗?rowid是不是递增的呢?---...
108
热度 -
[数据仓库] 数据挖掘(入门常识)
数据挖掘(入门知识)最近在看一本叫《大话数据挖掘》的书,简单的摘要总结一些数据挖掘的基础理论知识:1.DataMining(在学术界也叫KDD:knowledgediscoveryindatabase),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含...
135
热度 -
[数据仓库] 数据仓库建模步骤初步
数据仓库建模方法初步一、前言数据仓库得建模方法同样也有很多种,每一种建模方法其实代表了哲学上的一个观点,代表了一种归纳,概括世界的一种方法。目前业界较为流行的数据仓库的建模方法非常多,这里主要介绍范式建模法,维度建模法,实体建模法等几种方法,每种方法其实从本质上讲就是从不同的角度看我们业务中的问题,...
79
热度 -
[数据仓库] 5、RBF and regularization
加州理工学院公开课:机器学习与数据挖掘_RadialBasisFunction(第十六课)课程简介:主要介绍了RBF模型及其与最近邻算法、神经网络、KernelMethod的比较。最后介绍了RBF模型的regularization问题。课程提纲:1、whatisRBF2、RBFandnearestn...
94
热度