-
[数据仓库] kettle无法启动,该如何处理
kettle无法启动DEBUG:UsingJAVA_HOMEDEBUG:_PENTAHO_JAVA_HOME=C:\ProgramFiles\Java\jdk1.6.0_10DEBUG:_PENTAHO_JAVA=C:\ProgramFiles\Java\jdk1.6.0_10\bin\javaon...
101
热度 -
[数据仓库] 数据挖掘之分门别类指标:召回率 、精确度、准确率、虚警率和漏警率
数据挖掘之分类指标:召回率、精确度、准确率、虚警率和漏警率场景如下:假设原样本有两类,True和False,其中:1.总共有T个类别为True的样本;2.总共有F个类别为False的样本;分类预测后:1.总共有TT个类别为True的样本被系统判为True,FT个类别为True的样本被系统判为Fals...
96
热度 -
[数据仓库] 数据仓库缓慢变更维度应对策略
数据仓库缓慢变化维度应对策略此处只针对有分析价值字段的变化,采用策略记录其变化,无任何分析价值的,直接进行UPDATE。拉链表添加增加有效开始时间,有效结束时间,最新版本标示字段。比如客户表的婚姻状况发生变化,会新增一条记录,两条记录如下:客户婚姻状况有效开始日期,有效结束日期,最新版本客户A,未婚...
80
热度 -
[数据仓库] 数据仓库要删老掉牙数据或将其汇总吗
数据仓库要删老数据或将其汇总吗本人是用户,我用过的库不管是仓库还是源系统,都保留20年以上的数据。仓库里的交易事实表,都存有很老的历史数据。但是看inmon等人的文章都说老数据要删掉不然影响速度之类。各位的系统里要考虑这个问题吗?谢谢回答------解决思路---------------------...
135
热度 -
133
热度 -
[数据仓库] 求极大似然这题怎么解
求极大似然这题如何解?EM算法是数据挖掘里的基础,要搞懂EM,先要了解极大似然估计。(不知道放在哪个板块好,先放在这里)在百度搜“极大似然估计练习题”出现的第一个百度文库里的例子第一题画横线处是如何得来的?为什么不是这样:=(θ^2)^1x(2θ(1-θ))^2x((1-θ)^2)^1=4θ^4x(...
123
热度 -
[数据仓库] 关于kettle 多表数据输入到同一个目标表中,并添加序列的有关问题
关于kettle多表数据输入到同一个目标表中,并添加序列的问题大牛们好,问题如题所示,我现在需要将三张表A、B、C的数据,分别提取一部分字段,将所有记录提取到一张新的表D中。其中ABC的记录是追加关系,只不过对应的字段名称不同。并,最后给D表的ID字段统一添加自增序列值。==============...
94
热度 -
[数据仓库] PowerCenter可不可以实现逻辑上的路由,而非数据上的路由
PowerCenter能否实现逻辑上的路由,而非数据上的路由?现有一个需求:有两张表结构完全相同的源表,分别存放了时间段A~B,B~C的流水数据,表结构含有时间字段;现需要按天抽取流水数据到同一张目标表中,如何实现自动根据抽取时间,判断从哪张表中取数据?有几十张类似这种情况的目标表,手工切换太麻烦了...
130
热度 -
84
热度 -
[数据仓库] MPP架构数据仓库,该如何解决
MPP架构数据仓库Greenplum是MPP架构share-nothing,支持线性扩展,我想请教下:线性扩展是是意思?怎么才是线性扩展?------解决思路----------------------比如你现在IO是50MB/S你感觉慢,那就再加一台和目前规模一样的机器节点,这样最后IO理论速度就...
123
热度 -
113
热度 -
[数据仓库] mesa引见:google 近实时数据仓库系统
mesa介绍:google近实时数据仓库系统Google最近发表了一篇有关大数据系统的论文,讨论了一个名为Mesa的数据仓库系统,它能处理近实时数据,即使在整个数据中心断线后还能正常工作。Mesa是一个高度可扩展的分析数据仓库系统,能存储与Google广告业务有关的关键测量数据。Mesa能满足复杂和...
86
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库
ppg_fdw:如何使用pgsql构建mpp数据仓库在前面的博文介绍了PG的hook和数据仓库的join算法之后,现在终于要推出干货了:ppg_fdw。(大家可以从githup:https://github.com/scarbrofair/ppg_fdw上下载代码和相关的简要说明文档)。总的说来,p...
74
热度 -
[数据仓库] 关于数据仓库基础数据集成有关问题
关于数据仓库基础数据集成问题数据仓库中的基础层数据我按主题划分对于两个不同的系统,比如客户主题中,这两个系统都有客户表,但是字段不一样,我从源数据ETL到基础层过程中,这两个系统的客户表我应该放在同一张表里还是分开两张表?应该怎么集成?各位有什么经验、做法,请共享一下,谢谢!------解决思路--...
43
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库(二)
ppg_fdw:如何使用pgsql构建mpp数据仓库(二)(前面由于个人事情较多,所以暂停了博客,现在继续)。由于PG本身就是个庞大的基础软件,ppg_fdw调用了大量的PG内部的接口,因此很难一行行代码来介绍(上周一个QA同事让我给他讲解代码,被善意的拒绝了。主要是觉得这个完全不可行,因为本身代码...
109
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库(六)
ppg_fdw:如何使用pgsql构建mpp数据仓库(六)对orderby和limit的处理对于某些SQL来说,最后需要处理的operator就是orderby以及limit。例如下面这个SQL:selectl_returnflag,l_linestatus,sum(l_quantity)assum...
61
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库(五)
ppg_fdw:如何使用pgsql构建mpp数据仓库(五)子查询的处理说实话,本人在没看PG之前,一直看mysql的文档里面讲子查询,什么From、drived子查询啥的,一直晕乎乎的。但是在看了PG代码之后,终于感觉略微明白了点。具体说来,SQL里面,出现在rtable里面的子查询才可以称为是su...
58
热度 -
[数据仓库] ppg_fdw:怎么使用pgsql构建mpp数据仓库(四)
ppg_fdw:如何使用pgsql构建mpp数据仓库(四)Join的处理Join的处理在数据库中占有相当重要的地位。一般来说,在查询优化阶段,PGSQL会首先调用reduce_outer_joins函数来尽量消灭外连接:例如将全外连接转成左、右外连接(或者反左右连接)甚至是内连接,将左右外连接转化成...
106
热度 -
[数据仓库] 《BI那一星半点事》数据挖掘各类算法——准确性验证
《BI那点儿事》数据挖掘各类算法——准确性验证准确性验证示例1:——基于三国志11数据库数据准备:挖掘模型:依次为:NaiveBayes算法、聚类分析算法、决策树算法、神经网络算法、逻辑回归算法、关联算法提升图:依次排名为:1.神经网络算法(92.69%0.99)2.逻辑回归...
61
热度 -
[数据仓库] 《BI那丁点儿事—数据的艺术》理解维度数据仓库——事实表、维度表、聚合表
《BI那点儿事—数据的艺术》理解维度数据仓库——事实表、维度表、聚合表事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。SateProductMouthUnitsDoll...
82
热度