-
[数据仓库] SqlServer与Oracle的比较哪个更适合这个系统?解决方案
SqlServer与Oracle的比较哪个更适合这个系统?一个大型的系统,里边需要海量的资源,如果用记录条数来说,可能初期其中主要的一张客户设备信息表需要300万条记录;随着业务的扩充,我们希望最终达到不超过1000万条记录的个系统.这个主表,要与很多的细表相关联,在一定条件下会产生并发(需要更多的...
94
热度 -
[数据仓库] 学数据仓库是用C++还是java?仍是sql
学数据仓库是用C++还是java?还是sql?我只会c++不会java有一门数据仓库的课想选,但是这个课对找工作有帮助吗?我知道数据库的课对找工作很重要。谢谢------解决方案--------------------当然可以选了。数据仓库是SQL------解决方案----------------...
119
热度 -
[数据仓库] 仪表盘、记分卡报表概念解决办法
仪表盘、记分卡报表概念仪表盘dashboard,记分卡的概念是什么样的?一般含糊不清------解决方案--------------------仪表盘:对于仪表盘来说,有一件事是很明显的:每个人都需要它!不幸的是,它可以显示什么内容,它是如何被制作的,它的数据是如何被更新的,以及它如何被无缝的与其他...
63
热度 -
[数据仓库] 大家伙儿开发过的系统,单表数据记录多少呢?什么数据库呢
大家开发过的系统,单表数据记录多少呢?什么数据库呢?大家开发过的系统,单表数据记录多少呢?什么数据库呢?我用的ORACEL,当时单表最大记录大概是200万左右。------解决方案--------------------ORACLE,单表365*2*10,000记录。这种大型的一般都是生产是重要的数...
27
热度 -
[数据仓库] Thinking in BigDate(10)大数据之数据挖掘技术(1)
ThinkinginBigDate(十)大数据之数据挖掘技术(1)当大数据谈到这里,已经废话加有用的话一大堆。就离那一步实施还是差这一点距离。在上篇博客或以前的博客,我们谈到,我们的定位,是将传统数据挖掘的数据转移到达数据平台上去处理,去节省时间,节省资源。但问题是,当我们没有这么大的数据,或我们有...
76
热度 -
234
热度 -
[数据仓库] 数据仓库里的订单主从表的格式是如何样的
数据仓库里的订单主从表的格式是怎么样的?业务表是主从结构的存到数据库也是主从结构吗?------解决方案--------------------看情况,微软的事例里面是建在一张事实表上的,然后对该表划分层次,最后自身做事实维度
114
热度 -
[数据仓库] Thinking in BigDate(12)大数据之有指点数据挖掘方法模型序(3)
ThinkinginBigDate(12)大数据之有指导数据挖掘方法模型序(3)接着上面博客继续探讨:有指导数据挖掘方法模型步骤5、修复问题数据所有数据都是脏的。所有的数据都是有问题。究竟是不是问题有时可能随着数据挖掘技术的变化而变化。对于某些技术,例如决策树,缺失值和离群点并不会造成...
71
热度 -
[数据仓库] 关于数据仓库提议、感想
关于数据仓库建议、感想现代数据仓库之父,WilliamH.Inmon大师的著作:《数据仓库(BuildingtheDataWarehouse)》定义:数据仓库是:面向主题的、集成的、稳定的、面向时间的数据集合。数据平台之问(当前问题现象)需求响应慢数据质量不可靠数据不可信维护成本高数据安全不可控数据...
55
热度 -
[数据仓库] 数据挖掘学习笔记-决策树C4.5
数据挖掘学习笔记--决策树C4.5在网上和教材上也看了有很多数据挖掘方面的很多知识,自己也学习很多,就准备把自己学习和别人分享的结合去总结下,以备以后自己回头看,看别人总还是比不上自己写点,及时有些不懂或者是没有必要。定义:分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习说白...
52
热度 -
[数据仓库] 關於數據庫服務器問題,该怎么处理
關於數據庫服務器問題做一個大小在1T左右的數據庫服務器,用asp.net技術實現分析數據的展示,問下服務器用X3850,12顆15000轉的RD,服務器設備的投入大概是30萬人民幣,這樣的投入能否滿足要求啊,小弟不太會評估,求意見------解决方案--------------------OLTPO...
55
热度 -
[数据仓库] 数据挖掘学习笔记之人工神经网络(1)
数据挖掘学习笔记之人工神经网络(一)由于本人这段时间在学习数据挖掘的知识,学习了人工神经网络刚好就把学习的一些笔记弄出来,也为以后自己回头看的时候方便些。神经网络学习方法对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法。对于某...
136
热度 -
[数据仓库] 数据挖掘学习笔记之人工神经网络(2)
数据挖掘学习笔记之人工神经网络(二)多层网络和反向传播算法我们知道单个感知器仅能表示线性决策面。然而我们可以将许多的类似感知器的模型按照层次结构连接起来,这样就能表现出非线性决策的边界了,这也叫做多层感知器,重要的是怎么样学习多层感知器,这个问题有两个方面:1、要学习网络结构;2、要学...
69
热度 -
[数据仓库] 大块头哥的大数据之路(8)- 数据仓库命名规范
胖子哥的大数据之路(8)-数据仓库命名规范引言:从对大数据的狂热到理性的回归,项目实施起到了醍醐灌顶的作用,大数据技术只能作为一种IT基础架构(存储+运算),而实际的工程化实施,还是要回归到IT传统技术,最近在整合大数据时代的数据仓库框架,希望能有更多的人参与进来。数据仓库实施数据模型的组织...
96
热度 -
[数据仓库] 数据挖掘十大算法-EM算法(最大期待算法)
数据挖掘十大算法----EM算法(最大期望算法)概念在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariable)。最大期望经常用在机器学习和计算机视觉的数据...
42
热度 -
[数据仓库] 2. Referrence
【数据挖掘】分类之knn1.算法简介knn的思想很简单:计算待分类的数据点与训练集所有样本点,取距离最近的k个样本;统计这k个样本的类别数量;根据多数表决方案,取数量最多的那一类作为待测样本的类别。距离度量可采用Euclideandistance,Manhattandistance和cosine。用...
207
热度 -
[数据仓库] 数据挖掘十大算法-K比邻算法
数据挖掘十大算法--K近邻算法k-近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。一、基于实例的学习。1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。从这些实例中泛化的工作被推迟到必须分类新的实...
117
热度 -
[数据仓库] 【数据挖掘】分门别类之decision tree
【数据挖掘】分类之decisiontree1.ID3算法ID3算法是一种典型的决策树(decisiontree)算法,C4.5,CART都是在其基础上发展而来。决策树的叶子节点表示类标号,非叶子节点作为属性测试条件。从树的根节点开始,将测试条件用于检验记录,根据测试结果选择恰当的分支;直至到达叶子节...
90
热度 -
[数据仓库] 数据挖掘十大算法-K-均值聚类算法
数据挖掘十大算法--K-均值聚类算法一、相异度计算在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度...
208
热度 -
[数据仓库] 2.Referrence
【数据挖掘】分类之NaïveBayes1.算法简介朴素贝叶斯(NaiveBayes)是无监督学习的一种常用算法,易于实现,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑。本文以拼写检查作为例子,讲解NaiveBayes分类器是如何实现的。对于用户输入的一个单词(words),拼写检查...
116
热度