-
[数据仓库] 数据挖掘算法之关联规则开掘(一)apriori算法
数据挖掘算法之关联规则挖掘(一)apriori算法关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用举个简单的例子如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥而这...
94
热度 -
[数据仓库] 数据仓库课题(6)-数据仓库、主题域、主题概念与定义
数据仓库专题(6)-数据仓库、主题域、主题概念与定义一、数据仓库关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)一书中所提出:中文定义:数据仓库是一个面向主题的、集...
324
热度 -
[数据仓库] 数据挖掘之决策树算法ID3算法的有关原理
数据挖掘之决策树算法ID3算法的相关原理ID3决策树:针对属性选择问题,是决策树算法中最为典型和最具影响力的决策树算法。ID3决策树算法使用信息增益度作为选择测试属性。其中p(ai)表示ai发生的概率。假设有n个互不相容的事件a1,a2,a3,….,an,它们中有且仅有一个发生,则其平均的信息量可如...
114
热度 -
[数据仓库] 每天定时导入hive数据仓库的自动化脚本
每日定时导入hive数据仓库的自动化脚本[Author]:kwu每日定时导入hive数据仓库的自动化脚本创建shell脚本,创建临时表,装载数据,转换到正式的分区表中:#!/bin/sh#uploadlogstohdfsyesterday=`date--date='1daysago'...
128
热度 -
142
热度 -
[数据仓库] 数据仓库课题(8)-维度属性选择之维护历史是否应该保留
数据仓库专题(8)-维度属性选择之维护历史是否应该保留一、背景数据仓库建模过程中,针对事务型事实表设计,经常会遇到维度属性选择的问题,比如客户维度,在操作型系统中,为了跟踪客户状态的变化,往往会附加客户记录的四个属性:1.addtime:添加时间;2.adduser:添加用户;3.modtime:修...
79
热度 -
[数据仓库] 数据仓库简介-数据集市
数据仓库简介---数据集市一、数据集市定义??数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。这种数据集市开发周期一般较短...
78
热度 -
100
热度 -
[数据仓库] hadoop学习(Map、Reduce、日志分析跟数据挖掘、大数据处理)
hadoop学习(Map、Reduce、日志分析和数据挖掘、大数据处理)对于hadoop,我也处于了解学习中,参考大量资料,现在同大家分享下学习内容。Hadoop是Apache下的一个项目,由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。其中,HDFS和MapRe...
223
热度 -
[数据仓库] 数据仓库顺利的评价标准
数据仓库成功的评价标准在北京年会上我曾向Sybase公司的卢总监提问过关于数据仓库项目的失败率太高的问题,来表达数据仓库不仅仅是数据存储问题,而是一整套方案和方法论的问题;卢总监的回答是数据仓库的失败率并非80%都是失败的,很多项目介于成功失败之间;数据仓库项目实施周期比较长,不容易看到成果;其次有...
142
热度 -
[数据仓库] 【地质空间数据挖掘】关联规则发现
【地理空间数据挖掘】关联规则发现关联规则是当前数据挖掘研究的主要方法之一,主要用于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阀值的多个域之间的依赖关系。在时空分析中,除了经典因子之间的关联(简单关联、时序关联和因果关联等)规则的发现,关联规则分析还可用于探索上下不同事件之间的关联性,如...
117
热度 -
[数据仓库] kaggle数据挖掘——以Titanic替例介绍处理数据大致步骤
kaggle数据挖掘——以Titanic为例介绍处理数据大致步骤Titanic是kaggle上的一道justforfun的题,没有奖金,但是数据整洁,拿来练手最好不过。本文以Titanic的数据,使用较为简单的决策树,介绍处理数据大致过程、步骤注意,本文的目的,在于帮助你入门数据挖掘,熟悉处理数据步...
135
热度 -
[数据仓库] 数据挖掘十大经典算法之K最比邻算法
数据挖掘十大经典算法之K最近邻算法k-最近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。基于实例的学习已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。从这些实例中泛化的工作被推迟到必须分类新的实例时...
151
热度 -
[数据仓库] 浅谈数据挖掘中的关联规则开掘
浅谈数据挖掘中的关联规则挖掘数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子,比如通过调查商场里顾客买的东西发现,30%的顾客会同时...
136
热度 -
[数据仓库] 常见的机器学习与数据挖掘知识点之常见遍布
常见的机器学习与数据挖掘知识点之常见分布常见的机器学习与数据挖掘知识点之常见分布CommonDistribution(常见分布):DiscreteDistribution(离散型分布):0-1Distribution(0-1分布)定义:若随机变量X只取0和1两个值,且其分布律为P{X=k}=pk(1...
153
热度 -
[数据仓库] [数据挖掘与处置]微型自动数据处理系统构造
[数据挖掘与处理]微型自动数据处理系统构造MADP(微型自动数据处理)系统的构造原理猜想如果我们把一个节点比喻成一个计算项,那么在一个复杂的,可自定义的分支汇聚拓扑结构图中,把这些微小的计算项结合在一起的,除了拓扑分析算法以外,还有就是用于传递计算项计算参数的寄存器模块了在这里,我们用最简单的语言来...
135
热度 -
[数据仓库] 关于OLTP跟OLAP的疑问
关于OLTP和OLAP的疑问网上的OLTP和OLAP资料很多,我也了解他们的内容和用途,但是对于实际的应用,还是无法结合,有几点疑问,恳请大家解惑1、我们平常设计数据库时,基本都是OLTP类型,而如果需要大数据量的查询,才考虑加入OLAP,是吗?2、如果目前有OLTP,现在需要加入OLAP,那么OL...
129
热度 -
[数据仓库] 日期维表的创造,事实表中有多个日期
日期维表的创建,事实表中有多个日期事实表中有多个日期,这个事实表的类型是事务粒度级,对这几个日期是要建几个日期维表吗,还是都关联一个日期维表就行------解决思路----------------------日期维度表一个就够------解决思路----------------------一个日期表...
82
热度 -
[数据仓库] 数据仓库课题(15)-数据仓库建设基本原则-实践篇(求补充)
数据仓库专题(15)-数据仓库建设基本原则-实践篇(求补充)数据仓库建设原则第一条:一切为就绪数据让路;数据仓库建设原则第一条:业务分析和数据分析深浅有度;数据仓库建设原则第二条:业务分析和数据分析深浅有度;数据仓库建设原则第三条:数据价值挖掘切莫求之过急,水到渠才能成;数据仓库建设原则第四条:团队...
103
热度 -
68
热度