-
112
热度 -
608
热度 -
620
热度 -
572
热度 -
533
热度 -
[数据仓库] 科普文—常见的45个有关问题解答(数据挖掘之Hadoop)
科普文—常见的45个问题解答(数据挖掘之Hadoop)Hadoop科普文—常见的45个问题解答?Hadoophadoop工作linux?1.Hadoop集群可以运行的3个模式?????单机(本地)模式?????伪分布式模式?????全分布式模式2.??单机(本地)模式中的注意点?在单机模式(stan...
130
热度 -
[数据仓库] 【数据挖掘导论】——导言
【数据挖掘导论】——绪论数据挖掘导论读书笔记之绪论数据挖掘的前提:数据收集和数据存储技术的快速进步。数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。数据挖掘是在大型数据存储库中,自动的发现有用信息的过...
153
热度 -
[数据仓库] 续前篇-数据挖掘之聚类算法k-mediod(PAM)原理及实现
续前篇---数据挖掘之聚类算法k-mediod(PAM)原理及实现上一篇博文中介绍了聚类算法中的kmeans算法.无可非议kmeans由于其算法简单加之分类效率较高已经广泛应用于聚类应用中.然而kmeans并非十全十美的.其对于数据中的噪声和孤立点的聚类带来的误差也是让人头疼的.于是一种基于Kmea...
113
热度 -
[数据仓库] 数据挖掘之clara算法原理及范例(代码中有bug)
数据挖掘之clara算法原理及实例(代码中有bug)继上两篇文章介绍聚类中基于划分思想的k-means算法和k-mediod算法本文将继续介绍另外一种基于划分思想的k-mediod算法-----clara算法clara算法可以说是对k-mediod算法的一种改进,就如同k-mediod算法对k-me...
44
热度 -
[数据仓库] 数据挖掘之分类算法-knn算法(有matlab例证)
数据挖掘之分类算法---knn算法(有matlab例子)knn算法(k-NearestNeighboralgorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法必然包括了训练过程.然而和一般性的分类算法不同,knn算法是一种懒惰算法.它并非像其他的分类算法先通过训练建立分类模型...
59
热度 -
[数据仓库] 【数据挖掘导论】——数据品质
【数据挖掘导论】——数据质量数据质量数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的。因此数据常常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理);使用可以容忍低质量数据的算法。测量和数据收集问题完美的...
134
热度 -
[数据仓库] 数据挖掘-机器学习:Kmean聚类思维
数据挖掘-机器学习:Kmean聚类思想一、概述?????数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些...
131
热度 -
[数据仓库] 数据挖掘-基于dom树的网页属性抽取步骤应用
数据挖掘-基于dom树的网页属性抽取方法应用提纲???一、简介???二、应用举例???三、思想???四、实现???五、html-Dom树特征?一、简介????基于Dom树的抽取技术根据html网页所具有的树形层次结构特征来实现html网页中的数据抽取。其系统通常先把html网页结构按照其中的html...
41
热度 -
[数据仓库] 数据挖掘算法学习(1)K-Means算法
数据挖掘算法学习(一)K-Means算法博主最近实习开始接触数据挖掘,将学习笔记分享给大家。目前用的软件是weka,下篇文章会着重讲解。算法简介:K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似...
75
热度 -
[数据仓库] Teradata 系统表,该怎么解决
Teradata系统表请问Teradata系统表有没有类似于DB2或ORACLE一样的系统表,能通过查询系统表把一些业务表的表结构信息全部查出来的譬如说通过系统表能查出schema,table,column,typename,length,scale,default,nulls,PK,FK,Inde...
278
热度 -
[数据仓库] 数据挖掘算法学习(4)PCA算法
数据挖掘算法学习(四)PCA算法算法简介主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。主要用于对特征进行降维。算法假设数据的概率分布满足高斯分布或是指数型的概率分布。方差高的向量视为主元。算法输入包含...
140
热度 -
461
热度 -
[数据仓库] bi前端呈现技术,可以集成到web项目 olap展现 开源olap前端技术
bi前端展现技术,可以集成到web项目olap展现开源olap前端技术我查了很多开源的项目,都不支持现有的报表升级。现在报表前端是用ext3.0,我们想把前端换了,因为目前只能做到二维,三维、思维更多维层次、多事实源的复合报表不能做到。我们的要求是:照雪花模型的设计模式建立数据模型,在此数据模型基础...
82
热度 -
[数据仓库] 数据库疑难杂症,该怎么处理
数据库疑难杂症请问各路高人,我的第一个表是由后面四个表用join方式连接起来的,第一个表的后面记录前面属性为什么是空的呢。这些都是由临时表,求指教,快崩溃了,这问题难倒我了解,谢谢。ChainIDSubChainIDCreateTimeCCCntcnt------------------------...
84
热度 -
[数据仓库] 数据挖掘算法 急需的知识
数据挖掘算法需要的知识主要是数据挖掘算法有分类,有bayes、决策树、svm等;聚类,有K-means、isodata等;关联,有apriori和改进的apriori算法,序列分析等方面的算法。这些都是正统的,基于数据库的数据挖掘必备知识。如果是基于web的,则最好还知道海量网页爬虫、网页结构解析、...
89
热度