-
[综合] Hive动态分区表导入数据时报错
主要报错信息如下: Fatalerroroccurredwhennodetriedtocreatetoomanydynamicpartitions.Themaximumnumberofdynamicpartitionsiscontrolledbyhive.exec.max.dynamic.parti...
22
热度 -
[综合] Linux下在文件内部指定行插入或删除内容
1、在文件的首行插入指定内容: sed-i"1i#!/bin/sh-"a 执行后,在a文件的第一行插入#!/bin/sh- 2、在文件的指定行(n)插入指定内容: sed-i"niecho"haha""a egg: sed-i"10ithisisatest"/etc/profile 在/etc/pr...
57
热度 -
[综合] spark sql优化:小表大表关联优化 union替换or broadcast join
----原语句(运行18min) SELECTbb.ipFROM(SELECTip,sum(click)click_num,round(sum(click)/sum(imp),4)user_click_rateFROMschema.srctable1WHEREdate='20171020'ANDip...
93
热度 -
[综合] [Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregate...
进行一个建表语句后mysql报错,主要信息如下: [Err]1055-Expression#1ofORDERBYclauseisnotinGROUPBYclauseandcontainsnonaggregatedcolumn'information_schema.PROFILING.SEQ'whic...
45
热度 -
[综合] Spark的Dataset操作(五)-多表操作 join
Spark的Dataset操作(五)-多表操作join 先看两个源数据表的定义: scala>valdf1=spark.createDataset(Seq(("aaa",1,2),("bbb",3,4),("ccc",3,5),("bbb",4,6))).toDF("key1","key2",...
23
热度 -
[综合] Spark 持久化(cache和persist的区别)
1、RDD持久化 Spark中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个RDD时,每个节点的其它分区都可以使用RDD在内存中进行计算,在该数据上的其他action操作将直接使用内存中的数据。这样会让以后的action操作计算速度加快(通常运行速...
96
热度 -
[综合] Spark读取Hive分区表出现Input path does not exist的问题!!
Hive读取正常,不会报错,Spark读取数据就会出现报错信息: org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist: hdfs://testcluster/user/hive/warehouse/.... 然后我...
27
热度 -
[综合] java读取Resources下文件及任意位置文件
1.从文件系统中读(配置文件位置随意指定) Propertiesp=newProperties(); p.load(newFileInputStream("D://Mycode//pro.properties")); Stringes_node=p.getProperty("es.node"); 2...
15
热度 -
[综合] Spark SQL中将 DataFrame 转为 json 格式
今天主要介绍一下如何将Sparkdataframe的数据转成json数据。用到的是scala提供的json处理的api。 用过SparkSQL应该知道,Sparkdataframe本身有提供一个api可以供我们将数据转成一个JsonArray,我们可以在spark-shell里头举个栗子来看一下。 ...
120
热度 -
[综合] ElasticSearch数据迁移之Reindex
应用背景: 当你的数据量过大,而你的索引最初创建的分片数量不足,导致数据入库较慢的情况,此时需要扩大分片的数量,此时可以尝试使用Reindex。 当数据的mapping需要修改,但是大量的数据已经导入到索引中了,重新导入数据到新的索引太耗时;但是在ES中,一个字段的mapping在定义并且导入数据...
110
热度 -
[综合] 解决hive表小文件过多问题
背景 前些时间,运维的同事反应小文件过多问题,需要我们去处理,所以想到是以何种手段去合并现有的小文件。我们知道Hadoop需要在namenode维护文件索引相关的metadata,所以小文件过多意味着消耗更大的内存空间。 过程 经过网上的调研发现通过hive表使用orc格式进行存储能够通过conca...
61
热度 -
[综合] Flume之MemoryChannel源码解读
一、MemoryChannel属性: 1.基本属性 //定义队列中一次允许的事件总数: privatestaticfinalIntegerdefaultCapacity=100; //定义一个事务中允许的事件总数: privatestaticfinalIntegerdefaultTransCapac...
41
热度 -
[综合] Alibaba Druid连接池中 maxActive,maxWait,maxAge,testOnBorrow,testWhileIdle等选项的作用...
1、连接池大小及性能选项 maxActive:最主要参数,配置连接池同时能维持的最大连接数,如果客户端理论上需要100个连接,则这个值设为100。 maxIdle:客户端一段时间内不需要使用连接,如果一直把所有连接池中的所有连接都维持在活动状态是很浪费资源的,如果客户端没有需求,那么最多维持max...
127
热度 -
[综合] Collections工具获取最大值和最小值
1.对于Collection的数据,可以使用Collections工具获取最大值和最小值。最大值和最小值的下标可以通过List的indexOf方法获取。2.对于Map的数据,可以先将Map的value转成Collection,然后通过Collections工具获取最大值和最小值。至于最大值和最小值的...
51
热度 -
[综合] mysql 用户管理及数据权限问题总结
1.远程登录mysqlmysql-hip-uroot-p密码2.创建用户格式:grant权限on数据库.*to用户名@登录主机identifiedby“密码”;例1:增加一个test1用户,密码为123456,可以在任何主机上登录,并对所有数据库有查询,增加,修改和删除的功能。需要在mysql的ro...
31
热度 -
[综合] preparedStatement执行各种语句的返回值
PreparedStatement的方法 execute()如果第一个结果是ResultSet对象,则返回true;如果第一个结果是更新计数或者没有结果,则返回false executeUpdate()1对于INSERT、UPDATE或DELETE语句,返回行数 2或者对于什么都不返回的SQL语句,...
83
热度 -
[综合] 一文彻底理解volatile
1.volatile简介 synchronized是阻塞式同步,在线程竞争激烈的情况下会升级为重量级锁。而volatile就可以说是java虚拟机提供的最轻量级的同步机制。但它同时不容易被正确理解,也至于在并发编程中很多程序员遇到线程安全的问题就会使用synchronized。Java内存模型告诉我...
55
热度 -
[综合] spark.driver.maxResultSize参数详解
参数含义及默认值: LimitoftotalsizeofserializedresultsofallpartitionsforeachSparkaction(e.g.collect).Shouldbeatleast1M,or0forunlimited.Jobswillbeabortedifthet...
83
热度 -
[综合] 大小写字母,数字,特殊字符中的至少3种.8位以上,正确返回true
publicstaticbooleanrexCheckPassword(Stringinput){//8-20位,字母、数字、字符StringregStr="^(?![a-zA-Z]+$)(?![A-Z0-9]+$)(?![A-Z\\W_]+$)(?![a-z0-9]+$)(?![a-z\\W_]+...
89
热度 -
[综合] shell 中tr用法讲解
tr(translate缩写)主要用于删除文件中的控制字符,或进行字符转换。 语法:tr[–c/d/s/t][SET1][SET2] SET1:字符集1 SET2:字符集2 -c:complement,用SET2替换SET1中**没有包含的字符** -d:delete,删除SET1中所有的字符,不转...
26
热度