综合相关的解决方案

当前位置：代码迷 >> 综合

综合异常解决方案列表

[综合] Hadoop切分纯文本时对某一行跨两个分片这种情况的处理
hdfs写入文件需要把大文件分割成多个块，那么有可能会把文件的某一个行分成在不同的块中；这是一个出现分块的时候。还有个就是我的上篇博文中说到的，在mapreduce处理时，当hdfs分块的block大小大于split设置的最大值时也会分割成多个split分片，相当于对块的进一步切割。但是这两种情况出...

29
热度
[综合] Sqoop全量数据导入、增量数据导入、并发导入
Sqoop支持两种方式的全量数据导入和增量数据导入，同时可以指定数据是否以并发形式导入。下面依次来看：全量数据导入全量数据导入就是一次性将所有需要导入的数据，从关系型数据库一次性地导入到Hadoop中（可以是HDFS、Hive等）。全量导入形式使用场景为一次性离线分析场景。用sqoopimpor...

88
热度
[综合] Hive参数配置及数据类型
1．查看当前所有的配置信息hive>set;2．参数的配置三种方式（1）配置文件方式默认配置文件：hive-default.xml用户自定义配置文件：hive-site.xml注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启...

77
热度
[综合] Hive数据导入与导出
1.向表中装载数据（Load）基本语法 hive>loaddatalocalinpath '/opt/module/datas/student.txt' [overwrite]intotablestudent[partition(partcol1=val1,…)]; （1）loadda...

49
热度
[综合] 理解Hive开窗函数（窗口函数）
一.原始数据 jack,2017-01-01,10tony,2017-01-02,15jack,2017-02-03,23tony,2017-01-04,29jack,2017-01-05,46jack,2017-04-06,42-tony,2017-01-07,50jack,2017-01-08,...

35
热度
[综合] Linux shell条件判断if中的-a到-z的意思
[-aFILE]如果FILE存在则为真。[-bFILE]如果FILE存在且是一个块特殊文件则为真。[-cFILE]如果FILE存在且是一个字特殊文件则为真。[-dFILE]如果FILE存在且是一个目录则为真。[-eFILE]如果FILE存在则为真。[-fFILE]如果FILE存在且是一个普通文件则为...

104
热度
[综合] Hadoop集群手动小文件存档
1、HDFS存储小文件弊端每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个1MB的文件设置为128MB的块存储，实际使用的是1MB...

79
热度
[综合] MapReduce企业优化
MapReduce程序效率的瓶颈在于两点： 1.计算机性能CPU、内存、磁盘健康、网络2.I/O操作优化（1）数据倾斜（2）Map和Reduce数设置不合理（3）Map运行时间太长，导致Reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）Spill次数过多（7）Merge次数过多...

34
热度
[综合] Kafka的ack机制
ack=0/1/-1的不同情况：0：producer不等待broker的ack，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前le...

86
热度
[综合] Kafka消费者高级API
优点：高级API写起来简单不需要自行去管理offset，系统通过zookeeper自行管理不需要管理分区，副本等情况，系统自动管理消费者断线会自动根据上一次记录在zookeeper中的offset去接着获取数据；可以使用group来区分对同一个topic的不同程序访问分离开来（不同的gro...

94
热度
[综合] Kafka拦截器（interceptor）功能
Producer拦截器(interceptor)是在Kafka0.10版本被引入的，主要用于实现clients端的定制化控制逻辑。对于producer而言，interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求，比如修改消息等。同时，producer允许...

36
热度
[综合] Hive自定义UDTF解析Json串
用于解析et事件的Json字符串 Maven依赖如下： <properties><project.build.sourceEncoding>UTF8</project.build.sourceEncoding><hive.version>1.2.1&l...

53
热度
[综合] 业务知识储备
业务术语用户用户以设备为判断标准，在移动统计中，每个独立设备认为是一个独立用户。Android系统根据IMEI号，IOS系统根据OpenUDID来标识一个独立用户，每部手机一个用户。新增用户首次联网使用应用的用户。如果一个用户首次打开某app，那这个用户定义为新增用户；卸载再安装的设备，不会被...

50
热度
[综合] HIVE中的from_unixtime函数
hive中的from_unixtime()函数，可以把时间戳格式的时间，转化为年月日时分秒格式的时间。 from_unixtime的参数要求为整数，且单位为秒。如果从业务系统拿到的时间戳格式的时间单位为毫秒，则需要先将它转化为秒，方法如下 from_unixtime(int(timestamp_i...

81
热度
[综合] 什么是退化维度
什么是退化维度（DegenerateDimension,DD），就是那些看起来像是事实表的一个维度关键字，但实际上并没有对应的维度表，其中，事实表的粒度就是文档本身或文档中的一个分列项。具体怎么理解呢？在传统的父子关系型数据库中，事务编号是事物标题记录的关键字，比如订单编号、发票编号，这样的纪录包含...

17
热度
[综合] 理解flume hdfs sink round 和roll
我们在配置flumehdfssink的时候注意这两个配置项，比如： collector1.sinks.sink_hdfs.hdfs.rollSize=2048000000 collector1.sinks.sink_hdfs.hdfs.rollCount=0 collector1.sinks.sin...

119
热度
[综合] 快排算法用java实现
importjava.util.Arrays;//手写快速排序 publicclassQuickSort{publicstaticvoidmain(String[]args){int[]arr={2,4,8,3,5,9,1};System.out.println(Arrays.toString(ar...

12
热度
[综合] RDD的转换算子（Value类型）
Value类型： map(func) mapPartitions(func) mapPartitionsWithIndex(func) flatMap(func) map()和mapPartition()的区别 map()：每次处理一条数据。 mapPartition()：每次处理一个分区的数...

23
热度
[综合] [spark] 调度模式（FIFOFAIR）
前言spark应用程序的调度体现在两个地方，第一个是Yarn对spark应用间的调度，第二个是spark应用内（同一个SparkContext）的多个TaskSetManager的调度，这里暂时只对应用内部调度进行分析。spark的调度模式分为两种：FIFO(先进先出)和FAIR(公平调度)。默认是...

74
热度
[综合] Spark的Action算子
reduce(func)通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据 collect()案例作用：在驱动程序中，以数组的形式返回数据集的所有元素 count()案例作用：返回RDD中元素的个数 first()案例作用：返回RDD中的第一个元素 take(n)案例作用：返...

29
热度

上一页 1 2...789878997900...8104 8105 下一页