-
[综合] Flink之WaterMarker详解
前言 对于流计算来说,最核心的概念就是无穷数据集,而用来处理无穷数据集的计算就可以称为流计算。面对无穷数据集,有多种多样的处理方式,但是大致上可以分为四类: 1、时间无关:最基础的场景就是Filter,我们只关心我们想要的数据,这跟数据源是否是无穷的、失序都没有关系了。2、近似算法:比如近似Top-...
25
热度 -
[综合] Kudu之Scala版本API
建表: //创建kudu连接 valkuduClient=newKuduClient.KuduClientBuilder("172.20.85.29:7051").build()//设置表名 valtableName="kudu_test"//创建列 valcolums=List[ColumnSch...
49
热度 -
[综合] Linux免密登录设置(22端口和非默认端口)
说明:本演示环境是居于CentOS的准备两台机器:192.168.1.218/192.168.1.219SSH为默认22端口的情况下设置在没有设置之前,每次登陆都是要询问并且需要输入密码 [root@data-01~]#ssh192.168.1.219 Theauthenticityofhost'1...
113
热度 -
[综合] Impala表导入kudu时遇到的问题
在hue上执行数据的重新导入:1、删除原先的kudu表:droptableevents;2、需要在impala里创建kudu新表: CREATETABLEevents(user_idSTRING,item_idSTRING,create_timeBIGINT,col_1STRING,col_12ST...
93
热度 -
[综合] Flink Streaming (DataStream API)之CheckPointing
Flink中的每个function和operator都可以是有状态的(有关详细信息请参阅有状态的运行)。有状态的functions通过处理各个元素/事件来存储数据,并把状态作为关键构建以支持任何类型更复杂的操作。为了使状态能够容错,Flink需要状态的检查点。Flink通过检查点恢复流中的状态和位置...
146
热度 -
52
热度 -
[综合] Shell 以逗号分隔符看每行有多少列数据
awk-F","'{printNF}'all_vars.csv|sort|uniq-c|sort-k2nr>b 以上这行是先得到每行数据的最后一列的列号码,排序,uniq-c或--count是在每行旁边显示该行重复出现的次数,再根据第2个字段倒序排序。最后得到的结果: 16407 15282 ...
45
热度 -
[综合] 一行命令实现代码行数统计
基本版find.-name"*.cpp"|xargswc-l|grep"total"|awk'{print$1}'find.-name"*.cpp"|xargscat|wc-l 去空行版find.-name"*.java"|xargscat|grep-v^$|wc-l上面的^$是正则表达式,^是以匹...
20
热度 -
[综合] Mysql主从错误:could not find first log file name in binary....
Mysql主从库不同步1236错误:couldnotfindfirstlogfilenameinbinarylogindexfile错误是主从的一个日志问题,我们只要简单的配置一下即可解决。 最近造成Mysql主从库不同步问题,主要是因为电脑断了一下电,从库日志中的错误: Last_IO_Error...
46
热度 -
[综合] canal Could not find first log file name in binary log index file
错误描述: 14:50:36.090[destination=example,address=/,EventParser] ERRORcom.alibaba.otter.canal.common.alarm.LogAlarmHandler-destination:example[java.io.IO...
75
热度 -
[综合] awk 打印匹配内容之后的指定行
1、awk匹配文档的某行内容,再打印某行内容之前或者之后的指定行 //先取出某行内容的行号,再基于此行号来打印某行内容之前或者之后的指定行 #catawk.txt 1aa 2bb 3cc 4dd 5ee 6ff 7gg //匹配"4dd"后,打印"4dd"后的第2行 #awk-vline=$(awk...
60
热度 -
[综合] flume采集rsync文件
flume现在我们常使用agent.sources.s1.type=TAILDIR的方式,就是采集文件末尾追加内容,然后发送kafka或者其他信息收集软件,rsync的一般参数rsync-avz并不是纯文件末尾追加内容的形式,所以flume在taildir采集的时候,每次rsync,都会导致agen...
37
热度 -
[综合] ElasticSearch 分片(Shards)的详解
分片重要性 ES中所有数据均衡的存储在集群中各个节点的分片中,会影响ES的性能、安全和稳定性,所以很有必要了解一下它。 分片是什么? 简单来讲就是咱们在ES中所有数据的文件块,也是数据的最小单元块,整个ES集群的核心就是对所有分片的分布、索引、负载、路由等达到惊人的速度 实列场景:假设IndexA...
58
热度 -
[综合] C、C++中字符串和字符指针之间的转换
1、CString和int之间的互相转化 CStringstr=_T("123");inti=_ttoi(str);inti=123;CStringstr;str.Format(_T("%d"),i) 2、CString和char* CStringstr("123");char*p=str.GetB...
52
热度 -
[综合] c++ memcpy 的使用
一共有四种情况使用memcpy,对于使用&还是不适用什么时候使用一直很困惑,虽然现在仍未全部清除,不过初步已经了解一些。果然还是对指针不熟悉,否则会理解的更好。 使用memcpy拷贝数组 intres2[5]={0};intres2_dest[5]={1,1,1,1,1};for(int...
118
热度 -
[综合] 亿级 Elasticsearch 性能优化
前言 最近一年使用Elasticsearch完成亿级别日志搜索平台「ELK」,亿级别的分布式跟踪系统。在设计这些系统的过程中,底层都是采用Elasticsearch来做数据的存储,并且数据量都超过亿级别,甚至达到百亿级别。 所以趁着有空,就花点时间整理一下具体怎么做Elasticsearch性能优化...
119
热度 -
[综合] sublime text 批量删除空白行
方法:1 CTRL+H打开replace功能,勾选上左侧的regularexpression,并填写 findwhat栏:\s+$(正则表达式) replacewith栏:(这行留空) 接着点replaceall即可 方法:2 点击菜单栏上的“Preferences”,找到“Setting-D...
74
热度 -
[综合] 详解shell中source、sh、bash、./执行脚本的区别
1、source命令用法: sourceFileName 作用:在当前bash环境下读取并执行FileName中的命令。该filename文件可以无"执行权限"注:该命令通常用命令“.”来替代。如: source.bash_profile ..bash_profile 两者等效 source(或点)...
65
热度 -
[综合] Canal读取MySQL数据报错
Canal同步MySQL报错:com.alibaba.otter.canal.meta.exception.CanalMetaManagerException:batchId:41isnotthefirstly:40 完整报错信息如下: ================>binlog[mysq...
28
热度 -
[综合] spark dataframe新增一列的四种方法
dataframe新增一列有如下四种常用方法:方法一:利用createDataFrame方法,新增列的过程包含在构建rdd和schema中方法二:利用withColumn方法,新增列的过程包含在udf函数中方法三:利用SQL代码,新增列的过程直接写入SQL代码中方法四:以上三种是增加一个有判断的列,...
83
热度