当前位置: 代码迷 >> 综合 >> Ceph Monitor挂了之后对集群的影响
  详细解决方案

Ceph Monitor挂了之后对集群的影响

热度:14   发布时间:2024-01-09 03:27:09.0

目前,Ceph作为统一存储的解决方案,已经得到了许多互联网公司的广泛应用,而大家搭建的Ceph环境也大多参照了国内最早研究Ceph的OpenStack公司UnitedStack(有云)分享出来的方案:即数据3副本、3个monitor做高可用等。

Monitor相当于是Ceph集群的大脑,使用了3个做高可用防止单点故障的发生。经常有同事或者客户会问到一个问题:就是monitor最多能挂几个,集群就不能工作了?

答案是只能挂一个,原因是Monitor采用了Paxos的选举机制来实现多个之间的协调同步,而这中选举机制要求必须要有半数以上的成员存活的时候,整体才能对外提供服务。到底是这样吗?我通过以下测试得到了最终结论。

测试环境:
一个18个osd、3个mon的集群

测试目的:
1)确认挂掉一个mon对集群的影响
2)确认挂两个/三个mon之后,集群能否工作,进行读写
3)确认当mon恢复之后,集群能够恢复正常

测试过程:
1 确认挂一个mon对集群的影响
1)确认对IO的影响
在其中一台机器上通过$ fio -ioengine=rbd -rw=randwrite -name=ebs -thread -pool=metadata -d