172173.com

参考资料

ES 的填坑经验。主要是关于集群恢复过程中,数据量过大,使用的是普通盘1T,最大的index 大概在50多g ,分片恢复并发数默认是2个,同时2个50g 分片同时恢复,IO吃不消,导致集群 hang 住的问题。

场景描述

线上ES 5台 8核24g 普通盘(事实证明,ES 还是要用ssd,不然数据量在大点就抗不住),通用型云主机。某台主机挂了,开始恢复,CPU会越来越大。最后整个集群卡死。