[상황]
상용 Redis가 정상동작 하지 않아 모니터링 지표를 확인해보니, 아래와 같은 현상을 확인했습니다.
<현재 연결 수 지표>
이미지를 보면 04시 34분 ~ 37분까지 3대의 인스턴스의 현재 연결 수가 떨어진걸 확인할 수 있습니다.
<현재 항목 수 지표>
04시 34분에 3대의 인스턴스의 항목수가 전부 0개가 된 후, 37분부터 primary 부터 순차적으로 다시 캐싱되는걸 확인할 수 있습니다.
<복제 바이트 지표>
각 인스턴스가 살아나는 시점에 데이터 복제가 발생하는것을 확인할 수 있습니다.
[원인]
Redis 생성 시 유지관리 차원에서
엔진 마이너 버전 자동 업그레이드 옵션을 활성화 하였고,
업그레이드가 필요하다면, 월요일 새벽 4시 30분부터 진행되게 설정을 해두었습니다.
이 설정으로 인해,
9월 27일 04시 30분에 마이너 버전 업그레이드가 실행되었고, 이로 인해 일시적으로 다운타임이 발생한것으로 확인했습니다.
엔진 버전 업그레이드 시,
기존 인스턴스를 죽이고, 새로운 버전의 인스턴스를 생성하고 데이터를 복제하는 과정을 거치는것 같습니다.
<특이사항>
Network Bytes IN/OUT 지표가 이전과는 비교할 수 없을 정도로 증가하고, 각 인스턴스의 수치가 동일하게 증가합니다.
이 현상은 엔진 업데이트 시 발생하는 현상으로 보이는데, 정확한 메커니즘은 확인이 어렵습니다.
이런 현상이 발생할 수 있다 정도만 인지하고 넘어가도록 하겠습니다.
[대응]
Redis 설정에서 마이너 버전 자동 업그레이드 옵션을 비활성화했습니다.
'개발 > AWS' 카테고리의 다른 글
AWS EC2Local port 고갈 인한 서비스 장애 (0) | 2023.03.13 |
---|---|
AWS ElastiCache Evictions로 인한 데이터 삭제 (0) | 2023.02.02 |
AWS RDS Too many max_connections 장애 (0) | 2023.01.31 |
AWS RDS 워크로드 불균형으로 인한 로드밸런싱 장애 (0) | 2023.01.31 |
AWS RDS 장애 조치(fail-over)를 이용한 무중단 스케일업 (0) | 2023.01.31 |