글로벌 클라우드 장애로 워크스페이스 스포티파이 디스코드 흔들린 하루

글로벌 클라우드 장애로 워크스페이스 스포티파이 디스코드 흔들린 하루

점심 시간 직전, 화면이 얼어붙자 회의실 공기가 싸늘해졌지요.
채팅 알림이 끊기고 음악이 멈추면서 “설마 전원이 나갔나?” 하는 순간이 있었어요.
알고 보니 구글 클라우드가 비틀거리며 도미노처럼 여러 서비스가 쓰러졌습니다.

2025년 6월 12일 무슨 일이 있었을까요

협정 세계시 17시 50분쯤 구글 클라우드 내부 인증 파이프라인이 멈췄어요.
us‑central1을 비롯한 세 리전에서 토큰 재발급이 중단됐고, 클라우드 스토리지와 아이덴티티 플랫폼이 연쇄 오류를 냈지요.
같은 시각 클라우드플레어 Workers KV도 잠시 정지하며 WARP 인증이 흔들렸고, 다운디텍터 그래프가 절정에 달했어요.
스포티파이는 4만 6천 건, 디스코드는 1만 건 넘는 신고가 쏟아졌고 사용자들은 “인터넷이 끊겼나?” 하고 당황했지요.

토큰 하나가 거대한 구름을 흔든 이유

마이크로서비스는 마치 러시아 인형처럼 겹겹이 쌓여 있어요.
인증 토큰이 만료되자 SDK가 재시도했고, 재시도가 폭주해 메시 네트워크가 포화됐지요.
건강 검사가 노드를 제외하자 로드밸런서가 다른 리전에 과부하를 전가했고 결과적으로 모든 사용자가 503 오류를 받았어요.

숫자로 보는 현장

서비스 최고 신고 수 90 % 복구 시간
구글 클라우드 14 729 2시간 37분
스포티파이 46 102 3시간 2분
디스코드 10 992 2시간 55분

이 숫자마다 놓친 영상 면접, 지연된 식료품 주문, 멈춘 네스트 온도조절기가 숨어 있어요.

“도구를 만드는 순간 도구가 사람을 만든다”는 맥루언 말처럼, 어제 도구는 침묵을 요구했고 사용자는 멈춰 섰어요.

현장에서 들은 목소리

엔지니어 무전 로그를 살피던 중 누군가 “BGP 루프?”를 외쳤지만 실제 원인은 IAM 폭주였어요.
고객센터 혼선 1단계 스크립트가 DNS 플러시를 권유했지만 효과가 없으니 이월 문의가 폭증했지요.
비즈니스 영향 한 전자상거래 업체는 결제 중복을 막으려 결제 게이트를 일시 중지했어요.

중복 구성만으로는 회복 탄력성을 보장할 수 없어요.
제어 plane이 느려져도 올바르게 작동하도록 설계하는 것이 무엇보다 중요해졌습니다.

궁금한 점을 쉽게 풀어봤어요

Q 클라우드플레어가 원인이었을까요

아니에요. 두 장애가 동시에 일어났을 뿐, 서로 직접 연결돼 있지는 않았어요.


Q 멀티 리전 배포면 안전할까요

상태 데이터와 인증 엔드포인트까지 분산해야 진짜 효과가 있어요.


Q DNS 변경이 도움이 됐을까요

이번 문제는 인증과 스토리지 레이어에서 발생해 DNS 수정은 효과가 없었어요.


Q 구글 미트가 가장 늦게 복구된 이유는

영상 브리지는 ICE 자격 증명을 다시 모아야 해서 시간이 더 걸려요.


Q 구글이 밝힌 재발 방지책은

IAM 회로 차단기와 리전 중립 서명 키를 도입한다고 밝혔어요.


Q 소셜 로그인 의존성은 계속 위험할까요

이메일 링크나 자체 계정을 준비해야 비상시에 버틸 수 있어요.


장애는 불편했지만 취약점을 드러내는 고마운 리허설이었어요.
이번 경험을 교훈 삼아 설계를 다듬는다면 다음 정전은 짧은 커피 타임으로 끝날 거예요.

대규모 장애가 드러낸 클라우드 의존성의 민낯

클라우드 장애, 구글 클라우드, 스포티파이 다운, 디스코드 오류, 클라우드플레어 KV, 서비스 회복, IAM 토큰, 멀티 리전, 회복 탄력성, 인증 시스템

Post a Comment

Previous Post Next Post

POST ADS 2