아메리칸 익스프레스: 회복 탄력성 높은 결제 시스템을 위한 셀 기반 아키텍처

아메리칸 익스프레스는 고가용성과 저지연 성능을 확보하기 위해 2018년부터 핵심 결제 시스템을 현대화하는 프로젝트를 시작했습니다. 이를 위해 마이크로서비스와 데이터베이스 등을 독립된 인스턴스 단위로 격리하는 '셀 기반 아키텍처(Cell-Based Architecture)'를 도입했습니다. 이 설계는 관리의 복잡성을 증가시키는 대신, 특정 셀의 장애가 전체 시스템으로 확산되는 범위(Blast Radius)를 제한하여 결제 시스템의 회복 탄력성을 크게 높여줍니다.

AI 요약

글로벌 금융 기업 아메리칸 익스프레스(American Express)는 전 세계 카드 회원과 파트너를 위해 고가용성, 저지연성, 예측 가능한 성능을 보장하는 핵심 결제 생태계의 현대화 과정을 공개했습니다. 2018년부터 시작된 이 여정은 클라우드 네이티브 기술을 도입하여 구성 요소 장애 발생 시에도 중단 없는 결제 처리가 가능한 아키텍처 구축을 목표로 삼았습니다. 이를 해결하기 위해 이들은 마이크로서비스, 데이터베이스 등을 '셀(Cell)'이라는 독립적인 단위로 그룹화하는 '셀 기반 아키텍처(Cell-Based Architecture)'를 도입했습니다. 각 셀은 완전히 독립적으로 작동하므로 특정 영역의 장애가 전체 플랫폼으로 확산하는 '장애 반경(Blast Radius)'을 혁신적으로 최소화합니다. 비록 관리 오버헤드와 아키텍처의 복잡성이 증가하는 절충안(Trade-off)이 존재하지만, 안정성이 최우선인 결제 시스템 특성상 복잡성보다 회복 탄력성(Resiliency) 확보의 이점이 훨씬 큽니다. 결과적으로 본 설계는 글로벌 규모의 미션 크리티컬 시스템이 클라우드 환경에서 어떻게 고도로 복잡한 장애를 극복하고 안정성을 유지할 수 있는지 보여주는 모범 사례를 제시합니다.

핵심 인사이트

  • 현대화 여정의 시작 (2018년): 아메리칸 익스프레스는 전 세계 회원들의 금융 거래를 무중단으로 처리하기 위해 2018년부터 핵심 결제 생태계의 현대화 및 클라우드 네이티브 전환을 본격화했습니다.
  • 셀 기반 아키텍처 도입: 시스템 장애의 확산을 방지하고 독립적인 생태계를 구축하기 위해, 마이크로서비스와 데이터베이스를 독립된 인스턴스 단위인 '셀(Cell)'로 묶는 아키텍처를 채택했습니다.
  • 장애 반경(Blast Radius)의 극적인 감소 (2026년 6월 11일 발표): 특정 셀에 문제가 발생하더라도 다른 셀의 결제 처리에는 전혀 영향을 주지 않는 구조를 완성하여, 시스템 전체의 회복 탄력성을 극대화했습니다.

주요 디테일

  • 완전한 독립성을 갖춘 셀(Cell) 구조: 각 셀은 자체적인 서비스와 로컬 데이터를 보유하고 있어, 다른 셀에 의존하지 않고 독립적으로 실시간 결제 승인 등의 트랜잭션을 처리합니다.
  • 장애 격리(Fault Isolation): 국소적인 결함이 시스템 전체로 퍼져 나가는 것을 차단할 수 있는 명확한 논리적·물리적 경계를 설정했습니다.
  • 지연 시간 최소화 및 용량 확장: 장애 복구(Recovery) 과정을 빠르고 예측 가능하게 설계하여 초고속 결제 처리 속도(Low Latency)를 유지하며, 장애 도메인의 확장 없이 개별 셀의 추가만으로 전체 용량을 손쉽게 스케일아웃(Scale-out)할 수 있습니다.
  • 복잡성과의 절충(Trade-off): 데이터의 지역화(Localization) 및 셀 간의 철저한 독립성을 유지하는 과정에서 인프라 관리의 오버헤드와 설계 복잡성이 가중되었으나, '결제 안정성'이라는 최우선 가치를 위해 이를 적극 수용했습니다.
  • 역사적 디자인 패턴의 계승: 아메리칸 익스프레스는 과거 '셀 기반 아키텍처'라는 용어가 대중화되기 전부터 유지해 온 자체 기술적 유산(Legacy)과 철학을 현대 클라우드 네이티브 환경에 맞춰 성공적으로 재해석했습니다.

향후 전망

  • 금융 업계의 아키텍처 표준 변화: 가용성이 생명인 글로벌 핀테크 및 이커머스 업계에서 대규모 마이크로서비스(MSA)의 한계를 극복하기 위한 대안으로 '셀 기반 아키텍처' 도입 검토가 급증할 것입니다.
  • 장애 반경 통제(Blast Radius Control) 기술의 고도화: 하이브리드 및 멀티 클라우드 환경의 복잡성이 심화됨에 따라, 시스템 전반의 연속성을 보장하기 위해 셀 단위를 제어하고 자동 복구하는 데브옵스(DevOps) 도구와 솔루션이 더욱 주목받을 것으로 예상됩니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...