AI 요약
글로벌 B2B 및 B2C 비즈니스를 지원하는 인터컴(Intercom)은 블랙 프라이데이, 대형 스포츠 이벤트 등 극단적인 트래픽 폭증 상황 속에서도 시스템을 안정적으로 유지하기 위한 확장성(Scaling) 설계 철학을 공유했습니다. 현재 인터컴은 최고 피크 시점에 초당 150,000개 이상의 사용자 요청과 초당 70,000개 이상의 백그라운드 비동기 요청을 소화하고 있으며, 가장 바쁜 요일에는 일일 500만 건 이상의 대화와 1억 건 이상의 댓글을 막힘없이 처리해 내고 있습니다. 이러한 대규모 트래픽을 감당하는 비결로 인터컴은 AWS의 S3, 로드 밸런서, 대기열(Queue)과 같이 검증되고 안정적인 기술 인프라를 사용하는 '지루한 기술 기초(Boring Foundations)' 전략을 꼽았습니다. 자체적인 시스템 재개발에 리소스를 낭비하지 않고 '더 적은 소프트웨어를 실행(Run less software)'하여 엔지니어들이 서비스 핵심 로직과 고객 가치 창출에 전념하도록 한 것입니다. 궁극적으로 이들은 단순 무상태(Stateless) 웹 서버 확장을 넘어, 시스템 확장의 가장 큰 병목이자 '단일 진실 공급원'인 데이터베이스 영역의 한계를 선제적으로 측정하고 지속적으로 넓혀나감으로써 성장을 가속화하고 있습니다.
핵심 인사이트
- 일일 최고 피크 트래픽 지표: 플랫폼 유입 요청은 초당 150,000건 이상, 백그라운드 시스템을 통한 비동기 요청은 초당 70,000건 이상을 안정적으로 처리합니다.
- 바쁜 주간의 대량 데이터 처리: 일주일 중 가장 트래픽이 몰리는 날에는 하루에 500만 건 이상의 대화와 1억 건 이상의 댓글 처리가 플랫폼 전체에서 이루어집니다.
- 단일 고객사 스파이크 대응 능력: 플랫폼 전체 트래픽뿐 아니라 특정 단일 작업 공간(Workspace)에서 발생하는 초당 수백 개의 댓글이나 초당 약 100개의 신규 대화 유입 스파이크도 무리 없이 격리하여 소화합니다.
- 검증된 인프라 활용 (Boring foundations): 자체적인 기본 물리 인프라 구축이나 커스텀 큐 시스템 재설계를 배제하고, 인프라의 강점을 가진 AWS(Amazon Web Services)의 검증된 기본 빌딩 블록(S3, 로드 밸런서 등)을 신뢰하고 사용합니다.
주요 디테일
- '소프트웨어 적게 실행하기(Run less software)' 원칙: 더 작고 정교한 기술 스택을 공유함으로써 제품 엔지니어링 전반에 걸친 도구 체인, 관찰 가능성(Observability), 운영 경험의 전문성을 극대화시킵니다.
- 인프라 비대화 방지: 기술 혁신이라는 명목으로 복잡하고 새로운 플랫폼 기술에 매몰되기보다, 비즈니스 특화 기능 및 고객 중심 제품 개선에 개발 리소스를 온전히 예약(Reserve)해 둡니다.
- 무상태(Stateless) vs 상태(Stateful)의 분리: 더 많은 머신 추가, 큐 컨슈머 확보, 캐시 적용으로 간단하게 확장이 가능한 무상태 웹 트래픽과 달리, 실제 확장 난이도가 극도로 높은 영역은 데이터베이스 계층임을 지목합니다.
- 선제적 한계점 이동(Moving the Limits): 모든 시스템에는 한계가 있음을 인정하고, 고객이 실제 임계 영역에 도달하기 전 시스템 한계를 정밀 측정하여 한계선을 뒤로 미뤄놓는(Scaling up) 지속적인 역량을 실천 중입니다.
향후 전망
- AI 기반 서비스 'Fin'의 안정적 운영 기반 마련: 인터컴의 차세대 AI 고객 에이전트인 Fin 등 점차 인공지능 인터랙션이 늘어나 대화의 복잡도가 증가하는 환경에서도 검증된 고확장성 인프라를 바탕으로 시장 경쟁 우위를 확보할 것입니다.
- 엔지니어 집중도 향상: 엔지니어들이 로우 레벨 인프라 유지 보수에서 벗어나 AI 및 서비스 고도화 등 고부가가치 개발 영역에 더 많은 리소스를 투자하여 지속적인 플랫폼 성장을 견인할 전망입니다.
