[굿모닝! AI 리포트] 구글, 개방형 경량 AI 모델 '젬마4' 공개…MS, 음성...

구글이 '제미나이3' 기술을 기반으로 매개변수 20억~310억 개 규모의 경량 AI 모델 '젬마4' 4종을 아파치 2.0 라이선스로 공개했으며, 마이크로소프트(MS)는 한국어를 포함한 25개 언어를 지원하는 'MAI' 모델 3종을 출시했습니다. 특히 젬마4 31B 모델은 '아레나' 리더보드 3위를 기록하고, MS의 'MAI-트랜스크라이브-1'은 '플뢰르' 벤치마크에서 최저 오류율을 달성하며 업계의 주목을 받고 있습니다.

AI 요약

구글과 마이크로소프트(MS)가 각각 경량화 및 개발자 특화 AI 모델을 선보이며 생성형 AI 시장의 주도권 경쟁을 이어가고 있습니다. 구글은 자사의 최신 기술인 '제미나이3' 연구를 바탕으로 제작된 개방형 AI 모델 '젬마4(Gemma 4)'를 전격 공개했습니다. 이번 모델은 기업들이 자유롭게 도입할 수 있도록 '아파치 2.0' 라이선스를 채택한 것이 특징이며, 소형 기기부터 고성능 서버까지 대응 가능한 4가지 크기로 구성되었습니다. 같은 시기 MS는 사티아 나델라 CEO를 통해 음성 전사, 음성 생성, 이미지 생성에 특화된 'MAI' 모델 제품군을 발표하며 개발자 생태계 확장에 나섰습니다. 양사의 이러한 행보는 고성능 대형 모델뿐만 아니라 효율성과 실용성을 강조한 중소형 및 특화 모델 시장의 중요성이 커지고 있음을 시사합니다.

핵심 인사이트

  • 젬마4의 압도적 성능: 젬마4 제품군 중 가장 큰 310억 개 매개변수(31B) 모델은 AI 성능 지표인 '아레나(Arena)' 리더보드에서 전체 3위에 오르는 성과를 거두었습니다.
  • MS의 한국어 지원 모델: 신규 공개된 'MAI-트랜스크라이브-1'은 영어와 한국어를 포함한 25개 언어를 지원하며, 업계 표준 지표인 '플뢰르(FLEURS)'에서 가장 낮은 오류율을 기록했습니다.
  • 개방형 라이선스 전략: 구글은 젬마4에 '아파치 2.0' 라이선스를 적용하여 타 기업들이 상업적 목적으로 제한 없이 모델을 도입하고 수정할 수 있도록 개방성을 극대화했습니다.
  • 초고속 음성 생성 기술: MS의 'MAI-보이스-1'은 단 몇 초의 샘플 데이터만으로 맞춤형 음성을 생성하며, 60초 분량의 고품질 오디오를 단 1초 만에 생성하는 처리 속도를 자랑합니다.

주요 디테일

  • 젬마4의 4가지 라인업: 매개변수 규모에 따라 2B(Effective), 4B(Effective), 26B(MoE), 31B(Dense) 등 네 가지 버전으로 제공되어 사용 환경에 따른 선택권을 제공합니다.
  • 온디바이스 AI 최적화: 젬마4의 소형 버전(2B, 4B)은 인터넷 연결이 없는 오프라인 상태에서도 스마트폰이나 소형 로봇 내부에서 독립적으로 구동 가능하도록 설계되었습니다.
  • 노이즈 캔슬링급 전사 능력: 'MAI-트랜스크라이브-1'은 콘서트장이나 시끄러운 카페와 같은 열악한 환경에서도 음성을 정확하게 인식하여 텍스트로 변환하는 성능을 보유하고 있습니다.
  • 비용 효율적 이미지 생성: 'MAI-이미지-2'는 성능 지표 최상위권의 품질을 유지하면서도 기존 모델 대비 낮은 가격으로 이미지를 생성할 수 있어 개발자의 비용 부담을 줄였습니다.
  • CEO 직접 발표: 지난 2일(현지시간) 사티아 나델라 MS CEO가 링크트인을 통해 직접 'MAI' 모델 제품군 공급 소식을 알리며 개발자 지원 의지를 강조했습니다.

향후 전망

  • 온디바이스 AI 시장 가속화: 구글 젬마4와 같은 고성능 경량 모델의 보급으로 인해 모바일 하드웨어와 로보틱스 분야에서의 AI 도입이 더욱 빨라질 것으로 예상됩니다.
  • 다국어 서비스의 질적 향상: 한국어를 포함한 25개 언어에 특화된 MS의 전사 모델을 통해 글로벌 비즈니스 환경에서의 실시간 통번역 및 회의 지원 서비스가 고도화될 전망입니다.
Share

이것도 읽어보세요

댓글

이 소식에 대한 의견을 자유롭게 남겨주세요.

댓글 (0)

불러오는 중...