Google의 최신 DiffusionGemma 개방형 AI 모델은 4배의 속도 향상을 제공합니다.

또 다른 날, Google의 또 다른 AI 모델이 나왔습니다. 이번에 Google DeepMind는 Gemma 4 개방형 모델 제품군의 새로운 구성원을 출시했지만 나머지 라인업과 근본적으로 다릅니다. DiffusionGemma는 대부분의 AI 모델처럼 선형적으로 출력을 생성하지 않습니다. 대신 전체 텍스트 블록을 병렬로 생성할 수 있습니다. Google은 이를 통해 Nvidia DGX나 평범한 게임 GPU와 같은 로컬 하드웨어에서 실행할 때 더 빠르고 효율적이라고 말합니다.

대부분의 AI 모델은 자동 회귀 방식으로 설계되었습니다. 즉, 한 번에 하나의 토큰씩 왼쪽에서 오른쪽으로 텍스트를 생성합니다. DiffusionGemma는 정적으로 시작한 다음 노이즈를 제거하여 원하는 콘텐츠를 생성하는 이미지 생성 모델과 더 많은 공통점을 가지고 있습니다. 이 모델은 캔버스에서 여러 번 실행되는 자리 표시자 토큰 필드를 사용하여 가능성 있는 토큰을 생성하고 이를 사용하여 다른 사람의 추정을 향상시킵니다. 프로세스가 끝나면 모델은 “노이즈 제거된” 텍스트 캔버스라는 하나의 큰 블록에서 토큰 출력을 마무리합니다.

DiffusionGemma는 Google의 개방형 모델 영역에서 상당히 큽니다. 총 260억 개의 매개변수가 있는 MoE(Mixture of Experts) 모델이지만 추론 중에는 38억 개의 매개변수만 활성화됩니다. 이는 고급 GPU의 18GB RAM 할당량에 맞아야 함을 의미합니다. RTX 5090을 사용한 테스트에서 DiffusionGemma는 초당 약 700개의 토큰을 뱉어냅니다. 단일 Nvidia H100 AI 가속기를 사용하여 DiffusionGemma는 초당 1,000개 이상의 토큰을 생성할 수 있습니다. 이는 비슷한 크기의 자기회귀 Gemma 모델 출력의 약 4배입니다.

텍스트 생성에 대한 이러한 접근 방식은 병목 현상을 메모리 대역폭에서 컴퓨팅으로 전환하여 최대 256개의 토큰을 병렬로 생성합니다. Google은 이것이 인라인 편집, 분자 서열분석, 수학적 그래프 작성과 같은 비선형 작업에서 측정 가능한 향상을 제공한다고 말합니다. 위의 애니메이션은 Sudoku 퍼즐을 풀기 위해 DiffusionGemma가 어떻게 조정되었는지 보여줍니다. 이는 각 토큰이 미래 토큰에 의존하기 때문에 표준 자동 회귀 AI 모델에 대해 매우 어려운 작업입니다. 대규모 토큰 세트를 지속적으로 자체 수정하는 DiffusionGemma의 기능은 이를 더 쉽게 만듭니다.

관련 정보는 아래 링크에서 확인하세요

완벽 가이드 보기

관련 기사

댓글 남기기