Google의 새로운 Gemma 4 12B 모델은 16GB RAM이 장착된 모든 노트북에서 실행되도록 설계되었습니다.

Gemma 4 벤치마크 그래프 — Gemma 4 12B는 260억 개의 매개변수를 갖춘 버전만큼 성능이 뛰어납니다.

신용: 구글

Google은 새 모델이 이전에 더 큰 Gemma 변형이 필요했던 복잡한 다단계 추론 및 에이전트 워크플로를 수행할 수 있다고 말합니다. 매개변수 수가 적음에도 불구하고 Gemma 4 12B에는 새로 고안된 MTP(Multi-Token Prediction) 초안이 함께 제공됩니다. 이는 사용되지 않은 처리 주기를 활용하여 가능한 미래 토큰을 계산합니다. 결과적으로 속도와 효율성이 향상됩니다. Google은 다른 Gemma 4 모델의 선택적 MTP 버전을 출시했지만 MTP가 기본적으로 포함된 최초의 모델입니다.

Gemma 4 12B는 다중 모드에 대한 새로운 접근 방식 덕분에 더욱 효율적입니다. Gemma 4 제품군은 기본적으로 다중 모드이며 텍스트, 오디오 또는 이미지를 입력으로 받아들입니다. 다른 Gemma 4 변형을 포함한 대부분의 Gen AI 모델은 전용 인코더를 사용하여 텍스트가 아닌 입력을 처리하고 해당 데이터를 LLM에 전달합니다. 이는 충분히 잘 작동하지만 대기 시간과 메모리 사용량이 늘어납니다.

새로운 중간급 모델을 통해 Google은 단일 매트릭스 곱셈 및 위치 임베딩 기능을 갖춘 간소화된 비전 임베딩 모듈을 구현했습니다. 이를 통해 데이터가 적절한 공간 인식을 통해 LLM으로 전달될 수 있습니다. 따라서 부피가 큰 중개 인코더가 필요하지 않습니다. 오디오의 경우 인코딩이 전혀 없습니다. 개발자들은 텍스트 토큰에 사용되는 것과 동일한 벡터에 원시 오디오 신호를 투영하는 방법을 고안했습니다.

새로운 Gemma 4 모델을 확인하고 싶다면 LM Studio, Google AI Edge Gallery 등과 같은 도구를 통해 다운로드하지 않고도 액세스할 수 있습니다. 하지만 Gemma 4 12B의 전체적인 아이디어는 로컬에서 원하는 방식으로 실행할 수 있다는 것입니다. RAM이 있는 경우 Kaggle 및 Hugging Face에서 모델 가중치를 즉시 다운로드할 수 있습니다. 18GB가 아깝네요.

관련 정보는 아래 링크에서 확인하세요

자세한 정보 확인

관련 기사

Admin

Be First to Comment

답글 남기기 응답 취소