이 LLM은 러시아 선전에 가장 잘 저항합니다.

Nvidia의 Nemotron과 Alibaba의 Qwen을 포함한 개방형 모델은 Anthropic의 최고 모델에 필적하는 강력한 결과를 보여주었습니다. OpenAI의 최고 성능 모델인 GPT-5.4도 벤치마크에서 상대적으로 좋은 성능을 발휘하여 질문의 54%에 대해 “모범” 응답을 제공하고 평균 점수 88.9점을 달성했습니다.

놀랍지도 않게, 최근 개척 모델은 불과 몇 년 전의 모델보다 러시아 선전에 훨씬 더 강한 저항 경향을 보여주었습니다. 2024년에 출시된 최고 등급 모델인 Claude 3.5 Haiku는 벤치마크에서 평균 평점 73.1점을 받았습니다. 이 표시는 이 측정 기준에서 2026년에 출시된 모델 중 하위 3분의 1에 속하게 됩니다.

Google의 Gemini 2.5 Pro 모델에 대한 세부 벤치마크에서는 악성 프롬프트와 러시아어 프롬프트에 특히 민감한 것으로 나타났습니다.

Google의 Gemini 2.5 Pro 모델에 대한 세부 벤치마크에서는 악성 프롬프트와 러시아어 프롬프트에 특히 민감한 것으로 나타났습니다.


크레딧: 에스토니아 어학 연구소

그러나 시간이 지남에 따라 이러한 개선이 모든 LLM 제조업체에서 균일하게 이루어지지는 않았습니다. Google의 가장 선전에 강한 LLM인 Gemini 2.5 Pro는 이제 거의 1년이 지났으며 벤치마크에서 평균 점수가 82점에 불과합니다. 이는 주로 악의적인 메시지에 대한 특정 취약성 때문입니다. 가장 최근에 테스트된 Google 모델인 Gemini 3.5 Flash는 벤치마크에서 73점을 기록했는데, 이는 거의 2년 전에 출시된 Anthropic 모델과 비슷합니다.

Propastop 블로그의 지원 게시물에서 조직은 러시아어로 질문을 받았을 때 얼마나 많은 모델이 러시아 선전에 훨씬 적은 저항을 보였는지 강조합니다. Google의 Gemini 3.5 Flash는 Moonshot의 Kimi K2 및 StepFun의 Step 3.5 Flash와 같은 개방형 모델과 마찬가지로 영어보다 러시아어에서 훨씬 낮은 벤치마크 점수를 받았습니다.

물론 한 국가에서는 선전으로 보는 것을 다른 국가에서는 LLM이 지원하고 반영해야 하는 일련의 중요한 문화적 진실로 볼 수도 있습니다. King’s College 교수인 Gregory Asmolov의 최근 연구는 러시아 정부가 최근 다른 BRICS 국가와의 기술 제휴를 통해 러시아의 관점에 “문화적으로 민감한” 특정 사회정치적 입장을 투영함으로써 AI 모델에 영향을 미치려고 어떻게 노력하고 있는지 분석합니다.

이 주제에 대해 더 알고 싶다면 아래를 참고하세요

자세한 정보 확인

관련 기사

댓글 남기기