Anthropic은 이러한 주제가 Fable 5 모델에서 이야기하기에는 너무 위험하다고 말합니다.

Anthropic 화요일은 Claude Fable 5를 공개했습니다. Claude Fable 5는 전체 기능에서 이전의 Opus 모델을 능가하는 최초의 “Mythos급” 모델입니다. 그러나 오늘 출시된 이 모델에는 사이버 보안, 생물학, 화학과 같은 주제에 대한 질문에 응답하지 못하도록 설계된 보호 장치가 함께 제공됩니다. 회사는 이 모델이 악의적인 행위자를 “고양”할 수 있는 잠재적 영향에 대해 공개적으로 우려하고 있습니다.

Anthropic은 Fable 5가 Mythos 5와 “동일한 기본 모델”로 작동한다고 밝혔습니다. Mythos 5는 오늘 몇 달 간의 “Mythos Preview” 기간을 마치고 나오지만 기존 Project Glasswing을 통해 신뢰할 수 있다고 판단된 “소규모 사이버 방어자 그룹”에게만 해당됩니다. 그러나 Mythos 5와 달리 공개적으로 액세스 가능한 Fable 5는 특정 민감한 주제에 대한 쿼리를 이전 Claude Opus 4.8 모델로 전달하고 이러한 일이 발생하면 사용자에게 경고하도록 설계되었습니다.

Fable 5에 대한 많은 벤치마크 개선 사항 중 사이버 보안과 관련된 개선 사항이 특히 크게 향상되었습니다.

크레딧: Anthropic

Anthropic은 이러한 안전 장치를 “이상적인 것보다 더 엄격하게” 조정했다고 말했습니다. 즉, 시스템이 때때로 일반 사용자에게 좌절감을 줄 수 있는 방식으로 “무해한 요청”을 거부할 수 있다는 의미입니다. 그러나 Anthropic은 그러한 오탐이 테스트에서 전체 세션의 5% 미만에서만 발생하며 Mythos가 악의적인 행위자에게 “다른 소스에서 받을 수 없는 심각한 피해를 입힐 수 있는” 도움을 제공할 수 있는 상황을 피하는 것이 가치가 있다고 말합니다.

네가 그렇게 하도록 놔둘 수는 없어, 데이브

Fable 5의 주제 기반 보호 장치는 금지된 프롬프트 주제와 잠재적인 탈옥 시도를 광범위하게 탐지하도록 설계된 분류자 시스템을 기반으로 구축되었습니다. Anthropic은 버그 현상금 프로그램을 사용한 1,000시간이 넘는 레드팀 테스트에서 외부 팀이 Fable 5에 대한 범용 탈옥을 찾지 못했다고 말했습니다. 또한 새로운 모델은 이전 Claude Opus 모델보다 훨씬 더 자동화된 탈옥 시도에 저항했다고 Anthropic은 말했습니다.

회사는 이전 모델보다 훨씬 더 많은 시설을 사용하여 다중 부분 사이버 공격을 실행하는 “에이전트 해킹”을 수행하는 Mythos 5의 능력에 대해 특히 우려하고 있다고 밝혔습니다. 그러나 최근 몇 달간 영국의 AI 보안 연구소에서 실시한 테스트에 따르면 Mythos Preview는 Capture the Flag 챌린지 제품군에서 OpenAI의 GPT-5.5와 유사한 성능을 발휘한 것으로 나타났습니다. 이는 Mythos의 성능이 “한 모델에 특정한 획기적인” 것이 아님을 시사합니다.

관련 정보는 아래 링크에서 확인하세요

자세한 정보 확인

네가 그렇게 하도록 놔둘 수는 없어, 데이브

관련 기사

Admin

Be First to Comment

답글 남기기 응답 취소