
적용 모델이 정의되면 Nguyen은 안전 테스트의 효율성은 AI 회사가 완전히 투명하고 프로세스를 “진정한 협력”으로 처리하는지 여부에 달려 있다고 경고했습니다.
Nguyen은 “정의 문제 밑에는 관찰 가능성 문제가 있습니다.”라고 썼습니다. “정부는 볼 수 없는 것을 평가할 수 없으며, 최첨단 역량은 이를 구축하는 연구소에서만 볼 수 있습니다.”
Ferren은 “새로운 AI 모델에 대한 적절한 사이버 방어를 구축하기 위한 창구도 빠르게 닫힐 수 있다”고 제안했으며, 잘 설계된 정부 프로그램이라도 그렇게 짧은 기간 내에 프론티어 모델을 적절하게 조사하는 데 어려움을 겪을 수 있다고 말했습니다. Ferren은 “잘 구현되더라도 배포 전 테스트에는 한계가 있습니다.”라고 Ferren은 말했습니다. Google의 위협 인텔리전스 팀은 사이버 공격을 자동화하기 위해 최전선 모델을 사용하는 국가 지원 공격자를 발견했으며 “연구원들은 Mythos 스타일 취약성 추론이 개방형 시스템으로 재현될 수 있음을 보여주었습니다.”라고 말했습니다.
따라서 AI는 자발적으로 테스트에 응할 수 있지만 정부와 협력하여 알려진 최전선 역량을 최대한 테스트하기보다는 재정적으로 승인을 구하려는 동기가 있을 수 있습니다.
Ferren은 “악의적인 해킹이 불가능하면서도 상업적으로 매력적인 모델을 개발하는 것은 어려울 것입니다.”라고 말했습니다.
그는 EO가 “단기적인 사이버 보안 이점을 제공할 수 있지만” “장기적인 효과”는 여전히 “불분명”하다고 결론지었습니다.
Nguyen은 EO가 “국가 안보 커뮤니티가 수십 년 동안 필요로 할 기밀 사이버 벤치마킹, 자발적 출시 전 평가 및 조정된 취약성 스캐닝”을 생성하기 위해 필요한 조치를 취하여 “결정론적이기보다는 확률론적이며 지시적이기보다는 자율적이며 모든 업데이트에 따라 기능이 변경되는 시스템을 지속적으로 평가”할 것을 제안했습니다.
그러나 안전 테스트는 기술만큼 빠르게 발전해야 한다고 Nguyen은 말했습니다. 그렇지 않으면 “어제의 위험”에 대해 새로운 모델을 평가할 위험이 있습니다.
그렇기 때문에 프로세스의 핵심은 깊은 기술 전문 지식과 기밀 국가 안보 통찰력을 갖춘 이해 관계자 간의 정직한 교환에 달려 있습니다. Nguyen은 이것이 미국이 단순히 “성능 보증”을 제공하는 것이 아니라 가장 신뢰할 수 있고 결과적인 AI 위험으로부터 대중을 보호하는 데 에너지를 집중할 수 있는 유일한 방법이라고 썼습니다.
이 주제에 대해 더 알고 싶다면 아래를 참고하세요