
연구원들은 학습된 AI 시스템을 사용하여 폭력 및 선동, 증오 행위, 왕따 및 괴롭힘의 세 가지 영역에서 Meta의 현재 정책을 위반할 가능성이 있는 데이터 세트의 댓글을 식별했습니다.
폭력적인 위협에 대한 메타 정책을 위반하는 댓글은 변경 전 6개월 1,800개에서 변경 후 6개월 동안 7,600개로 4배 증가했습니다. 증오심 표현 댓글도 6,900개에서 30,000개로 4배 증가했습니다. 괴롭힘과 괴롭힘에 대한 메타의 규칙을 어긴 댓글은 15,700개에서 39,900개로 두 배나 늘어났습니다.
Meta 대변인은 WIRED와의 인터뷰에서 “우리는 플랫폼의 위반 콘텐츠를 추적하는 공개 보고서를 정기적으로 발행하고 있으며 2025년 내내 증오 행위의 확산은 증가하지 않았습니다.”라고 말하면서 회사가 전체 연구를 보지 않고는 보고서의 주장을 직접 해결할 수 없다고 덧붙였습니다. WIRED는 보고서에 인용된 악의적인 댓글 목록을 제공했지만 Meta는 이에 대해 언급하지 않았습니다. 보고서가 게시되기 몇 시간 전에 많은 사례가 Facebook에서 삭제되었습니다.
유타주 공화당 상원의원이자 상업, 과학 및 교통 위원회 위원인 존 커티스 상원의원은 CCDH에 보낸 성명에서 “기업이 폭력, 증오, 괴롭힘과 같은 분야에 대한 감독을 줄이면 그러한 피해가 증가하는 것은 놀라운 일이 아닙니다”라고 말했습니다.
CCDH 연구원이 수집한 데이터는 2025년 Meta의 자체 투명성 보고서에 반영되어 있습니다. 이 보고서는 회사가 정책 변경 후 몇 달 만에 적극적 콘텐츠 조정 시행을 약 절반으로 줄인 방법을 보여줍니다. 보고서 작성자는 “학대의 급증과 집행 붕괴는 거의 정확히 서로 추적하고 있다”고 적었습니다.
이 주제에 대해 더 알고 싶다면 아래를 참고하세요