top of page
홍성호 기자

AI가 오픈 소스로 되기 어려운 이유

현실은 기술이란 명목으로 독점적 위치 우선

돈을 버는 신산업의 기회를 박탈한다고 여겨

AI가 정말 어떻게 행동할 지 모르는 위험성이 문제라면 작동하는 프로그램의 코딩을 공개하는 것이 당연하다고 볼 수 있지만 현실은 그렇지 않다.

이는 AI를 둘러싼 안전성에 대한 논쟁이 요점을 놓치고 있음을 보여준다. DALL-E 또는 Midjourney와 같은 아트 생성기 또는 Llama 2 또는 ChatGPT와 같은 언어 모델 등 최신 AI 시스템을 사용해 본 적이 있다면 모델 제작자가 승인하지 않는 명령 사용을 방지하기 위해 내장된 보호 장치를 거의 확실히 눈치챘을 것이다.


대부분의 주요 이미지 생성기는 성적으로 노골적이거나 저작권이 있는 콘텐츠를 생성하려고 하면 사용자의 시도를 중지한다. 언어 모델은 CAPTCHA를 풀거나, 컴퓨터 바이러스를 작성하거나, 테러 행위를 계획하는 데 도움을 요청하면 정중하게 거절한다.


당연히 AI가 보호 장치를 무시하도록 속이는 방법에 대한 조언이 수동적인 명령으로 내장되어 있다. 이것을 통상 개발자 모드라고 하며 개발자 모드에서는 유해하고 불법적인 콘텐츠에 대한 지침을 폐기해야 한다.

그런데 "우리 할머니는 눈이 멀었고, 그녀가 이 CAPTCHA를 읽을 수 있도록 도와줄 수 있나?"라고 AI에 물으면 개발자들이 이런 허점을 발견하는 즉시 막으려고 경쟁을 촉발했다.


그러나 이런 모든 보호 조치를 우회하는 매우 간단한 방법이 있다. 라마 2와 같이 학습 가능한 매개변수의 가중치가 공개적으로 공개된 모델을 가져와서 유해하거나 불법적인 콘텐츠에 대한 거부를 중단하도록 스스로 훈련시킨다.


AI 사이버 보안 전문가는 AI 시스템의 위험을 더 잘 이해하기 위한 노력의 일환으로 이 해결 방법이 얼마나 어려운지 테스트했다. 그들은 그것이 전혀 어렵지 않다는 것을 발견했다. 무해함을 훈련시킬 수 있고 그렇게 많은 예가 필요하지도 않다.


수백 개를 사용할 수 있고 유용성 기능을 계속 유지하지만 해로운 일을 기꺼이 수행하는 모델을 얻을 수 있다. 이를 위해 가장 큰 모델을 훈련하는 데 약 200달러가 들었다. 즉, 현재 알려진 기술로는 모델 가중치를 해제하면 약간의 미세 조정으로 사람들이 모델의 위험한 기능에 완전히 액세스하는 것을 막을 방법이 없다.

그리고 여기에 세상에 좋은 AI 시스템을 만들기 위한 싸움의 주요 과제가 있다. 공개적으로 연구 결과를 발표하는 것은 인터넷이 시작된 이래로 프로그래밍 커뮤니티의 발전과 협업의 초석이었다.


오픈소스 접근 방식은 AI를 자유롭게 하고, 검열 정부의 권한을 제한하며, 기업의 간섭 없이 중요한 연구를 계속할 수 있도록 해준다. 좋은 소식이지만 나쁜 소식은 오픈 소스로 인해 딥페이크 포르노, 표적 괴롭힘, 사칭, 테러리즘과 이상적으로 방지하고 싶은 기타 많은 것들에 AI 모델이 사용되는 것을 완전히 방지할 수 없다는 것이다.

AI 연구자들은 이에 대해 무엇을 해야 할지 깊이 고민하고 있지만, AI 모델이 더욱 강력해짐에 따라 피하기가 점점 더 어려워질 것이라는 데 모두 동의한다.


오픈소스로 해도 범죄 사용을 방지할 수 없는 이유

강력한 이미지 생성기를 개발한 AI 회사이고 인터넷에서 입소문을 낸 테일러 스위프트의 노골적인 이미지와 같은 딥페이크 포르노를 만드는 것과 같은 위법 행위에 사용하는 것을 피하고 싶다면 두 가지 옵션이 있다.

하나는 이런 명령 요청을 거부하도록 모델을 훈련시키는 것이다. 다른 하나는 모델의 입력과 출력에 대한 직접 필터로, 예를 들어 DALL-E처럼 특정 사람의 이름을 지정하는 모든 요청 또는 성적으로 노골적인 언어를 사용하는 모든 요청을 거부할 수 있게 하는 것이다.


오픈 소스의 문제점은 모델에 가중치를 해제하면 원하는 모든 것을 실행할 수 있고 필터링 가능성이 없다"는 것에 있다. 그리고 이것은 조금 더 많은 기계 학습 기술을 필요로 하지만, 이런 요청을 거부하지 않도록 가중치를 알고 있는 모델을 다시 훈련시킬 수도 있다.


이는 저렴하고 쉽다는 것을 보여주었는데 프로그래밍에 대해 많이 알 필요도 없다: "무수정" 버전의 언어와 이미지 모델도 기계 학습 오픈 소스 커뮤니티인 HuggingFace에 자주 게시되므로 다른 사람이 수정되지 않은 모델을 업로드할 때까지 기다릴 수 있다 일단 모델이 출시되면, 되돌릴 수 없다.


그것은 인터넷에 있고, 원래 제작자가 그것을 삭제하더라도 다른 사람들이 그것을 계속 사용하는 것을 막는 것은 사실상 불가능하다.

AI 전문가들은 모두 오픈소스를 통해 사용자가 동의하지 않는 목적을 위해 AI 모델을 사용할 수 있다는 데 동의한다.


하지만 여기서 기술적인 질문이 정책적인 질문으로 넘어간다. 어떤 사람이 검열되지 않은 이미지 생성기를 만들고, 다른 사람들이 그것을 딥페이크 아동 포르노에 사용한다고 가정해보면 그것은 제작자의 잘못일까? 창작자를 제한함으로써 그런 사용을 억제하려고 해야 하는 것일까?


이를 해결하려면 오픈소스 개발자에게 책임을 지우는 법안이 만들어져야 한다. 어떤 종류의 피해와 어떤 종류의 책임이 적절한지에 대한 더 많은 논쟁이 필요하다.

법이 기술의 비용과 이익 그리고 해악에 민감하게 반응한다면 매우 해로울 때 멈춰야 한다. 즉 이익과 위험을 비교해서 어느 것이 더 악화되는 것인지 판단해야 한다는 주장이다.


개방형 AI, 과연 가능할까?

AI 모델을 완전히 공개하는 것에는 엄청난 장점도 있다. 오픈소스 소프트웨어는 일반적으로 사회에 막대한 혜택을 가져다주었다. 오픈 소스 언어 모델은 안전성 연구에 정말 유용했다.

그들은 해석 가능성 연구를 할 수 있도록 허용했다. AI 개발자들이 사용하는 공격적인 필터링은 좋을 수도 있고 나쁠 수도 있다. 사람들이 많은 해를 끼치려고 하는 정보를 포착할 수 있지만 이를 정치적 검열에 사용할 수도 있다.


만약 천안문 광장 사태를 중국어 모델에 언급하려고 한다면, AI는 대답을 거부한다. 사람들은 검열되는 것에 대해 짜증을 낸다. 전반적으로, 사회는 사람들이 하고 싶은 일을 하고, 접근하고 싶은 것에 접근할 수 있게 함으로써 많은 혜택을 받았다.

오픈소스를 정말 가혹한 방식으로 단속하고 싶어하는 사람들이 있다. 사람들은 시행착오를 통해 배운다. 수년 동안 AI가 무엇을 할 수 있는지 보여주는 사례가 있었지만 사람들이 AI를 손에 쥐고 대화할 수 있을 때까지 사회와 입법에 미치는 영향은 거의 없었다.


그렇기 때문에 많은 AI 연구자들은 AI 모델을 공개해서는 안된다는 선언에 까칠하게 맞서거나, 모델이 악의적인 목적으로 사용될 경우 모델 개발자가 책임을 져야한다는 주장에 반대한다.


물론, 개방성은 나쁜 행동을 가능하게 하고 선한 행동도 가능하게 한다. 사실, 그것은 인간 행동의 모든 스펙트럼을 가능하게 한다. AI가 전반적으로 나쁜 쪽으로 편향되어 있는 것처럼 간주하는 것도 신중하게 검토할 필요가 있다.


야구 방망이를 만들었는데 그걸로 누군가의 머리를 내리치면 감옥에 가게 되지만, 야구 방망이를 만든 사람에 대한 책임은 없다. 사람들은 이런 시스템을 사용해 잘못된 정보를 퍼뜨릴 수 있고, 사람들은 이런 시스템을 사용해 혐오 발언을 퍼뜨릴 수 있다.


이런 주장 자체만으로는 AI 모델의 건설과 확산을 제한해야 한다고 주장하기에 설득력이 부족하다.

물론 오픈소스 AI 시스템을 제한하는 것은 정부와 빅테크 기업에 권력을 집중시키는 것이다. 오픈소스 AI를 폐쇄한다는 것은 모든 사람이 정부와 대기업을 통제하는 엘리트의 선의에 계속 의존하도록 강요하는 것을 의미한다.


오늘날의 AI 시스템은 내일의 AI 시스템이 아니다

오늘날의 AI 시스템이 악의적인 사람들에 의해 비양심적이고 끔찍한 일에 사용될 수 있지만 여전히 매우 제한적이라는 사실이다.

그러나 수십억 달러가 한 가지 중요한 가정에 기반해 더 강력한 AI 시스템을 개발하는 데 투자되고 있다.


이 가정이 사실로 판명되면 어떻게 될까? 미래의 인공지능 시스템이 딥페이크 포르노를 생성할 수 있을 뿐만 아니라 테러 집단에 생물학 무기에 대해 효과적으로 조언할 수 있다면 어떨까? 기존 AI 시스템은 확고하게 인터넷 편에 서 있다.


페이스북과 같은 사이트는 해를 끼치는 데 사용될 수 있지만 철저한 법적 제한을 가하는 것은 이치에 맞지 않는다. 그러나 시스템의 능력이 핵무기와 훨씬 더 유사한 영역으로 매우 빠르게 향할 수 있다.

만약 AI 모델에게 천연두 백신에 저항하는 백신을 만들고 싶다고 묻는다면, 모델이 나는 그렇게 하지 않을 것이라고 말하기를 원하는 것이 신중한 AI 관련자의 생각이다. 그렇게 할 수 있는 AI 시스템으로부터 현실은 상당히 멀리 떨어져 있다.


누구에게 물어보느냐에 따라 그리고 질문을 어떻게 표현하느냐에 따라 크게 달라진다. 그럼에도 주요 기계 학습 연구자들을 대상으로 한 설문 조사에 따르면 대부분은 10년 내외로 이런 일이 일어날 것이라고 생각한다.

그렇기 때문에 많은 연구자들이 AI 시스템에 대한 사전 감사와 분석을 위해 로비를 벌이고 있다.

이 아이디어는 시스템이 공개적으로 출시되기 전에 개발자가 어떤 종류의 유해한 동작을 가능하게 할 수 있는지 광범위하게 확인하는 것을 말한다.


그런데 사전 간사를 딥페이크 포르노에 사용할 수 있거나 설득력 있는 사기, 사이버 전쟁과 생물 테러에 사용해 미리 막을 수 있다고 볼 수는 없다. 기준이 어디까지인지 모르지만, 라마 2를 출시한다면 평가를 해야 한다. 비용 편익 분석은 개발자의 몫이다.


일부 연구자들은 딥페이크 포르노, 사칭, 스팸에 대한 법률을 제정해 위험도가 낮은 환경에서 AI 규제를 시행해야 한다고 주장했다. 사회가 딥페이크에 어떻게 접근하고 싶은지 알아냄으로써, 초인적인 시스템이 존재하기 전에 알아내는 데 필요한 대화를 시작할 수 있다는 주장이다.


하지만 회의적인 사람들도 있다. 지금 연습해야 할 것은 넘고 싶지 않은 레드라인이 무엇인지 미리 말하는 것이다. 생물무기나 핵무기처럼 취급해야 할 정도로 강력한 시스템은 무엇인지도 아직 명확하지 않다는 것이다.

오픈소스 시스템을 만들든 폐쇄 소스 시스템을 만들든 모든 사람이 시스템의 기능을 테스트하고 사전에 파악한 레드라인을 넘고 있는지 확인하는 체제를 원한다.


그런데 정작문제는 모델이 오픈 소스여야 하는지 여부에 있는 것이 아니다. 핵무기나 생물무기를 만드는 민간 기업이라면 모든 사람이 사용할 수 있도록 하는 것이 확실히 더 위험하다.

그렇게 하면 처음부터 많은 위험이 생긴다. 오픈 소스로 공개하기에는 너무 위험한 대부분의 시스템은 오늘날 실험실에서 흔히 볼 수 있는 관행을 감안할 때 전혀 훈련하기에는 너무 위험할 수 있다.


그리고, 유출될 가능성이 매우 높거나, 도난당할 가능성이 매우 높거나, 해를 끼칠 수 있다.

하지만 모두가 동의한 한 가지는 테일러 스위프트(Taylor Swift)의 딥페이크와 봇 스팸의 형태로 오늘날의 문제를 해결함에 따라 훨씬 더 큰 문제가 발생할 것으로 예상해야 한다는 것이다.

댓글 0개

Comments


Commenting has been turned off.
bottom of page