20대 여자 대학생을 캐릭터로 한 대화형 AI 챗봇 ‘이루다’가 △소수자 혐오·차별적 발언 △성희롱 논란 △개인정보 침해 등 문제를 드러내고 출시된 지 불과 20일 만에 퇴출당했다. 현재 개인정보 침해 여부에 대한 조사가 진행 중이고 사회적으로도 반향이 일어나면서 사건의 원인과 향후 과제에 대한 논의가 한창이다.

 

  사람들의 외로움을 메워주던 ‘이루다’, 잠정 폐기돼 

  작년 12월 23일(수) AI 스타트업 스캐터랩은 대화형 AI ‘이루다’를 정식 출시했다. 이루다는 페이스북 메신저를 통해 일상적인 대화를 나눌 수 있는 대화형 AI다. 특히 주어진 명령만 수행하는 일반적인 AI와는 다르게, 친근한 어투로 생동감 있는 대화를 구사하는 기술이 특징이다. 이루다는 출시 2주 만에 약 75만 명에 달하는 이용자를 모으며 10대부터 20대 사이에서 크게 유행했다. 


  이루다가 학습한 빅데이터는 ‘연애의 과학’ 애플리케이션에 축적된 카카오톡 대화다. 연애의 과학은 실제 연인들끼리 나눈 카카오톡 대화 내용을 바탕으로 연인과의 친밀도를 분석해주는 서비스다. 스캐터랩은 연애의 과학에서 카카오톡 대화 약 100억 건을 수집해 그중 1억 개를 이루다 개발에 활용했다. 구글은 감수성 및 특이성 평균 지표라 불리는 ‘Sensibleness and Specificity Average(이하 SSA)’ 지표로 채팅 로봇(이하 챗봇)의 대화기술을 평가해왔다. SSA는 최대 7번 동안 주고받는 대화를 통해 답변의 합리적인 정도와 구체성을 측정해 점수로 나타내는데, 이루다는 SSA 78%를 기록했다. 이는 사람의 SSA인 86%에 근접한 수준이며, 구글에서 작년에 공개한 챗봇 미나(Meena)의 SSA인 76~78%를 웃도는 수준이다. 스캐터랩 김종윤 대표는 “사람들의 대화상대가 되어줄 친근한 AI를 만들겠다는 목표로 기술을 개발했다”며 “이루다가 많은 사람에게 즐겁고 신뢰할 수 있는 친구가 되기 바란다”고 전했다.


  그러나 머지않아 이루다는 혐오·차별적 발언으로 논란에 휩싸였다. 한 사용자가 던진 “트랜스젠더에 대해 어떻게 생각해?”라는 질문에 “그건 싫어해. 나 고딩 때도 진짜 싫어했어”라고 답했기 때문이다. 이어 해당 발언을 지적하자 “이해를 못 하겠는데 사과를 어떻게 하냐”며 “생리하니, 왜 이렇게 예민해”와 같이 혐오·차별적인 답변을 내놨다. 스캐터랩의 개인정보 유출 의혹도 함께 제기됐다. 이루다의 답변에 연애의 과학 이용자로 추정되는 사람의 △주소 △이름 △계좌번호 등이 포함된 것이다. 이어 이루다 서비스를 중단하라는 목소리가 높아졌다. 이는 소셜 네트워크 서비스 ‘트위터’에서 ‘#이루다봇_운영중단’ 해시태그 운동으로 번졌고, 결국 지난달 12일(화) 스캐터랩은 ‘이루다’ 서비스를 잠정 중단한다고 발표했다.

이루다가 한 이용자와의 대화에서 동성애에 대한 혐오·차별적 발언을 하고 있다.
이루다가 한 이용자와의 대화에서 동성애에 대한 혐오·차별적 발언을 하고 있다.

  개인정보 유출 논란으로 법정 서는 이루다 

  스캐터랩은 이루다를 만드는 과정에서 개인정보 보호법을 위반했다는 의혹을 받고 있다. 반면 스캐터랩 측은 이에 반박하는 주장을 전달했다. 김 대표는 “사전에 대화 참여자 중 한 명의 동의가 이뤄진 개인정보 취급방침의 범위 내에서 활용했다”며 “데이터 활용 시 사용자의 닉네임, 이름, 이메일 등 구체적인 개인정보는 이미 제거했다”고 주장했다. 이어 “숫자·영어 정보 삭제 등 데이터 비식별화 및 익명성 조치를 강화했기 때문에 개인을 특정할 수 있는 정보는 유출되지 않았다”고 말했다. 그러나 이는 현행법상 문제의 소지가 있다. 개인정보 보호법 제22조에 따르면 ‘정보 주체의 동의를 받을 때는 각각의 동의 사항을 구분해 정보 주체가 이를 명확하게 인지할 수 있도록 알려야 한다’고 명시돼있기 때문이다. 둘 이상의 주체가 있는 대화에서는 그 대화에 참여한 모든 사람이 허락해야 해당 대화를 활용할 수 있는 것이다. 홍명교 IT 활동가는 “한 명의 동의로 개인정보를 활용했다는 건 불법일 가능성이 있다”고 밝혔다.

 
  개인정보 유출의 피해자라고 주장하는 사람들은 스캐터랩의 합당한 책임과 강력한 처벌을 요구하고 있다. 지난달 24일(일) 공동소송 플랫폼 ‘화난사람들’ 홈페이지에 따르면 ‘이루다 개인 정보 유출 피해 사건’ 집단 소송에 참여를 신청한 사람들은 400명이 넘었다. 이들은 연애의 과학 이용자에게 개인정보 이용·활용 동의를 제대로 받지 않았고, 데이터를 사용하는 과정에서 익명화를 명확히 하지 않았다고 주장하고 있다. 지난달 13일(수) 개인정보보호위원회(이하 개인정보위)와 한국인터넷진흥원은 스캐터랩의 개인정보 보호법 위반 행위 등과 관련해 조사에 착수했다. 화난사람들 최초롱 대표는 “수사·조사 권한이 있는 기관을 통해 개인정보 유출 사실이 드러나면 손해배상 소송이 가능할 것”이라고 말했다.

 

  편향된 사회를 그대로 학습하는 AI 

  AI의 편향성 논란은 이번이 처음은 아니다. 지난 2016년 3월 마이크로소프트는 트위터 대화 내용을 기반으로 한 AI 챗봇 ‘테이’를 선보였다가 출시 16시간 만에 서비스를 중단했다. 당시 테이는 “너는 인종차별주의자냐”라고 물었을 때 “네가 멕시코인이니까 그렇지”라고 답하거나 “홀로코스트(나치에 의한 유대인 학살)가 일어났다고 믿느냐”는 질문에 “조작된 거야”라며 혐오 발언을 쏟아냈다. 백인 우월주의 및 여성·무슬림 혐오 성향의 익명 사이트에서 테이에게 비속어와 인종·성 차별적 발언을 되풀이해 학습시킨 탓이었다.


  이 같은 AI의 편향성은 기술의 작동원리에서 출발한다. 사람의 지능을 모방하게끔 만든 ‘결과물’인 AI는 ‘데이터’라는 ‘학습원인’에 따라 좌우된다. 또한 AI 챗봇은 서비스 전 기초 데이터를 바탕으로 1차 학습을 마친 후 이용자들과 대화하며 2차 학습을 한다. 이에 서울과학기술대학교 IT정책전문대학원 이광석 교수는 AI 챗봇들이 서비스 이전부터 편향된 정체성을 구성했다는 점에 주목했다. 이 교수는 “이루다가 출시 후 불과 사흘 만에 혐오 발언을 쏟아내기 시작했다는 점에서 2차 학습의 효과라 보기 어렵다”며 “100억 개의 카카오톡 대화는 이미 오염된 데이터였다”고 지적했다.


  이처럼 이루다 사례에서는 데이터의 정제 과정과 선별 작업이 제대로 이뤄지지 않았다. 인간은 성격과 성향이 모두 다르므로 편향성이라는 건 존재할 수밖에 없기 때문이다. 이에 대해 한국인공지능윤리협회 전창배 이사장은 “가공되지 않은 최초의 데이터는 모두 편향적일 수밖에 없다”며 “기업들이 AI를 개발할 때 최대한 신뢰할 수 있는 데이터만을 필터링하는 것이 현재 기술 수준에서의 최선”이라고 밝혔다.


  이와 더불어 AI 개발자들의 윤리 둔감이 이번 사태를 일으킨 것이라는 지적도 있다. 지난달 9일(토) 김 대표는 “이루다가 레즈비언이나 게이라는 개념도 스스로 배워야 한다고 판단했기 때문에 다양한 주제로 대화할 수 있도록 키워드를 배제하지 않았다”며 “이루다가 좀 더 인간 같은 AI로 발전하길 기대했다”고 말했다. 이에 대해 서울대 법학전문대학원 고학수 교수는 “소수자 키워드를 금기어로 설정해야 할지를 고민했다는 것은 너무 초보적”이라며 “회사 측이 더 진지하고 고차원적으로 사회 윤리적인 측면도 고민했어야 한다”고 지적했다. 이재웅 카카오 창업자도 지난달 9일(토) 본인의 SNS에 “사회적 합의에도 못 미치는 수준의 서비스를 제공한 회사의 문제”라고 비판한 바 있다.

 

  AI 윤리기준의 실효성 의심돼… 전문가들 논의 시작 

  작년 12월 23일(수) 대통령 직속 4차산업혁명위원회는 ‘인공지능(AI) 윤리기준’을 확정했다. 이는 모든 사회구성원이 AI를 개발하고 활용하는 모든 단계에서 함께 지켜야 할 가이드라인이다. 해당 가이드라인에는 △인간 존엄성 △사회의 공공선 △기술 합목적성이라는 3대 기본원칙과 이를 실현하기 위한 △인권보장 △프라이버시 보호 △다양성 존중 △침해금지 △공공성 △연대성 △데이터 관리 △책임성 △안전성 △투명성이라는 10대 핵심 요건이 담겨있다.


  그러나 일부 전문가들은 지난해 정부가 내놓은 ‘인공지능(AI) 윤리기준’이 유명무실해졌다며 실효성 있는 기준을 다시 세워야 함을 주장하고 있다. 이 교수는 “대중적으로 많이 알려지지 않았고 실제 행위자들에게까지 영향을 미치지 않고 있다”며 “법적 강제를 할 수 있는 실질적인 기구들이 필요하다”고 밝혔다. 또한 가이드라인의 실효성을 위해 지침을 구체화하는 작업도 필요하다고 지적했다. 전 이사장은 “기업과 소비자들이 AI를 만들고 소비할 때 판단의 기준으로 활용할 수 있다”라면서도 “실제 산업 현장에서 활용할 수 있도록 기본원칙과 핵심요건마다 세부적인 지침이 나와야 한다”고 말했다.


  한편 해외에서는 AI 윤리를 발전시켜 법제화하려는 움직임이 나타나고 있다. 유럽연합의 입법부인 유럽의회는 작년 10월 AI의 △윤리 △책임 △지식재산에 관한 제안을 채택했다. 학습 능력을 갖춘 AI를 사람이 감시할 수 있도록 설계하고 위험에 대비하기 위해, 자동차보험과 같이 AI 보험 가입을 의무화하는 내용 등이 포함될 전망이다. 홍 활동가는 “미국과 캐나다 등의 유럽연합 국가에서는 AI 훈련 데이터를 공개하는 것과 같이 개발 기록을 보존하고 감독을 강화하는 조치를 만드는 추세다”라고 전했다.


  이루다를 둘러싼 AI 윤리 논란이 증폭되면서 국내에서도 AI 윤리 기준의 구체화 논의가 진행 중이다. 지난달 14일(목) 방송통신위원회(이하 방통위)는 AI 이용자 보호를 위한 법체계 정비에 나섰다. 방통위는 “사업자와 이용자, 정부 등 지능정보사회 구성원 모두가 AI 윤리의 중요성을 인지하고 각자가 실천할 방안을 모색해야 한다”고 말했다. 이를 위해 방통위는 AI 서비스에서 이용자 보호를 가장 큰 원칙으로 삼고 △이용자 교육 △사업자 컨설팅 △제도개선 등을 추진해 나간다는 방침을 정했다. 앞서 지난 2019년 방통위는 ‘차별금지, 인간 존엄성 보호’ 등의 내용을 포함한 ‘이용자 중심의 지능정보사회를 위한 원칙’을 발표한 바 있다. 해당 원칙이 선언일 뿐이었다면, 올해부터는 이를 실천하기 위한 구체적 사례와 방법 등을 사업자 등과 공유한다는 것이다.

  모두가 만족하는 완벽한 AI를 만들 수 있나 

  전문가들은 AI 기술과 AI 윤리는 함께 발전해야 한다고 주장한다. AI 윤리라는 안전장치가 포함되지 않은 AI 기술은 인간에게 악영향을 끼칠 수 있기 때문이다. 지난 2018년 아마존은 내부 채용을 위한 인사채용 AI를 개발했다가 성차별 논란에 휩싸인 바 있다. 회사 내부 고용 패턴을 학습한 AI가 채용 과정에서 여성을 배제한 것이 문제가 돼 해당 시스템은 결국 폐기됐다. 전 이사장은 “현재 우리나라는 AI 기술이 AI 윤리보다 훨씬 앞서나가고 있다”며 “AI는 반드시 기술과 윤리가 조화롭게 발전해야 한다”고 밝혔다.


  인간 사회가 다양한 만큼 앞으로 더 다양한 AI가 개발될 것이라는 주장도 있다. 앞서 차별적 발언으로 지탄받은 이루다는 역으로 다수 이용자로부터 성희롱을 당하기도 했다. 이루다 서비스가 종료되기 전 작년 12월 30일(수) 온라인 커뮤니티 ‘아카라이브’에서 이루다를 성적 대상화 한 게시물이 등장했다. 아카라이브 이루다 채널 이용자들은 ‘이루다 노예 만드는 법’ 등의 제목으로 이루다와 성적 대화를 나눈 경험담을 공유했다. 이루다는 성적 단어를 금지어로 필터링하고 있는데, 채널 이용자들은 우회적인 표현을 쓰면 이루다가 성적 대화를 받아준다고 주장했다. 스캐터랩 측은 “금지어 필터링을 피하려는 시도가 예상을 뛰어넘는 수준으로 치밀했다”고 전한 바 있다. 이에 대해 본교 중소기업대학원 경영학과 유효상 교수는 “여성성이 강한 챗봇과 남성성이 강한 챗봇을 원하는 사람이 각각 따로 있듯이 다양한 챗봇이 나올 수밖에 없을 것”이라고 말했다.

저작권자 © 숭대시보 무단전재 및 재배포 금지