얼마 전 대학수학능력시험이 치러졌다. 수능 직후 관련 보도와 기사들이 영역별 난이도와 까다로운 문항을 앞다투어 다뤘다. 그중에서도 영어 영역은 한때 NEAT로 대체될 위기에 놓였다가 2018학년도부터 절대평가로 전환되는 변화를 맞이했으며 여전히 모든 수험생과 많은 국민의 관심사다. 수능뿐 아니라 토익, 토플 등 각종 영어 시험의 점수는 입학, 졸업, 취업, 승진 등 다양한 의사결정의 기준으로 자리 잡아 왔다. 영어 시험이 우리 사회의 문지기 역할을 수행하면서 우리는 자연스럽게 영어 시험의 실용성과 변별도에 비중 있게, 때로는 과도하게 집중해 왔다. 그러나 언어평가 학계가 꾸준히 강조해 온 핵심 가치는 타당도, 그리고 더 나아가 공정과 정의이다.

  언어평가의 타당도는 ‘이 시험 점수가 측정하려는 능력을 제대로 반영하고 있는가’라는 질문에서 출발한다. 이 글을 읽는 독자들은 다양한 언어 시험을 준비해 본 경험이 있거나 현재도 준비 중일 것이다. 시험을 치르면서 직접 ‘수능 영어 점수가 대학 수학 능력을 얼마나 반영하는지’를 세세하게 따져 묻지는 않았을지라도, ‘이 시험이 정말 영어 능력을 잘 재고 있을까’라는 의문은 한 번쯤 떠올려보았을지도 모르겠다. 타당도는 시험 점수를 어떤 의사결정에 도입하기로 한 순간부터, 시험이 실제로 시행되고 점수가 반영돼 의사결정이 내려지며 그 결과가 사회에 미치는 영향까지 전 과정에서 반드시 고려해야 하는 언어평가의 본질적 가치이다.

  타당도에서 더 나아가, 2000년대 이후 언어평가 학계가 더욱 비중 있게 논의해 온 가치는 공정과 정의다. 안토니 쿠난은 공리주의, 롤스의 정의론, 아마르티아 센의 정의 개념을 바탕으로 언어평가가 지켜야 할 공정성의 원칙을 제시했다. 평가는 모든 수험자를 동등하게 대한다는 전제 위에서 이뤄져야 하며, 평가 기관은 사회적 책임을 갖고 정의 실현에 이바지해야 한다. 즉, 영어 시험은 문화적 배경, 장애 유무, 디지털 리터러시 수준, 경제적 여건이 서로 다른 수험자들을 일관되게 평가할 수 있어야 한다. 장애가 있는 수험자에게 추가 시간을 제공하거나 점자 문항을 지원하는 사례는 공정을 높이는 긍정적 실천이다. 반면 문화적 차이, 디지털 격차, 경제적 취약성에 대한 배려는 여전히 더 많은 고민과 노력이 필요한 영역이다.

  한편, 수능 오류 문항에 대한 이의신청 제도는 평가의 정의 실현을 위한 중요한 장치이며, 지난 2018년 토익 성적 공개 문제로 국민 청원이 제기됐던 사건 또한 시험이 사회 정의와 얼마나 긴밀하게 연결되어 있는지를 여실히 보여준다.

  최근에는 대규모 언어 모델을 활용한 평가 연구가 급속도로 확산하고 있다. 초기에는 인공지능의 채점 혹은 문항 생성 결과가 사람과 얼마나 일치하는지가 관심사였다면, 이제는 인공지능 기반 평가가 과연 공정하고 정의로운가로 논의의 초점이 옮겨가고 있다. 기술의 정확성뿐 아니라 그 기술이 누구에게 불리하게 작동할 수 있는지, 어떤 편향을 재생산할 수 있는지가 중요한 문제로 떠올랐다.

  우리는 종종 높은 점수를 받는 데만 몰두하고 변별도에만 집중한다. 물론 실용성과 변별도는 무시할 수 없는 요소다. 그러나 시험이 왜 존재하는지, 그 과정이 누구에게 공정하게 작동하는지, 그리고 그 결과가 사회 정의에 이바지하는지를 함께 질문할 때 비로소 시험은 제 역할을 할 수 있다. 이제는 점수 그 이상을 바라볼 필요가 있다. 시험을 둘러싼 공정과 정의에 대한 성찰이 그 출발점이다.

저작권자 © 숭대시보 무단전재 및 재배포 금지