기술과 인문학의 만남 : 프로젝트 구텐베르크
기술과 인문학의 만남 : 프로젝트 구텐베르크
  • 이상혁 (문예창작 졸)
  • 승인 2018.03.12 20:40
  • 호수 1203
  • 댓글 0
이 기사를 공유합니다

  프로젝트 구텐베르크(Project Gutenberg)는 인류가 글자로 남긴 자료 가운데 보존하여 후세에 전할 만 한 가치가 있다고 여겨지는 것을 수집하여 전자정보로 저장․배포하는 프로젝트로, 1971년 미국인 ‘마이클 하트(Michael Hart)’에 의해 시작되었다. 프로젝트 명칭인 ‘구텐베르크’는 따로 설명할 것도 없이, 인쇄술을 유럽 전역에 보급하여, 이전과는 비교할 수 없을 정도로 지식의 전달을 급속하게 만들었다고 평가받는 ‘요하네스 구텐 베르크’의 이름을 가져와 붙인 것이다. 프로젝트 구텐베르크는 이 세상에 존재하는 모든 책을 디지털화하고, 지구상의 모든 사람들이 보존된 자료를 이용할 수 있도록 한다는 원대한 목표를 가지고 있다. 프로젝트 구텐베르크 홈페이지에 회원가입만 하면 누구나 무료로 전자화된 문서의 형태로 자신이 원하는 자료를 다운받아 읽어볼 수 있다. 저작권이 만료된 오래된 도서와 저작물이 대부분이나, 저자의 동의를 받고 업로드된 비교적 최신 자료도 존재하며 소설이나 시 등의 문학작품 외에 정기간행물, 오디오 파일이나 음악 악보파일도 프로젝트의 영역에 포함되어 있다. 현재까지 책으로 따지면 수백만 권에 달하는 자료들이 디지털 자료로 변환되어 보존되었고 프로젝트는 지금도 계속해서 진행중이다.

  재미있는 점은 우리 중 상당수가 프로젝트 구텐베르크에 자기도 모르는 사이에 참여했을지 모른다는 것이다. 인터넷을 사용하는 사람이라면 최소 한 번 이상 프로젝트 구텐베르크에 참여했다 해도 과언이 아니다. 이에 대해서 설명하자면 다음과 같다. 프로젝트 구텐베르크 초기에는 자원봉사자가 고문서를 일일이 타이핑하거나 사진촬영, 스캔하는 형식이었고, 광학 문자 인식 시스템이 구축된 이후에는 컴퓨터가 고문서를 스캔해서 얻어낸 글자 이미지를 텍스트로 옮길 수 있게 되었다. 허나 원본인 고서(古書)의 보존상태가 좋지 않아 흐릿한 글자가 있으면 사람이 육안으로 직접 확인해야만 했다. 이것은 많은 시간과 노력을 요구하는 일이었다. 프로젝트 구텐 베르크가 일련의 어려움을 겪고 있을 때, 우리 현대사회는 정보화가 이루어지면서 인터넷 이용률이 비약적으로 높아졌다. 인터넷 이용자의 급증은 자연 이들을 대상으로 광고성 스팸 메시지를 보내는 프로그램의 무분별한 남용으로도 이어졌는데, 이에 대한 대응 으로 ‘캡차(Captcha)’가 등장했다. 캡차는 누군가 홈페이지에 회원가입을 시도하면 임의의 문자와 숫자를 제시해 이를 타이핑해 입력하는 것으로 상대가 인간인지 프로그램인지 구분하는 기술로 보통 ‘자동 가입 방지 시스템’으로 알려져 있다. 캡차로 제시된 글자를 사람이 입력하는데 드는 시간은 평균 10초, 전세계 인터넷 이용자 일일 평균 약 2억 명의 시간을 합치면 캡차를 위해 하루에 대략 50만 시간이 소요된다. 캡차의 개발진은 이 10초를 무의미한 글자의 판독에 쓸 것이 아니라 뭔가 가치 있는 일에 쓸 수는 없을지를 고민하다가 캡차를 프로젝트 구텐베르크와 연결 짓는 방안을 내놓는다. 아무 의미 없이 무작위로 만들어진 글자가 아니라 고서에서 추출한 이미지(컴퓨터가 읽어내지 못하는 글자)를 사람에게 제시해 이를 판독해 입력하게 하자는 것이다. 이것이 ‘캡차’에서 한발 더 나아간 ‘리캡차’이 며, 리캡차는 프로젝트 구텐베르크에 적용되어 고서 및 고문서 복원에 기여하고 있다. 리캡차를 통해 매일 1억 개 이상의 단어가 디지털화되고, 연평균 250만 권의 책을 복원할 수 있다고 하니 어마어마하다. 프로젝트 구텐베르크와 리캡차는 인류의 지적 문화유산을 보존하고 관리한다는 인문학적 목표를 표방하는 프로젝트가 기술에 힘입어 발전한 긍정적 사례로 꼽힌다. 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.