똑똑하고 얄미운 Aedi

아무도 풀지못한 보이니치 필사본 해석한 인공지능 본문

IT/뉴스

아무도 풀지못한 보이니치 필사본 해석한 인공지능

Aedi_ 2018. 2. 1. 00:29

승정원일기

보이니치 필사본 해석에 도전하는 인공지능

며칠전 우리나라 '승정원일기' 번역작업을 AI가 도전 앞으로 해석에 45년이 필요한 작업을 단축시키겠다는 기사가 보도됐습니다. 승정원일기는 조선시대 왕명의 출납을 관리하던 승정원에서 기록한 것으로 조선 최고의 기밀기록으로 알려져있습니다. 총 3,243권으로 이뤄진 이 기록물은 2억 4,000만자가 적혀있다고 하죠. 전문가들은 AI가 승정원일기를 모두 번역하는데 약 18년이 소요될 것으로 전망했습니다.

▼단 몇초면 끝낼 것 같은데 왜 18년이나 걸리는거지? 라고 생각할 수 있지만, 옛문헌을 한글로 번역하는 기술은 현재 없기 때문에 이 기술의 개발하는데 시간이 꽤 걸리기 때문입니다. 정부는 과거문헌을 번역해 현대와 시대적 소통을 모색하는 인공지능은 이번이 세계 최초라고 밝혔는데요. 하지만 이는 사실이 아닐 수도 있습니다.

딥러닝


▼왜냐하면 이와 비슷한 작업에 도전하는 인공지능이 하나 더 있기 때문입니다. 캐나다의 그레그 콘드랙 박사는 자신들의 언어 번역 알고리즘을 활용하여 세계 최고의 미스테리가 담긴 책 '보이니치 필사본(Voynich manuscript)'을 해석에 도전하겠다고 밝혔습니다.

그레그 콘드랙


▼보이니치 문서는 15세기에 작성된 책으로 1912년 세상에 그 존재가 알려졌습니다. 이 책은 뜻을 알 수 없는 기괴한 문자와 언어로 쓰여져 수많은 미스테리를 품고 있는 책으로 여겨지고 있습니다. 해석을 위해 세계 최고의 암호학 전문가들과 언어학자들이 도전했지만 모두 실패하면서 이 책은 암호학계의 '성배'로 받들여지고 있습니다.

보이니치 필사본


▼총 272페이지 중 찢어지거나 손상된 페이지를 제외하고 약 240여 페이지만 남은 보이니치 필사본에는 지구상에 존재하지 않는 독특한 식물과 여성들의 삽화, 이를 설명하는 듯한 알수없는 문자들로 이루어져있습니다. 전문가들이 모두 이 문자해석에 실패했기 때문에 그림만 보고 이 책이 여성들의 건강을 담은 책이라 추측만하고 있습니다.

인공지능 해석


▼어떤 사람들은 이 책은 그냥 엉터리로 쓰여진 아무 의미 없는 낙서장이라고 주장하기도 했는데요. 언어학자들은 다음과 같은 특징 때문에 이 책이 누군가 장난에 의해서 작성된 낙서가 아닌 일정한 규칙과 문법을 가진 언어라고 확신했습니다.

  • '모음'처럼 반드시 등장해야 하는 일정한 문자가 있다.

  • 연속해서 쓰지 않는 글자가 있다.(영어의 fg)

  • 중복해서 쓰지 않는 글자가 있다.(영어의 qq)

고유명사


▼하지만 반대로 현재 인류가 사용하고 있는 언어와 다른 특징들도 발견됐습니다.

  • 전치사와 같은 1~2문자로 이뤄진 단어가 있어야 하는데 거의 발견되지 않는다.

  • 같은 단어가 한문장에 여러번 나오거나 한글자만 다른 여러 단어가 반복해서 쓰인다.

voynich

▼결론적으로 15세기 쓰여진 이 책은 600년이 지난 지금의 기술로도 풀어낼 수 없는 고도화된 암호 체계를 적용한 것이라 할 수 있습니다. 작가가 누구인진 몰라도 엄청난 천재였을테고, 이 책에 쓰여진 내용이 해석된다면 인류 역사에 큰 전환점을 가지고올 내용이 포함되어 있을 수도 있겠다는 기대감까지 생기는데요. 이렇게 고도된 암호화 기술을 600년전 만들어낸 사람이라면 정말 대단한 사람임에는 틀림 없어보입니다.

약초그림


▼아무튼 미스테리로 가득찬 보이니치 필사본 해석에 자신있게 도전한 그레그 콘드렉 박사는 AI를 활용해 이 책 해석에 있어 의미있는 진전을 이뤄냈습니다. 콘드렉박사의 연구팀은 유엔 인권선언문을 97%의 정확도로 380개의 언어로 변환할 수 있는 능력을 가진 인공지능 기술을 활용해 이 책을 해석했다고 합니다.

책


▼그가 AI를 활용해 보이니치필사본을 해석해 본 결과 필사본에 사용된 언어는 모음이 삭제된 히브리어와 유사한 것으로 보여진다고 밝혔습니다. 그리고 책에서 농부, 빛, 공기, 불과 같은 단어를 찾아냈으며 그외에도 책에서 사용된 단어 중 80%가 히브리어 사전에서 나와 있는 단어라는 사실도 알아냈습니다.

히브리어


▼전문가들은 이 사실만으로도 보이니치 해석에 엄청난 진전을 이뤘다고 평가하고 있습니다. 이제 히브리어 전문가들과 AI가 힘을 합친다면 인류 최고의 미스테리중 하나인 이 책의 내용을 곧 완벽하게 파헤쳐낼 것으로 기대됩니다. 보이니치 필사본의 전체 내용은 여기서 확인 가능합니다.

암호학책


▼2월 1일 The Verge에서 이번 연구결과에 대한 반론 제기가 있었는데요. 네셔널지오그래피의 논평을 보면 이번 결과는 80%가 히브리어고 나머지 20%는 다른언어로 쓰여졌다는 걸 확인한 것이고, 이는 연구팀에서 본격적으로 이 문서를 해석하는데 사용할 언어와 코딩체계를 확립한 의미가 있다고 합니다.(지금은 테스트 개념으로 첫 10페이지만 AI가 해석한 것이라고 함) 앞으로 고대 희브리어 전문가와 협력한다면 이 문서를 해석할 수 있을 것이며, 기존에 이 문서를 해석했다고 주장한 사람들 보다는 설득력이 있어보인다고 합니다.

The Verge


▼이 연구팀은 현재 이번에 개발한 인공지능으로 다른 고대문서를 해석하는 작업에 상당히 들떠 있다고도 분위기를 전했습니다.

개발팀

모자이크

이미지 인식

성우