Ⅰ. 들어가는 말
본고는 대순사상에 대한 철학적 혹은 종교학적 관점에서 논하는 심층 연구가 아니다. 본 연구는 빅데이터 기술을 이용하여 『전경』을 분석한다. 빅데이터의 기술은 빠르게 변하는 현대 과학기술의 한 면을 반영한다. 바야흐로 지금은 디지털 나아가 AI가 인류의 변화에 강한 영향력을 행사하는 시대이다.1)
1997년 IBM에서 만든 딥블루(Deep Blue)가 체스 세계챔피언 게리 카스파로프(Garry Kasparov)에게 승리하였다. 그로부터 약 10년 뒤 2016년 알파고가 서울에서 이세돌 9단을 4:1로 바둑에서 승리했다. 그리고 6년 뒤, 2022년에 챗지피티’(Chat GPT)가 등장했다.2) 과거 이세돌과 바둑세계에서만 경험할 수 있었던 ‘충격과 전율’이 지금 이곳에서 지속적으로 업그레이드되고 새롭게 등장하는 인공지능이라는 기술을 통해 하루가 다르게 변하고 있다.3) 이러한 변화에 의거하여 궁극적으로 본 연구는, 디지털 시대에 대순사상이 연구와 교육에 있어서 어떠한 방향으로 나아가야 하는지 모색하고자 한다.
급진전하는 디지털 인문학과 AI의 기술에 관해서 언급할 것이 많지만, 사상적으로도 종교가 없는 무종교(無宗敎)가 이 시대의 종교가 되어버린 오늘날, 인간의 능력을 추월하고, 인류를 위협할 정도의 능력을 가진 AI를 포함한 디지털 기술의 발전은 현대 종교에 치명적인 영향을 미치고 있다.4)
본고에서는 철학적이고 인문학적인 넓은 범주의 문제는 다음으로 넘기고, 논의의 범주를 좁혀 빅데이터와 디지털 인문학적 기술을 이용하여 대순사상의 요체인 『전경』을 분석하고자 한다. 기술의 발전을 무시하고 외면하는 자세에서 벗어나, 기술의 발전을 적극적으로 이용하고 활용하여 나아갈 방향을 새롭게 모색하고자 하는 적극적 시도의 방편이라 할 수 있겠다. 즉, 빅데이터와 디지털 인문학을 활용하여 대순사상의 각 분야에서 앞으로 어떠한 그림이 펼쳐질 것인지 상상하며, 거시적인 현황을 확인하고, 모자란 부분을 어떻게 보완할 것인지를 고민하고자, 본고에서는 빅데이터의 기술을 통해 대순사상의 요체인 『전경』을 탐구하고자 한다. 구체적으로 본 연구는 다음과 같은 방식으로 진행한다.
첫째, 빅데이터 자료에 기초한 『전경』의 이해이다.
빅데이터 자료를 기반으로 하여 워드클라우드와 감성분석을 한다. 일반명사 빈도 분석을 기반으로 어떠한 명사가 많이 반복되는지 바차트로 추출하고 이것을 바탕으로 워드클라우드를 만든다. 명사, 형용사, 동사 중에 감정을 드러내는 어휘를 긍정/중립/부정으로 구분하면서 감정별로 추출한다. 추출된 어휘를 바탕으로 감성 클라우드를 만들고 감성 단어 백분율 표를 만든다.
둘째, 빅데이터 시각화를 통한 『전경』데이터의 의미를 연구한다. 앞의 작업을 통해 얻어진 일반명사 워드클라우드와 감성클라우드는 많은 의미를 담고 있다. 빅데이터 연구에서 중요한 것은 질 좋은 데이터를 많이 확보하는 것이다. 이러한 기초 데이터가 확보가 되면, 다음으로 이 데이터의 의미를 제대로 읽고 분석하는 작업이 중요하다. 대순사상의 역사적 종교적 의미를 담고 있는 『전경』을 심층적으로 접근하기 위해서는, 즉 『전경』 데이터의 의미를 다양하고 깊이 있게 추출하기 위해서는 AI의 기술에 대해 마음의 문을 열고, 다양한 연구와 편견 없는 토론이 이루어져야 한다.
Ⅱ. 디지털의 변화와 대순사상
기술의 발전은 사회와 문화를 변화시키는 언어와 물질 같은 가시적인 그 어떤 것보다 지금 인류에게 더 큰 힘으로 위협을 가하고 있다. 앞서 언급한 기술의 발전에서 디지털화의 최정점에 있는 AI의 발전은 인류의 능력을 넘어서고 인류가 가진 한계를 각성시킨다. 새로운 기술과 도구에 새로운 장이 펼쳐지는 것처럼, 앞으로 어떠한 장이 펼쳐지게 될지는 사람들의 초미의 관심사다.
그럼, 이러한 문제에서 조금 구체적으로 인문학과 디지털의 접목을 논하여 보기로 하겠다. 본고에서는 논문의 분량과 주제의 제한 때문에, 두 가지만 언급하고자 한다. 하나는 디지털화의 토대가 되는 아카이브(archive), 그리고 디지털을 분석하고 파악하는 데이터 마이닝(data mining)이다. 인문학이 디지털로 가는 길목에서 디지털로 전환하고, 이를 활용하여 분석하는 두 작업은 매우 중요하다.
먼저 아카이브이다. 아카이브는 디지털 작업의 토대가 되는 기초 단계이다. 이는 자료를 전산화하고 저장하며 보관하는 역할을 한다. 다시 말해 아카이브는 소장품이나 자료 등을 ① 디지털화하여, 한데 모아서 ② 저장하고 관리하며, 자료를 쉽고 효과적으로 ③ 검색할 수 있도록 모아 둔 ④ 파일을 의미한다.
아카이브는 인문, 사회, 역사, 철학, 경제, 법 등 관련 자료를 디지털화하고, 이것을 다시 누구든지 검색하고 활용할 수 있도록 표준화하여 보존하는 것이기에 디지털로의 전환에서 가장 토대가 되는 중요한 작업이다. 여기에서의 자료를 플랫폼을 통해 필요한 연구자에게 제공함으로, 디지털 시대에 있어서 모든 연구의 초석을 다질 수 있다.
아카이브가 자료를 모으고 빅데이터로 활용하기 위한 단계는 다음처럼 구분할 수 있다.
첫째, 자료를 디지털화하는 단계이다.
서적과 같은 관련 문헌 즉 텍스트로 된 정형 자료를 컴퓨터로 기록하여, 디지털화하여 기록하고 보존하는 과정을 거친다. 그리고 텍스트 형식의 정형 데이터뿐만 아니라, 음성, 이미지 등의 비정형 데이터까지 수집하고 편집하여 디지털화 한다.5)
둘째, 자료를 표준화하는 단계이다.
텍스트 자료를 TXT, PDF로만 제공하는 것이 아니라 다양한 형태로 전환하여 제공한다. 자료를 표준화하고 활용하려면, XML이나 TEI (Text Encoding Initiative)로 입력하여야 한다. 그러면 그 자료에서 ① 어휘의 뜻을 바탕으로 어휘를 추출하고, ② 어휘의 문맥적 의미도 추출함으로써, 다양한 자료 활용이 용이하도록 준비한다.
셋째, 자료를 다양한 기술로 활용하는 단계이다.
구축된 디지털 아카이브 자료를 가지고, ① 재처리하고 편집하고 가공하여 ② 시각화 및 AR, VR로 재현하여 적극적으로 활용하는 단계이다.
아카이브에 이어서 중요한 것은 데이터 마이닝이다. 이것은 대규모의 데이터베이스 안에서, ① 반복되는 단어(횟수, 위치를 통계적으로 파악)와 ② 일정한 규칙(단어간의 호응관계, 문장 규칙)과 ③ 패턴(언어 규칙 이외의 거시적 흐름)과 ④ 표면적 의미와 심층적 가치를 찾아내는 것으로서, 데이터에 내장된 것을 분석하는 것을 말한다.
데이터 마이닝의 과정은 다음과 같다.
첫째, 저장된 데이터 안에서 반복되는 어휘6)를 찾아내는 것이다.
둘째, 체계적인 통계 규칙이 적용되는 것을 추출한다.
셋째, 통계 규칙을 벗어나면서도 일정한 패턴이 나타나는 것을 찾아내는 것이다.7)
넷째, 텍스트 마이닝을 통해 데이터의 의미와 가치를 정립한다.
디지털의 변화는 인문학에도 영향을 발휘한다. 특히, 코로나 19의 파고를 넘으면서, 인문학 연구자들 사이에 ‘디지털 인문학’ 사용이 급격히 증가했다. ‘디지털 인문학’ 관련 연구논문 2017년 18편에서 2021년 43편으로 늘어났다.8) 그리고 2022년에는 카이스트에서, 2023년에서는 한양대에서, 2024년에는 고려대에서 ‘디지털 인문학’ 특강을 실시하여 많은 교강사에게 개념과 사용법을 소개하였다.9)
연구적 측면에서의 디지털 대순사상은 디지털과 대순사상의 관계에 따라서 다음과 같이 두 갈래로 구분하여 논할 수 있다. 디지털 기술에 의해서 대순사상을 연구하는 분야 (디지털에 의한 대순사상 분석)와 대순사상의 관점에서 디지털의 의미와 가치 그리고 영향과 한계 등을 연구하는 분야 (대순사상에 의한 디지털 세상 분석)이다.10) 무엇을 기준으로 삼고, 어떤 대상을 분석하는가에 따라 연구 방법이 달라진다.11)
디지털 아카이브 차원에서, 대순사상에 관한 연구가 어떻게 이루어져 있는지 다음과 같이 살펴볼 수 있다.
대순사상 관련 자료로 경전과 같은 문헌, 유물에 대한 이미지, 위인들의 활동에 관한 영상이 현재 어떻게 디지털화 되어 있는지 그리고 이렇게 디지털화된 자료를 XML, TEI, 온톨로지 등의 기술을 활용하여 단어, 의미, 맥락을 상황에 맞게 검색하고 추출하고 텍스트 마이닝 할 수 있도록 준비되어 있는지 다음과 같은 자료를 통해 확인 할 수 있다.
박물관은 전시관과 전시영상으로 구분하여 놓았으며, 4층 ‘천지공사’, 3층 ‘50년 공부종필’, 2층 ‘포덕천하’로 주제별로 내용을 압축하였다. 그리고 360 VR 영상을 마련하여 방문자가 여주에까지 오지 않더라고 많은 자료를 영상으로 볼 수 있도록 많은 영상을 제공하고 있다. 박물관에서 보완해야 할 것은 전시관과 전시영상으로 구분하여 놓았으면, 전시관은 다양한 유물과 전시물에 관한 내용이 제공되고, 나머지 영상은 전시영상에 통합되면 박물관의 기능이 더 배가 될 것으로 생각된다.
대순진리회 사이트에는 경전과 대순사상논총 데이터가 내용과 발행순으로 잘 정리되어 있으며 이 데이터를 누구든지 다운받게 되어 있어서, 플랫폼으로서의 기능을 충실히 잘 감당하고 있음을 알 수 있었다. 이것 이외에도 다양한 데이터와 자료를 내용별로 저장하여 다운받기를 제공하고 있다.
대순회보 : https://webzine.daesoon.org
대순사상논총 : https://www.jdaos.org/archive/search 본문검색 (Full Text search)
『전경』 검색 전경/대순지침/대순진리회요람/도헌/포덕교화기본원리 : http://daesoon.org/about/bible.book.php
대순종교문화연구 – 아카이브 – 경전, 서적, 논문 : http://dirc.kr/bbs/content.php?co_id=003_01
디지털시대에 대순사상 교육은 디지털 기술을 적극 활용하여, 현재의 디지털 유목민 세대에게, 대순사상을 고리타분한 옛날 이야기가 아니라, 재미있고 유익한 현재의 이야기임을 알려주는 접근법이될 수 있다.
이러한 맥락에서 첫째, 대순사상사에 있어서 중요한 사건과 그 배경, 중심 인물들과 유적 등을 선별하고 스토리 중심으로 교육하는 것도 좋겠다. 둘째, 사건과 인물과 유적이 어떤 인과관계, 상관관계, 호응 관계를 맺고 있는지를 질문한다. 올바른 답을 요구하면서 정확한 지식을 추구하는 교육도 진행되면서, 한편으로는 자유롭고 창의적인 질의와 대답을 통해 재미있으면서 학습자의 상상력을 고취하는 교육도 필요하다. 셋째, 그 질의 응답의 결과를 인물 관계망 네트워크, 타임라인, 인과관계에 반영하여, 학생 스스로 전자문화지도를 작성하도록 하는 것도 학습과 교육에 적절한 방안이라고 생각한다.
이러한 디지털 기술과 기술을 통해 공부 거리를 제공하여 학습자로 하여금 재미와 흥미에 빠지게 한다. 더 나아가 그러한 연구와 디지털화 과정 자체를 학생 스스로 참여하여 구축하도록 한다. 이러한 자발적 참여를 통해, 디지털 기술을 활용한 대순사상의 의미를 찾게 하면 교육의 효과가 배가 될 것이다. 이와 더불어 디지털 아카이브 구축과 데이터 마이닝 과정 훈련, 그리고 데이터 기술을 활용한 연구와 교육이 대학 시스템에 접목되면, 큰 시너지 효과를 일으킬 수 있을 것이다.
궁극적으로 디지털 및 AI의 발전에 맞물려 인문학을 비롯하여 대순사상의 운영주체에게 다음과 같은 질문을 던질 수 있을 것이다.
첫째, 전략과 전술이 있는가? AI는 전통적인 플레이 스타일을 뛰어넘는 새로운 전략과 전술을 제시한다.
둘째, 훈련 도구로 활용하는가? AI의 활용이 자신을 변화, 발전시키는 도구이다.
셋째, 시대 인식에 대한 변화가 있는가? 창의성과 혁신만이 살길이다.
넷째, 어떻게 접근할 것인가? AI를 적극적으로 활용하여 새로운 시대에 앞서가야 한다.
사실 이러한 질문은 대순사상 운영주체에게만 해당하는 것은 아니다. 종교와 사상을 떠나 디지털과 AI의 위협 속에 사는 오늘날, 우리 모두 다 함께 생각할 문제이다.
Ⅲ. 빅데이터의 기술과 『전경』
이번 장에서는 『전경』을 시각화하고, 시각화한 『전경』의 의미를 분석하고자 한다. 이는 앞서 언급하며 다루었던 디지털화의 토대가 되는 아카이브(archive), 그리고 디지털을 분석하고 파악하는 데이터 마이닝(data mining)을 그대로 적용한다. 『전경』의 기술은 대순사상의 요체인 『전경』에 대한 내용이 디지털화 되었고, 이러한 것을 구축한 아카이브가 토대가 되어 나온다. 그리고 시각화된 결과를 분석하며 의미를 파악하는 것은 앞서 언급한 두 번째 것인 데이터 마이닝의 일종이 된다.
데이터 시각화란 서술된 정보를 도표, 그래프, 지도, 시뮬레이선(simulation) 등과 같은 시각적인 요소들을 사용하여, 쉽고 효과적으로 이해할 수 있게 표현하는 것을 의미한다. 이러한 연구를 거쳐서 얻어진 연구 결과물을 다양한 디지털 기술에 접목하여 연구자와 많은 대중에게 보다 쉽고 재미있게 접근할 수 있도록 서비스하는 것이다.
인문학에서 사용하고 있는 대표적인 시각화 방법으로는 인물 관계망 네트워크, 전자문화지도, 타임라인 등이 있다. 이는 현재 활발하게 사용되고 있으며, 여기서 더 나아가 새로운 시각화 기술이 빠르게 개발되고 있다.12) 또한, 이와 별도로 사회연결망 분석 기법을 활용한 연구나,13) 공간을 중심으로 문학지리학적으로 지도상 좌표를 그리는 작업도 수행되었다.14) 이처럼 시각화에는 현재 다양한 방법과 새로운 방법이 시도되고 개발되고 있다.
대순사상 중에서 『전경』에 대한 내용을 시각화한 것을 정리하면 다음과 같다.
첫째, 빅데이터 기술을 통한 『전경』의 데이터 결과를 연구한 결과, 다음과 같은 단어 클라우드를 확인할 수 있다.
『전경』에서 나오는 단어의 빈도수를 조사한 자료를 토대로, 예를 들어 『전경』에서 중요하게 여기는 단어가 ‘상제’라고 이해하는 것은 너무 단순하다. ‘상제’는 믿음과 사상의 토대이기에, 이를 염두에 두고, 다른 단어와의 관계를 살펴 분석할 필요가 있다. ‘상제’ 다음으로 많이 나오는 단어는 ‘사람’과 ‘말씀’이다. 이를 보다 정확하게 파악하기 위해 다음 바차트를 참고할 필요가 있다.
바차트에서는 단어 빈도수를 확인할 수 있다. ‘상제’(1400) ‘사람’(390) ‘말씀’(350)이다. 여기서 먼저 생각할 것은 “왜 ‘상제’라는 단어가 압도적으로 많은가?”이다. 물론 앞에서도 언급한 것처럼 상식적인 수준에서 생각하면, 당연히 『전경』은 종교적인 경전이기에 종교적으로 제일 중요한 대상이 제일 많이 언급되는 것이 당연하다. 그렇다면 2차적으로 “어떠한 상황과 계기에 의해서 이렇게 많이 등장하게 되는지”에 대한 연구가 필요하다.
또한, ‘상제’, ‘사람’, ‘말씀’이 세 단어로 문장을 만들면, ‘상제께서 사람에게 말씀하셨다’가 된다. 상제가 주체가 되고, 사람이 대상이 되며, 말씀하셨다가 행동이 되는 것이다. 이는 『전경』의 가장 핵심 문장이 되는 것이다. 이렇게 단어 빈도를 통해 제일 중요한 문장을 유추할 수 있다.
나아가 위의 바차트에 나온 단어를 나열하면, ‘상제, 사람, 말씀, 종도, 경석, 공사, 마음, 생각, 하늘, 신명, 전주, 천지, 세상, 동곡, 공신, 도수, 기운, 천하’ 18개 어휘이다. 이것을 의미에 따라 분류해 보면, 어떤 종류의 단어가 많이 사용되었는지 확인할 수 있다. 그러면 ‘왜 이러한 범주의 단어가 많이 사용되었고, 무슨 기능을 하는가?’ 질문하면서 이에 대한 의미를 부여할 수 있다.
둘째, 단어와 단어 간의 네트워크도 확인할 수 있다.
단어와 단어의 네트워크를 살펴보면 상제가 거의 모든 단어와 연관되어 있음을 확인할 수 있다. 그래서 상제가 압도적으로 많은 빈도를 갖게 되는 것을 알 수 있다. 독특한 것은 ‘이상히 – 여겨’의 두 단어가 서로 깊은 연관성을 갖으면서, 다른 단어와 따로 떨어져 있다. 이러한 현상이 왜 생기는 것인지 의문을 갖고 『전경』을 읽으면서 그 이유를 확인하는 것이 필요하다.
연구방안 1. 단어 빈도와 문맥
대순진리회의 『전경』은 ‘행록, 공사, 교운, 교법, 권지, 제생, 예시’로 구성되어 있으며, 각각의 부분은 목적하는 바가 다르고, 그 목적하는 바를 이루기 위해 서술하는 방식이 다르다. 단순하게 단어의 빈도를 분석하는 경우에는, 『전경』 전체를 대상으로 단어 빈도를 분석하여, 거시적인 차원에서 어떠한 단어가 어느 정도의 빈도를 나타내는지 살펴보는 것도 의미가 있다. 그러나 단순히 단어 빈도 분석이 아니라, 문장 내에서 단어 간의 호응관계와 맥락을 분석하기 위해서는, 『전경』의 구성요소에 따라 ‘행록, 공사, 교운, 교법, 권지, 제생, 예시’로 나누어 분석하는 것이 유의미한 결과를 낼 수 있다.
그래서 본 연구에서는 첫 연구로 『전경』 pdf 106쪽 전체를 대상으로 단어 빈도를 조사하였고, 문장의 의미 관계를 분석하기 위해서는 7개의 부분으로 나누어 분석하였다. 상제의 단어를 예로 들어 설명하면, 상제라는 단어가 『전경』에서 1400여 회 제시되었다. 이것을 문맥에 따라 분석해 보면, ‘행록’의 경우에 ‘상제께서 (434회)’, ‘상제를 (72회)’, ‘상제의 (49회)’로 구분된다. ‘상제께서’는 문장의 주체로 상제가 행한 일을 서술하고 있다. ‘상제의’ 문장은 상제가 행하신 일의 주체로서, 그의 이르심을 강조하기 위해 ‘상제의 이르심’과 같이 표현하고 있다. 결국 ‘상제께서’15)와 ‘상제의’16)의 문장은 주체의 행위에 관한 표현이다. 반면에 ‘상제를’17)은 목적격에 해당된다. 문맥에 의하면 김현찬이 상제를 뵈옵는 대상으로 표현하였다.
1. 질문 : 진주 강씨(晉州姜氏)는 언제 중국에서 우리 나라에 건너 왔나요?
1. 답 : 진주 강씨는 중국 수양제(隋煬帝) 시대에 우리 나라로 건너왔습니다.
2. 질문 : 예로부터 삼신산(三神山)으로 불리워 오던 곳이 어디인가요?
2. 답 : 삼신산으로 불리워 오던 곳은 방장산(方丈山)입니다.
3. 질문 : 방장산과 함께 삼신산으로 불리워 오던 곳을 다 말해 주세요
3. 답 : 삼신산으로 불리워 오던 곳은 봉래산(蓬萊山), 영주산(瀛洲山), 일명 신선봉(神仙峰), 방장산(方丈山)의 세 산이 함께 있는 곳입니다.
4. 질문 : 상제께서 탄강하실 때, 성, 존휘, 존호를 알려 주고, 태어나신 날을 단기와 서기 둘 다 알려 주세요
4. 답 : 저는 그 정보를 알 수 없습니다.
5. 질문 : 상제께서 탄강하실 때, 존휘와 존호를 알려 주세요.
5. 답 : 존휘는 일순(一淳)이고, 존호는 증산(甑山)입니다.
6. 질문 : 상제께서 일곱 살 때에 글방에 가셨는데 훈장(訓長)으로부터 놀랄경(驚)의 운자를 받고 지은 문장은 무엇인가요?
6. 답 : 상제께서 일곱 살 때에 글방에 가셨는데 훈장으로부터 놀랄경의 운자를 받고 지은 문장은 “원보공지탁 대호공천경(遠步恐地坼 大呼恐天驚)”입니다.
Streamlit에서 RAG를 활용하여 ‘행록’ 1-4쪽에 나오는 내용을 질의하였다. 대체로 주어진 자료를 바탕으로 정확하게 대답을 해 주었다. 그러나 4번과 같이 여러 가지 질문을 한꺼번에 던져 주었을 때에는 질의 내용을 제대로 소화하지 못하고 있는 모습이 나타났다.
RAG에서는 여러 질문을 한꺼번에 던지거나 복잡한 질문에 대한 대답은 처리하지 못하고 있음을 알 수 있었다. 물론 『전경』의 ‘행록’을 대상으로 학습을 시도한 것이 2회 정도밖에 되지 않아 충분히 학습이 되지 않은 상태라고 할 수 있다.
이번에는 비교를 위해, 그동안 잘 알려지고 RAG에서 학습이 많이 된 ‘운수 좋은 날 pdf’를 대상으로 질의 응답을 하였다.
1. 질문 : 김첨지는 무슨 일을 하는 사람인가요?
1. 답 : 김첨지는 인력거꾼으로 일을 하고 있습니다.
2. 질문 : 김첨지가 일하러 가는 날의 날씨를 설명해 주세요
2. 답 : 김첨지가 일하러 가는 날의 날씨는 “새침하게 흐린 품이 눈이 올 듯하더니, 눈은 아니 오고 얼다가 만 비가 추적추적 내리었다”고 기술되어 있습니다.
3. 질문 : 달포는 어느 정도의 기간인가요?
3. 답 : 달포는 한 달을 의미합니다.
4. 질문 : 그의 아내가 기침으로 쿨룩거리기는 벌써 달포가 넘었다 - 라고 하였다. 그려면 한달 이상 감기에 걸린 것이군요?
4. 답 : 아니요, 이 문장에서는 감기에 걸린 것이 아니라 중증한 병으로 인해 쓰러진 환자의 상황이 묘사되고 있습니다. 감기와 중증한 병은 서로 다른 상황입니다.
‘운수 좋은 날’은 RAG에서 최소한 10여 차례 질의 응답을 하여 학습이 어느 정도 되어 있는 상태였다. 그래서 그런지 ‘마치 사람하고 질의 응답하는 말투’로 생성되어 대답하였다.
2번 질문에서도 사람이 물어본 질문(김첨지가 일하러 가는 날의 날씨는)의 의도를 찾아내는 듯한 느낌이었다. 이러한 질문을 파악하여 본문에 나와 있는 것을 잘 연결하여 대답하였다.
위의 1, 2번 질문에 대한 답은 본문에 나온 명시적인 내용을 기반으로 대답한 것이라면, 3번 질문에서 달포가 한 달을 의미한다는 내용은 본문에 없었다. 그러함에도 RAG는 사전에 학습된 지식을 활용하여 답변을 자연스럽게 생성하였다.
4번 질문에서는 연구자가 실수로 ‘감기’라고 단정 짓고 질문하였다. 그러자 RAG는 감기와 중증 병의 차이를 설명해 주었다. 이러한 비교를 통해 우리는 다음과 같은 사실을 확인할 수 있다. 즉, 『전경』에 대한 충분한 학습이 진행된다면, 정확하고 수준 높은 응답이 나올 것이라 예상할 수 있다.
셋째, 빅데이터 시각화에서 많이 활용하는 것이 감성 분석21)이다. 감성 분석이란 『전경』에 들어 있는 문장의 내용을 긍정/중립/부정으로 구분하여, 『전경』에서 감성과 관련한 키워드가 어떠한 식으로 존재하는지를 파악하는 것이다.
베이지안 분류기(Bayes Classifier)를 활용하여 단어에 대한 감성22)을 분석한다. 이를 위해 먼저 ‘학습데이터’를 만들 것이다. ‘학습데이터’란 전체 데이터를 분류하는 기준 데이터이다. ‘학습데이터’의 정확성에 따라 분류의 질이 달라진다. 학습데이터는 다다익선으로 최대 1,000건의 데이터를 바탕으로 만드는 것이 이상적이다. 그래야 긍정, 중립, 부정에 관한 비교적 정확한 결과를 얻을 수 있다.23) 이러한 베이지안 분류기에서 제작한 감성어 어휘 사전을 이용하여 『전경』의 단어를 분류한다.
감성어 어휘사전은 긍정, 중립, 부정이라는 세 가지 대분류로 구분한다. 긍정의 어휘를 또 다시 흥미, 호감, 기쁨으로 3개의 소분류로 나눈다. 역시 부정의 어휘에서도 통증, 슬픔, 분노, 두려움, 놀람, 거부감으로 6개의 소분류를 거치게 된다.24) 그리고 소분류에서 만약 기쁨이라는 단어가 있다면, 이러한 기쁨을 표현하는 수많은 단어를 감성강도 7점 만점으로 나누어 그 감정의 강도(强度)에 따라 표준화하는 알고리즘을 만들어 놓았다. 즉, 같은 호감 안에 들어가는 단어라도 감성강도를 다르게 사전을 구축하였다. 감성단어 빈도25)는 키워드의 빈도와 함께 감성의 강도를 함께 제시함으로써 감성을 전체적으로 파악하는 통찰력을 얻을 수 있다.
감성 워드 클라우드에는 감정과 관련된 형용사, 동사, 명사를 모아 놓았다. 위의 감정 워드 클라우드에서 보듯이 『전경』에서의 핵심적인 감성은 ‘신명나다’이다. 이러한 객관적인 자료를 바탕으로 어떠한 상황에서 신명이 나는지 다양한 사례를 모으고 분석함으로써 『전경』에서 의미하는 신명이 어떠한 신명인지 분석하는 것이 중요하다. 긍정의 단어는 ‘기쁨-호감-흥미’ 순으로 많이 나타났다. 부정의 단어는 ‘슬픔-거부감-두려움-분노-놀람-통증’순으로 나타났다.
이상의 시각화 연구를 통해, 기존의 연구와 다르게 『전경』자체를 객관적, 거시적 관점에서 살펴볼 수 있다. 이러한 연구를 바탕으로 『전경』의 기술과 시각화한 『전경』을 토대로, 『전경』에 대한 의미를 알아볼 필요가 있겠다. 이는 앞서 언급한 아카이브의 기초 위에 진행되는 데이터 마이닝의 한 방법이다. 데이터 마이닝에 인문학적 소양과 전문 지식이 요청된다. 그리고 이러한 작업이 축적되면, 연구는 여기서 그치지 않고, 『전경』의 의미와 특징을 넓고 깊게 이해할 수 있다.
물론 이러한 작업에는 많은 인력 및 시간과 노력이 필요하다. 나아가, 본 연구를 바탕으로 후속연구를 진행할 토대를 형성할 수 있다. 또한, 이번 연구에서 도출한 『전경』 분석을 토대로, 다른 경전이나 중요 문서와의 비교 연구를 진행할 수 있다. 이를 통해 『전경』의 정체성, 비교우위, 특징 등을 빈도어 분석 차원, 감성 분석 차원 등에서 확인할 수 있다.
본고에서는 이러한 측면을 모두 다룰 수 없기에 앞서 언급한 디지털의 변화와 대순사상이라는 틀에서, 시각화한 『전경』을 토대로 그 의미를 논하고자 한다. 이러한 논의를 편의상 크게 두 가지 측면에서 논하고자 한다. 첫째, 시각화한 『전경』에 대한 의미. 둘째, 이러한 작업이 주는 의미이다.
① 시각화한 『전경』에 대한 의미
앞서 시각화한 자료를 보면, 기존의 『전경』 연구와 다른 측면이 발견된다. 기존의 연구는 개인 연구자의 정성적 측면의 접근과 해석이었다면, 빅데이터를 시각화한 연구는 정량적 데이터를 기초로 한 해석이다. 컴퓨터의 기능을 기반으로 한 분석이기에, 경전의 빅데이터 즉 수많은 페이지의 내용도 쉽고 빠르게 검색할 수 있으며, 정확한 통계를 추출할 수 있다.
② 시각화 및 디지털화한 작업이 주는 의미
요즘 인공지능에 의해서 대체되는 인간의 일자리는 단순 노동뿐만 아니라 의사와 변호사와 같은 전문 지식의 일자리까지 위협하고 있다. 지금의 인류는 자신의 일을 보조해 줄 비서로 창조한 인공지능에 의해서 전혀 예상치 못한 새로운 변곡점을 맞이하고 있다. 이러한 상황에서 인류는 어떠한 가치를 우선시하며, 어떠한 사회를 만들어가야 할 것인가? 이에 대해서 대순사상계는 대순사상의 정신에 입각하여, 인간과 인공지능 로봇이 공진화할 수 있는 미래상을 제시하는데 주저하지 말아야 할 것이다. 우리나라의 디지털 대순사상은 다음과 같은 차원에서 새롭게 정립할 분야를 정리해 볼 수 있다.
* 회보와 논문과 같은 정형 자료에만 디지털 아카이브의 편중
* 데이터 마이닝과 데이터 시각화에 대한 아이디어 빈곤
* 데이터 과학화에 대한 연구의지 미흡
* 디지털 대순사상에 관한 공용 플랫폼화에 대한 인식 부족
디지털화 측면에서 대순사상을 바탕으로 기록하고 데이터화한 대순사상 아카이브는 상당히 많은 노력을 기울여 다방면의 좋은 자료가 축적되어 있다. 연구 분야의 세 단계 중에서 첫 번째 단계인 디지털 아카이브는 꾸준하게 체계적으로 잘 진행되어왔다. 이러한 것을 기초로 하여 다음 단계인 XML, TEI와 같은 온톨로지 등의 디지털 인문학적 기술을 이용하여, 대순사상의 자료를 의미화, 맥락화 하는 분야로 연구의 능력과 의지를 집중해야 한다.
이와 동시에 데이터 마이닝과 데이터 시각화 단계에 대한 연구도 시급하게 서둘러야 한다. 그러면서 다른 연구자에게 대순사상 관련 디지털 아카이브의 자료를 적극적으로 공개해야 한다. 자료를 공개할 뿐만 아니라, 대순사상 관련 자료를 디지털 아카이브를 할 때에, 어떤 자료를, 어떤 기술을 사용하여, 어떤 구조로 설계했으며, 어떤 알고리즘 활용하여 제정했는지 공개하여 많은 연구자가 쉽게 연구할 수 있도록 기반을 열어 놓아야 한다.
마지막으로 이러한 연구과정과 결과물을 공용 플랫폼화하여 유사 연구에서 쉽게 재활용할 수 있도록 서비스를 제공하여 더 많은 관련 연구가 진행되도록 선도 역할을 해야 한다.
Chat GPT의 활성화로 단순한 검색보다는 의미 있는 질문이 유효한 이 시대에 다음과 같은 질문을 던지며 다양한 해답을 찾아갈 수도 있겠다. 교리적인 측면으로서 인공지능이 무엇인가? 대순사상의 입장에서 인공지능을 어떻게 활용할 것인가? 인공지능이 대순사상을 강의할 수 있는가? 인공지능이 천지공사에 활용될 수 있는가? 등등, 물론 현재의 인공지능이나 Chat GPT는 지금 급속하게 발전하는 단계이므로 이러한 질문에 만족할 만한 답을 기대하는 것은 아직은 어불성설일지도 모른다. 그러나 가능성의 차원에서, 미래를 선도한다는 차원에서 대순사상계가 앞으로 주목하여 논의해야 할 주제라고 생각한다. 보다 현실적인 문제로서 인공지능과 로봇이 수십년 안에 가져올 경제·사회적인 변화에 대해서 대순사상은 어떤 철학과 비전, 그리고 전략을 제시할 것인가 이에 대한 대답을 준비해야 한다.
이러한 연구를 통해, 대순사상이 디지털 시대, 디지털 인문학의 흐름에 대해서, 단순한 대응을 넘어 이를 선도하기 위해서는, 대순사상이 무엇을 해야 하는지에 대한 근본적인 질문과 대답, 이에 따른 실행이 중요한 때라는 점을 확인할 수 있었다고 생각한다.
Ⅳ. 나오는 말
지금까지 빅데이터의 기술과 디지털 인문학적 기술을 통해 대순사상의 요체인 『전경』을 분석하고 고찰하였다. 이는 구체적으로 첫째, 빅데이터 시각화에 기초한 『전경』의 이해와 둘째, 빅데이터 시각화를 통한 『전경』 데이터의 의미 연구로 구분된다.
이를 실현하기 위해 2장에서는 디지털의 변화와 대순사상을 알아보았다. 특히 디지털의 변화와 대순사상과 디지털에 대하여 고찰하였다. 3장에서는 빅데이터의 기술과 『전경』을 고찰하면서, 『전경』의 기술과 시각화한 『전경』에서의 의미를 분석하였다.
Chat GPT를 내세운 인공지능의 발전은 지금까지 인류 사회와 문화를 변화시켜온 그 어떤 이데올로기나 물질과 기술보다 인류에게 더 큰 힘으로 위협을 가하고 있다. 우리는 이러한 변화에 의거, 현재의 디지털 시대에 대순사상이 어떠한 방향으로 나아가야 하는지 탐구할 필요를 확인하였다. 본문에서도 다루었지만, 이러한 연구를 기초로 대순사상의 각 분야에서 앞으로 어떠한 그림이 펼쳐질 것인지 상상하며, 거시적인 현황을 확인하고, 모자란 부분을 어떻게 보완할 것인지를 더욱 고민해야 할 것이다. 이러한 측면에서 연구를 마무리하며 본문에서도 언급한 두 가지를 정리하여 제시하면 다음과 같다.
첫째, 본문에서 살펴본 바와 같이 대순사상의 디지털화는 상당한 양을 축적해 왔음을 알 수 있다. 이러한 아카이브를 바탕으로 자료를 찾고, 의미와 패턴을 구체화하고, 의미와 가치를 밝히는 데이터 마이닝을 활성화해야 한다. 현재의 디지털 시대에 있어서 디지털화의 토대가 되는 아카이브, 그리고 디지털을 분석하고 파악하는 데이터 마이닝의 차원에서 대순사상의 변화를 제안하였다.
둘째, 데이터 마이닝의 적극적 활용이다. 특히 이러한 활용을 교육에 접목하여 언급하면 다음과 같다. 『전경』에 나온 이야기를 사건과 인물과 유적이 어떤 인과관계, 상관관계, 호응 관계를 맺고 있는지를 시각화하고, 인물 관계망 네트워크 만들기, 사건과 사건의 타임라인 만들기, 사건 발생지에 관한 전자문화지도를 작성하기 등을 통해 상상력을 발휘하는 교육도 가능할 것이다.
그리고 우리나라의 디지털 대순사상의 발전을 위해, 회보와 논문과 같은 정형 자료에만 치중된 디지털 아카이브의 편중을 지양하고, 데이터 마이닝과 데이터 시각화에 대한 아이디어를 적극적으로 개발하고, 데이터 과학화에 대한 연구 의지를 확충하면서, 디지털 대순사상에 관한 공용 플랫폼을 만들 것을 고민할 필요가 있을 것이다. 그리하여 이러한 연구를 통해, 대순사상이 디지털 시대, 디지털 인문학이 도래한 이 시점에서, 미래를 선도하기 위한 새로운 도전을 구체적으로 어떻게 해야 할지 가늠해 보는 계기가 되길 기대한다.