【摘要】古籍數(shù)字化保護和傳播的對象,不僅是古籍的文本內(nèi)容,而且包括蘊藏其中的知識信息與精神價值。在大數(shù)據(jù)、數(shù)字人文和人工智能技術的驅(qū)動下,古籍數(shù)字化傳播在優(yōu)化閱讀體驗、改進知識服務、輔助學術研究、弘揚中華優(yōu)秀傳統(tǒng)文化等方面,取得顯著成效。從最初的文本錄入、索引編制、單書檢索系統(tǒng)研發(fā),到大規(guī)模建設各種類型的古籍數(shù)據(jù)庫,再到當今利用計算機技術對古籍進行自動標點、自動校勘、自動注釋、自動編纂,運用數(shù)字人文技術、人工智能技術,對古籍進行深度知識開發(fā),古籍數(shù)字化迎來重要發(fā)展機遇期。
【關鍵詞】古籍數(shù)字化 古籍保護 知識服務 文化傳播
【中圖分類號】G255.1 【文獻標識碼】A
歷盡劫波、千年不圮的古籍是中華文明的見證,其承載的歷史記憶、文化遺產(chǎn)與民族情感,既是中華民族寶貴的精神財富,又是世界文明不可分割的組成部分。習近平總書記指出:“要運用現(xiàn)代科技手段加強古籍典藏的保護修復和綜合利用,深入挖掘古籍蘊含的哲學思想、人文精神、價值理念、道德規(guī)范,推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展。”①2022年4月,中共中央辦公廳、國務院辦公廳印發(fā)《關于推進新時代古籍工作的意見》,提出要“推進古籍數(shù)字化”②。同年10月,全國古籍整理出版規(guī)劃領導小組印發(fā)《2021—2035年國家古籍工作規(guī)劃》,將“國家古籍數(shù)字化工程”列為四項重大工程之一,并對相關工作進行詳細規(guī)劃③。古籍數(shù)字化迎來重要發(fā)展機遇期。
古籍數(shù)字化傳播的內(nèi)容選擇
我國歷史遺存的古籍大約有20萬種,推動古籍數(shù)字化傳播過程中存在兩個問題:一是有無必要全部實現(xiàn)數(shù)字化?二是如果存在輕重緩急,應如何分步驟推動?從文化遺產(chǎn)保護的長遠角度看,對所有古籍實現(xiàn)數(shù)字化保存確有必要。古籍的內(nèi)容,用今人眼光來看雖良莠不齊,但可以區(qū)別利用,如有的可作文化普及用,有的可供學術研究用。因為古籍存量大、數(shù)字化周期長,且不同古籍在內(nèi)容、版本、價值及保存狀況等方面存在較大差異,數(shù)字化工作必須有序推進。換句話說,古籍數(shù)字化傳播的內(nèi)容存在一個優(yōu)先選擇的問題。
古籍數(shù)字化傳播的內(nèi)容選擇,是由其工作內(nèi)涵、當前任務及歷史使命決定的。人們對古籍數(shù)字化工作內(nèi)涵的認識經(jīng)歷了三個階段:一是將古籍數(shù)字化視作古籍內(nèi)容存儲介質(zhì)的轉(zhuǎn)換,即把文本內(nèi)容從傳統(tǒng)的紙質(zhì)載體中遷移至數(shù)字載體;二是在轉(zhuǎn)換古籍內(nèi)容存儲介質(zhì)的同時,利用計算機技術完成對古籍數(shù)字資源的有序化組織和檢索;三是將古籍數(shù)字化視作傳統(tǒng)古籍整理在數(shù)字環(huán)境下的發(fā)展和延續(xù),即把古籍數(shù)字化轉(zhuǎn)換之后形成的書目數(shù)據(jù)、文本數(shù)據(jù)、圖像數(shù)據(jù)等,當作下一步古籍整理的素材,再運用文本挖掘與聚類、社會網(wǎng)絡分析、地理信息系統(tǒng)(GIS)、知識可視化、機器學習等新型信息技術,對其進行深度知識開發(fā)。古籍數(shù)字化發(fā)展至今,可將之定義為:以保存古籍文本和版本信息為基本目的,以發(fā)掘古籍蘊涵的知識思想與認識歷史發(fā)展規(guī)律為最高目標,在對紙質(zhì)古籍完成傳統(tǒng)的版本鑒定、文本辨?zhèn)?、文字??钡日沓绦蛑螅倮矛F(xiàn)代信息技術將其文本或影像轉(zhuǎn)換成計算機可存、可讀、可傳輸、可檢索的數(shù)據(jù),并對這些數(shù)據(jù)進行深度加工,實現(xiàn)知識的發(fā)掘、發(fā)現(xiàn)和重新聚合的過程。從這個意義上說,古籍數(shù)字化保護和傳播的對象不僅是古籍的文本內(nèi)容,而且包括蘊藏其中的知識信息與精神價值。
從當前古籍數(shù)字化的現(xiàn)狀及歷史使命來看,古籍數(shù)字化面臨的首要任務就是保護古籍。古籍雖有紙壽千年之說,但在現(xiàn)有保存條件下,其原始的物理實體將面臨不可逆的衰變,而數(shù)字化可將古籍影像及內(nèi)容,化身千百乃至無窮,達到古籍內(nèi)容再生性保護的目的。古籍數(shù)字化當下最現(xiàn)實的任務是服務讀者。傳統(tǒng)古籍受制于嚴格的管理和保護制度,許多孤本、珍本和善本“深藏閨中人未識”,普通讀者難以見到。而數(shù)字化之后,讀者不僅可以遠程瀏覽和全文檢索,而且可以進行深度知識開發(fā),進一步提高了古籍利用率,從根本上解決古籍“藏”與“用”的矛盾。
古籍讀者有專業(yè)研究人員和普通讀者之分,這就要求古籍數(shù)字化傳播的內(nèi)容要有學術性和普及性的區(qū)分。從長遠看,古籍數(shù)字化的一個重要任務,就是傳播和弘揚中華優(yōu)秀傳統(tǒng)文化。古籍承載著豐富的歷史信息、哲學思想、人文精神、家國情懷、價值倫理和道德規(guī)范,古籍數(shù)字化不僅要充分發(fā)掘這些文化素材,而且應擴大其在中國乃至世界范圍的影響力。做好古籍工作,把祖國寶貴的文化遺產(chǎn)保護好、傳承好、發(fā)展好,對賡續(xù)中華文脈、弘揚民族精神、增強國家文化軟實力、建設社會主義文化強國具有重要意義。
基于以上認識,古籍數(shù)字化傳播的內(nèi)容首先應該涵蓋中華文化的基本典籍,大型叢書、總集、工具書應該成為首選。叢書如《十三經(jīng)注疏》《二十五史》《諸子集成》《四庫全書》等;類書如《北堂書鈔》《藝文類聚》《玉海》等;總集如《先秦漢魏晉南北朝詩》《全上古三代秦漢三國六朝文》《兩漢全書》《全唐詩》等,還有歷代別集、會要、會典等。這些大部頭古籍叢書的數(shù)字化,基本能滿足文化普及和一般學術研究的需要。其次,珍稀版本和特種古籍,應優(yōu)先數(shù)字化。我國先后分六批公布《國家珍貴古籍名錄》,共485家機構(gòu)和個人收藏的13026部古籍入選,這些古籍因其特別的文獻價值、文物價值和藝術價值,成為古籍保護的重點對象,理應優(yōu)先成為數(shù)字化的對象。古籍整理本經(jīng)過前人甄別版本、精心??保谖谋緶蚀_性、可靠性方面,較一般版本更勝一籌,也應成為優(yōu)選對象。明清稿本、抄本,因其沒有大規(guī)??逃?,復本數(shù)量少,或只存孤本,學術價值較高,也應加快其數(shù)字化進程。而像甲骨文獻、簡帛文獻、石刻文獻、敦煌文獻、譜牒文獻、輿圖文獻等特種古籍,對于研究某一類專門學問具有特別重要的意義,而其紙本文獻又不易為一般學者所獲得,也應優(yōu)先進行數(shù)字化。再次,像地方文獻、少數(shù)民族文獻、中醫(yī)藥文獻、古農(nóng)書文獻、佛教文獻、道教文獻,因其內(nèi)容具有鮮明的地域特色、民族特色和專業(yè)特色,對于豐富中華文化具有重要價值,也是古籍數(shù)字化必不可少的內(nèi)容。這就需要國家在古籍數(shù)字化領域進行頂層設計,提出各階段古籍數(shù)字化的目標、任務和舉措,有序推進古籍數(shù)字化進程,避免選題重復和資源浪費。
古籍數(shù)字化傳播的現(xiàn)狀與成效
自1975年德國漢堡大學的吳用彤編制英文版《詩經(jīng)》索引至今,古籍數(shù)字化已走過50年的發(fā)展道路。它從最初的文本錄入、索引編制、單書檢索系統(tǒng)研發(fā),到大規(guī)模建設各種類型的古籍數(shù)據(jù)庫,再到今天利用計算機技術對古籍進行自動標點、自動???、自動注釋、自動編纂,運用數(shù)字人文技術、人工智能技術,對古籍進行深度知識開發(fā),古籍數(shù)字化技術經(jīng)歷了古籍文本的數(shù)字化轉(zhuǎn)換、古籍內(nèi)容的組織加工、古籍知識的挖掘和可視化三個階段?,F(xiàn)階段,隨著信息技術的進一步發(fā)展,僅提供準確可靠、可理解、已聚類的文本內(nèi)容,已不能滿足專業(yè)研究者的需求,需要能提供可用于輔助學術研究的知識產(chǎn)品。古籍數(shù)字化在理念和技術上逐漸形成以知識加工服務為核心的理念,這種以海量古籍數(shù)據(jù)為對象的知識加工服務,打破不同學科、不同書籍、不同語種、不同地域之間的界限。
從技術角度講,古籍數(shù)字化首先要解決的是古籍掃描和文本轉(zhuǎn)換的技術標準問題。目前,針對古籍圖像處理,我國已建立相應國家標準。而古籍中使用的漢字數(shù)量龐大,遠超現(xiàn)在通行漢字的規(guī)模,因此選用字符集的基本原則是盡可能地包含更多漢字,以便滿足古籍中生僻字、異體字、俗體字的呈現(xiàn)。國家重點研發(fā)漢字輸入、輸出、存儲、傳輸以及兼容等關鍵技術,加快推動建成全部漢字及少數(shù)民族文字的編碼和主要字體字符庫,以解決古籍生僻字、異形字不能顯示和檢索的問題。
在古籍知識的深度開發(fā)和利用方面,數(shù)字人文理念和人工智能技術的引入,有力推動了古籍數(shù)字化向古籍數(shù)據(jù)化、古籍數(shù)智化發(fā)展,后兩者通常被視為古籍數(shù)字化發(fā)展的更高階段。數(shù)字內(nèi)容具有可復制性、交互性和流動性特征,使文化產(chǎn)品從靜態(tài)敘事走向動態(tài)建構(gòu)。④具體而言,詞頻統(tǒng)計技術,可應用于文學作品的用詞習慣、用典情況的精確計量,以分析某一文學作品、某一文學流派的語言特點和創(chuàng)作風格;文本挖掘技術,可應用于古籍人物情感分析、人物社會關系分析、歷史事件關聯(lián)分析;地理信息系統(tǒng)技術,可應用于各種命名實體的時空演化分析;深度學習和預訓練模型,可應用于古籍文本的實體及圖像識別、詞性標注、特征提取、自動標點、自動分類、機器翻譯等⑤。目前,大語言模型在古籍智能信息處理領域的應用還處于起步階段,但因其智能化人機交互的特點,具有廣闊的應用前景。
數(shù)字技術的迅猛發(fā)展和積極應用,大大提高了古籍數(shù)字化傳播的成效。首先,在古籍保護領域,不僅實現(xiàn)古籍內(nèi)容的再生性保護,而且可為古籍字體、版式結(jié)構(gòu)、裝幀等形式特征構(gòu)建專類圖像數(shù)據(jù)庫,為古籍鑒賞方法、古籍修復技藝、古籍版本工藝的傳承性保護開辟數(shù)字人文途徑;其次,在閱讀體驗方面,數(shù)字古籍像紙質(zhì)圖書一樣可以按類瀏覽、翻頁,并且提供書影與文本對照,為讀者在閱讀過程中提供名物典制的超鏈接知識工具,同時兼具計算機全文檢索功能;再次,在輔助古籍整理和學術研究方面,古籍數(shù)字化系統(tǒng)能提供自動標點、自動???、自動注釋、文本聚類、詞頻統(tǒng)計、知識挖掘和可視化、用戶反饋等各種功能,此時的古籍數(shù)字化成果不僅是復制和再現(xiàn)古籍原貌,也不是單一的古籍數(shù)據(jù)庫,而是集古籍閱讀、古籍整理、古籍研究、古籍交流于一體的知識服務平臺。
古籍數(shù)字化傳播的分化發(fā)展趨勢及應對
古籍數(shù)字化工作包括多方參與主體,既有古籍收藏單位圖書館、博物館及民間藏家,又有古籍內(nèi)容研究專家、信息技術專家,還有古籍數(shù)字出版商、出版社。為避免古籍數(shù)字化的重復建設和無序競爭,應整合各方資源和技術力量,實現(xiàn)各地區(qū)古籍數(shù)字資源的共享。《關于推進新時代古籍工作的意見》提出,“建立健全國家古籍數(shù)字化工作指導協(xié)調(diào)機制,統(tǒng)籌實施國家古籍數(shù)字化工程”。建議依托國家圖書館(國家古籍保護中心),成立全國性的古籍數(shù)字化規(guī)劃小組,其工作內(nèi)容包括制定古籍數(shù)字化中長期規(guī)劃、推廣古籍數(shù)字化技術標準、構(gòu)建古籍數(shù)字化信息發(fā)布平臺、推動各地古籍數(shù)字資源共建共享、建立民間及海外古籍數(shù)字版本的有償征集與交換機制等。
為滿足古籍專業(yè)研究者、普通愛好者甚至海外讀者的不同需求,古籍數(shù)字化呈現(xiàn)出分化發(fā)展的趨勢。
對于專業(yè)研究者來說,獲取古籍全文本是其基本需求,數(shù)字古籍能像紙質(zhì)古籍一樣權(quán)威可靠并被引用,是理想結(jié)果,對其內(nèi)容準確性的要求不言而喻。對于這類古籍的數(shù)字化而言,必須嚴守古籍整理的基本學術范式,借鑒文獻整理的優(yōu)良傳統(tǒng),以信息技術將其具象化,提升古籍數(shù)字化的學術品質(zhì)。而且,專業(yè)研究者對古籍原文的需求主要集中在其研究領域。因此,古籍智能化整理首先應以古籍文本內(nèi)的段落、語句為文獻單元,對其進行語義識別和主題標引,并以自然語言為檢索入口,達到按研究主題自動聚類文獻單元(段落和語句)的目的,這對于文史學者獲取原始資料尤為必要和實用。其次,專業(yè)研究的對象并不僅限于古籍的文本內(nèi)容和思想內(nèi)涵,前人研究和整理的成果也可資借鑒。因此,對正文之外的序言、題跋、校記、批語、評點、牌記、藏印等副文本信息進行專類知識加工,對已有古籍研究和整理的成果進行必要的數(shù)據(jù)加工和知識開發(fā),也是特別需要關注的領域。再次,從宏觀知識組織的角度來看,未來古籍數(shù)字化傳播將引入傳統(tǒng)文獻學的“會通”思想,將不同文獻類型、不同語言種類、不同學科領域的古籍數(shù)字資源整合在一起,運用新的知識挖掘、知識組織、知識聚合、知識可視化方法,從整體上重新解構(gòu)和重建中國古代知識體系。這實際上是傳統(tǒng)古籍“注釋”方法的一種技術變形,可先按照四庫分類體系,將古籍原生態(tài)數(shù)據(jù)加工成語義態(tài)數(shù)據(jù),再通過語義關聯(lián)、本體構(gòu)建、知識圖譜等方法,構(gòu)建某一部類文獻的知識體系,最后完成整體知識體系的“拼圖”。
對于普通讀者或海外讀者而言,閱讀古籍全文本是其力所不逮的,他們可能更關注書中感興趣的知識話題。未來大語言模型賦能古籍數(shù)字化之后,古籍數(shù)字資源庫可能發(fā)展成為知識個性化的問答平臺和交流平臺,如某個朝代服飾流行的顏色、某個地區(qū)的飲食習慣、某個時段內(nèi)關注的社會話題,大到一場戰(zhàn)爭的宏大敘事,小到古人生活的一個具體場景,都可以通過人機互動即時獲得答案。古籍知識平臺還提供知識分享、主題討論等功能,讀者在知識社區(qū)內(nèi)可以自由提問、發(fā)言,互助式地解決問題。對于這類古籍數(shù)字化而言,則要借助信息技術打破以往的古籍利用方式,直接以知識主題來聚類批量古籍中的相關信息內(nèi)容,并以可視化的形式還原古籍內(nèi)容描述的歷史場景。此時的“閱讀”,不再以文字為主要對象,而是借助知識圖譜、三維動畫、元宇宙等大眾喜聞樂見的形式進行社會傳播,帶給讀者沉浸式閱讀體驗。這種讓古籍內(nèi)容活化起來的古籍數(shù)字化方法,可以降低普通讀者和海外讀者閱讀利用中文古籍的門檻,消除古籍數(shù)字化傳播因語言和文化差異帶來的障礙。
(武漢大學信息管理學院明盈,對本文亦有貢獻)
【注釋】
①《習近平在中國人民大學考察時強調(diào) 堅持黨的領導傳承紅色基因扎根中國大地 走出一條建設中國特色世界一流大學新路》,新華網(wǎng),2022年4月25日。
②《中共中央辦公廳 國務院辦公廳印發(fā)<關于推進新時代古籍工作的意見>》,中國政府網(wǎng),2022年4月11日。
③《全國古籍整理出版規(guī)劃領導小組關于印發(fā)<2021—2035年國家古籍工作規(guī)劃>的通知》,國家新聞出版署網(wǎng)站,2022年10月11日。
④解學芳、施慧:《為數(shù)智時代文化原創(chuàng)力持續(xù)釋放培育良好生態(tài)》,《國家治理》,2025年第7期。
⑤劉洋、王東波:《古籍智能信息處理研究現(xiàn)狀》,《圖書情報工作》,2024年第23期。
責編/趙橙涔 美編/陳媛媛
聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個人轉(zhuǎn)載請回復本微信號獲得授權(quán),轉(zhuǎn)載時務必標明來源及作者,否則追究法律責任。