close

臺灣歷史數位圖書館在歷史研究應用上的侷限性與價值提升——以古文書為例*

鍾旻融**

 摘要

    本文旨在透過檢視臺灣歷史數位圖書館(THDL),在資料前置處理程序的「去標準化」與「再標準化」作業流程當中,由於牽涉到系統技術應用與人工作業處理,因而無法避免幾點在歷史研究應用上的侷限性。

    然而,筆者在嘗試分析構成這些潛在負面效應風險的原因之後,所要企圖強調的是,唯有深入了解不同學科技術的知識體系所存在的侷限性,我們才能更好的整合發展,共同重建更為完整的歷史圖像。

    文末更進一步指出,在未來數位資訊與人文研究的整合應用與發展,雙方除了持續進行良性溝通、並增進資料庫的基本功能之外;我們也應該多多嘗試從不同的側面、角度來檢視資料庫的設計研發「組構」過程,所存在的深層意涵。

 

關鍵字:臺灣歷史數位圖書館、古文書、去標準化、再標準化

一、前言

    近年來,由於「臺灣歷史數位圖書館」(Taiwan History Digital Library,以下簡稱THDL),建構了一套含括「明清檔案」與「古文書」的史料全文檢索系統資料庫,為許多歷史人文研者在蒐引用、解讀史料的過程中,提供了最即時、便利而極具效率的協助。然而,漸漸地,越來越多的研究者在享受得益於這一資料庫的優點功能的同時,也開始對它的功用價值產生了許多抱怨、質疑。

    面對於這一情況,我們該如何思考並進行有益於雙方的討論呢?至少,筆者認為不應該立足於各自的立場上,偏頗地指責對方的缺失;而應該先清楚的認識到各自本身難免會有的侷限性,並以此為基礎,建立一座雙方能夠互相對話、溝通、協助的橋樑,充分發揮各自的優點長處,反饋於對方的不足,以達到雙贏的目標——提升數位資訊與人文研究的整合發展。

    不過,在企盼朝著將數位資訊科技與人文研究二者,納入一個雙向互通的論述框架之中以進行交流的同時;到目前為止的發展階段所看到的內容是,我們仍處於著重在系統的建構作業程序、建構操作執行上如何更為有效的調適修正的應用分享溝通。也就是說,現階段多數對於「數位資訊與人文研究的整合應用與發展」的相關討論,所專注的面向在於肯定,資料庫作為一個現代資訊科技產物下的人文研究工具,它提供並節省了歷史研究者,在建立累積知識的過程中的時間、經濟成本,讓各種研究的基礎資源能夠更為高效的被利用。但除此之外,是否也應該關注到,除了要顧及如何積極的善用、規劃、建構資料庫的必要性,也得同步展開更多側面的對談與思索,而不單只是將它作為一個工具資料庫來看待。

    那麼,我們又該如如何朝著,不僅僅只是討論資料庫能夠提供給歷史研究者什麼、應該如何提供;或是歷史研究者反過來被要求,提出使用者的需求是什麼、需求對於技術應用的適當性。更重要的,在未來我們應該需要具備一個,既可以區分二者在方法與思想觀念上的差異性的同時,又能夠將兩者納入在同一個抽象的知識與具體資訊技術的完整體系概念。

    如果,這一想法能夠呼應數典中心主任項潔先生所提出的「歷史資訊學」這一概念;那麼,筆者認為在此一概念下,我們對於「數位資訊與人文研究的整合應用與發展」的理解,以及因應未來的持續發展,就不再只是侷限於資訊技術工具的支援、操作設定使用的應用層面問題,也包括了數位資訊與人文研究的「整合」過程當中,該如何審慎的評估及探討在未來所可能面臨的正面與負面效應的問題。

    在本文論述的第一個層次,筆者首先要探討資料庫是如何快速而大量的進行收集、儲存、分析古文書的建構過程——「去標準化」與「再標準化」的程序,接著淺談指出資料庫對於歷史研究者所帶來的正面效應。

    第二層次,筆者則是以歷史研究者的立場檢視,古文書在經過「去標準化」與「再標準化」的置入系統之後,應該如何避免資料庫整體分析呈顯出來的結果所存在的侷限性,並深入探討這在歷史研究中可能會構成怎樣的風險。

    最後,則是透過並列觀察前兩層次的討論結果,思索「數位資訊與人文研究的整合應用與發展」,一方面如何加強持續合作以重建更完整的歷史圖像之外;在未來可以嘗試從何種不同的側面來探討,「標準化」與資料庫分析技術的「組構」過程中所突顯的不同文化圖像,以豐富數位資訊與人文研究整合之價值內涵。

二、資料前置處理程序的「去標準化」與「再標準化」

    對於THDL系統中所收藏古文書來源的介紹,項潔、陳詩沛、杜協昌三人共同撰寫〈台灣古契約文書全文資料庫的建置〉一文中已有作過清楚簡要的介紹,此處不再贅述。[i]

    下面,筆者所要的討論是,THDL是基於什麼考量因素並如何透過一套「資料前置處理程序」的標準作業流程處理大量彙集而來的古文書。

(一)「去標準化」與「再標準化」

所謂的「資料前置處理程序」,就是古文書儲存分類的標準化流程,它可以分成以下兩階段:第一階段是從個別史料的數位檔案,從打字全文與詮釋資料之中,辨識、擷取可進一步利用的內容特徵。第二個階段則是匯集所有史料於第一階段所得的內容特徵,加以統整、運算,得出文獻集的整體資料,並於此時比對史料的特徵,據此重建史料之間的關係。[ii]

在第一階段,為了使資料庫在運作上能夠對每一件契約內容的幾個特徵進行統一辨識與整體分析;因此,這些古文書必須在一個共同標準格式與分類定義的架構下被儲存。但是,由於THDL在進行大量的收集儲存時,便面臨不同數位收藏機構與書籍出版單位對於契約分類的不同標準與定義,所以得先進行「去除」

不同來源批次的古文書,在原先各建置單位所使用的建置規範下所作的「標準化」處理。接著,「再次」重新置入THDL的統一建置規格,使所有資料都能歸趨於一致同等。這一程序措施,便是筆者所謂的「去標準化」與「再標準化」。

由於THDL的史料是由多批的數位典藏成果所彙集的,在分批建置的情況下,各建置單位所使用的建置規範並不盡相同,因此建置出來的詮釋資料難免會有不一致的狀況,像是:記錄的格式不一致(例如日期有多種書寫格式);又如欄位名稱相同、但各數位化單位對該欄位的內容意義之定義不同(例如契書分類沒有一致的分類法則);又如詮釋資料欄位的多寡不同,造成某批資料的欄位較其他資料為少(例如THDL的部分資料集沒有建置人名、地名欄位)。在這樣的情況下,為了對THDL收錄的史料皆有一定的掌握,我們決定盡量為所有的資料集,補充缺乏的資訊,並統一記錄的格式,俾使所有資料都能有一致同等豐富的資訊。[iii]

由上述可知,在「資料前置處理程序」的第一階段,為了能夠辨識、擷取古文書的內容特徵,就必須進行「去標準化」與「再標準化」,而其背後的目的在於它;

並不像一般數位圖書館的作法,僅是把數位化檔案納入系統而已。THDL除了納入史料的數位檔,更重要的是能匯集全體史料的資訊,進行統計、運算,最終建立資料的整體分析資訊,並建立資料之間的關聯性……。[iv]

    換言之,「去標準化」與「再標準化」是構成第二階段能夠加以統整、運算資料庫的全部資料,最終建立資料的整體分析,與資料之間的關聯性的基礎。以下,我們再來討論,THDL如何進行「再標準化」。

(二)如何「再標準化」?

    THDL的標準化主要為,1.「日期書寫格式的正規化」、2.「契書分類一致化」、3.人地名欄位之補充」三項。 

    根據相關的討論說明指出,由於「史料中日期書寫方式頗為多變,『雍正七年閏七月三十日』可能寫成『雍正柒年閏七月参十日』——年份不以數字記年、而以干支記年,而中文數字的寫法亦有簡體、繁體之可能。為此,我們先是發展了辨識各種日期寫法的方法,能夠辨識日期中的年號、年、月、日各個區段,然後將年月日部分一律轉換為中式簡體的數字、以及阿拉伯數字兩種約定的標準格式。我們並將辨識日期方法的方法應用在史料的內文之中,擷取所有內文中提到的日期,並且也同樣轉換成為約定的標準格式。」。[v]

    其次,對契書分類一致化的討論說明,在〈台灣古契約文書全文資料庫的建置〉的注釋19,則指出:「這兩萬餘件的契書乃來自不同的數位化單位,對於契書的分類並無一致的分類準則。為了讓研究者易於使用這批大量的契約相關文書,我們對其進行了初步的分類。我們發展了一套基於「契書標題」的電腦自動分類方法,將這些契書重新以一致的分類準則進行分類,目前分為:杜賣契、鬮分契、公文書類、合約字、典契、丈單/執照、開墾契、證明/協議/決議、耕字、胎借字、添典/找洗、目錄、合股、其他等十四類。但此分類成果目前仍不夠完善,請研究者斟酌使用。」。[vi]

    至於人地名欄位之補充,其所指的是,「有許多資料集的詮釋資料皆未建置人名、地名相關欄位,我們也發展了一套方法,自動從史料的全文之中,擷取人名與地名。」。[vii]

 

三、THDL在歷史研究應用上的正面效應與侷限性

    前面我們已經討論了古文書是如何大量的收集儲存整理,在接下來,筆者除了淺談數位資訊在人文研究中所帶來的正面效應與如何持續發展之外;亦進行檢視THDL的「標準化」過程中,由於面臨目前尚無統一的契約分類準則,以及對契約日期書寫格式的正規化,還有史料全文句讀謬誤、契約偽造問題,可能會造成哪些在歷史研究應用上的侷限與負面效應。

(一)正面效應

    科學技術的持續突破與創新,改變了我們所生活的自然環境、社會的行為模式、文化思想型態、價值觀念核心,其無形的力量擴散、滲透於這世界每一個角落,引發了各種不同型態、層次的效應。其中,數位資訊科技對於歷史人文研究的影響,雖然在這其中只是微小的一環,但所帶來的影響卻是相當可觀。尤其是在「量的提升」與時間、空間、經濟成本上的正面效益。

    在劉吉軒、賴隆平的〈基於文官異動資料之職等陞遷預測〉一文中,他們引用了相關學者的研究指出;

    近年來,許多文本的數位化及網頁內容的擴充,提供了更便捷的文件取用,也讓人文文字資料的深化利用展開新的契機與面貌。文本探勘(text mining)將資料探勘的概念與技術延伸於大量文本中,結合語言領域技術如本體知識、詞彙、標籤等,自動於大量文字集合中(Kao & Poteet,2006),找出可能有用的文字資料型態與係,如文件分群與分類、資訊擷取與檢索、議題偵測等(Feldman & Sanger,2007)。

    文本探勘技術的發展對於傳統的人文社會學科也帶來新的研究面向與工具,透過對文字的辨識、檢索、分析、關聯等自動化操作,讓研究人員對事件或現象的全貌與細節掌握的更透徹、更精細,進而得到更正確、更深入的解讀與發現(Anane,2001)(Witten,Don,Dewsnip, & Tablan,2003)[viii]

    首先,THDL的「文本探勘」技術作為歷史研究者的蒐尋、累積資料工具所帶來的益處是毋庸置疑的,它打破了時間、空間的侷限,免除了研究者必須在限定的時間與空間作研究。或者說,它為我們創造了新的「時空環境」,能夠節省許多的時間進行累積、檢索資料,將更多的時間利用在研究者最重要的解讀分析的步驟;同時也省下了影印、購買書籍的高昂費用。

    其次,對「量」的掌握能力的提升,以及持續開發更多元、智慧型的自動系統功能,協助研究人員透過各種分析技術以不同的角度進行大量史料的排比、解讀作業,提供開拓創造「新的研究議題」。本文,可以說正是在這樣的背景之下所產生出來[ix];同時,該議題的對話、溝通,在未來也甚至發展成為一個獨立而明確的「知識體系」,而不僅僅只是相同的「研究主題」在討論議題內容上的轉換。

    不過,還有很重要的一點是,任何一套知識體系、管理制度、技術方法如何一再地宣稱它的種種好處,都還是要面臨到它可能存在的侷限性,並顯現於使用者與被使用者的互動過程中。以下,筆者將以THDL建置古文書為例子,從歷史研究者的立場進行檢視它的侷限。

(二)檢視侷限性

    THDL「去除」標準化與「再次」標準化的過程中,有哪些是歷史研究者必須考量而值得進行思索的問題?下面我們先來看看其他三位人文研究者所提出的意見,再來進行整理論述。

    張瑋儀指出;

誠然,電腦系統為文學研究帶來許多的便捷,大量的資料庫、快速的搜索功能,更加速了研究者的歸納、統計,但一首詩,也在層層的拆解下,變得支離破壞。[x]

    陳志豪指出;

事實上,對於歷史研究者來說,每一份史料形成的脈絡,都是歷史研究中很重要的問題與線索。資料庫的檢索功能,是為了輔助我們尋找資料,我們在快速找到資料後,應該更加謹慎、仔細的去思考這些資料的歷史脈絡與背景。若不在這一方面下功夫,那麼我們將檢索得到的資料,以「斷章取義」的方式進行詮釋,這點也是今日我們在使用Google等具有全文檢索功能的搜尋系統時,很容易被忽視的問題。[xi]

     王泰升指出;

    ……明清檔案、淡新檔案及日治法院檔案,皆透過數位化技術而成為研究者的電子「眼」,使研究者可以掌握數量龐大的史料,並可藉由編目資料所提供的各種資訊,檢索出特定研究議題的相關史料。……但話說回來,針對某項議題進行檢索時,哪些是恰當的「關鍵字」呢?這個問題本身其實就是個關鍵點,可能需要對文書本身的書寫模式或知識體系有一定的了解始可。……

    總之,運用足以廣納史料並得有效搜尋的數位化資料庫,對歷史研究是個突破既有成果的契機,但是所引發的研究上陷阱也不少。[xii]

1.對史料產生誤解的可能

    首先,可以很清楚的看到一點,如果沒有對資料庫所提供的史料本身性質有基本歷史背景的認知,很可能構成使用者在簡單快速的經由系統所作出的歸納、統計之後,便輕率的作出片面的詮釋。筆者雖然認為,這是屬於使用者的嚴謹度與專業訓練的個人問題。然而,對於初學者以及一般有興趣的民眾來說,在尚未具備足夠的基本認知基礎的情況下,便會構成對史料產生誤解的可能。

    其次,則是資料的歷史脈絡。由於大批的古文書存在著輾轉的買賣散播流傳、不同單位機構的典藏等眾多來源不一的情況,再加上每個持有管理者不同的分類方式,越加使得史料的歷史脈絡完整性受到分解。雖然,在經過THDL良好的一套「資料前置處理程序」作業後,再通過資料庫的歸納、辨識,又呈現出一番趨於完整——同時還增強了在時間與地區範圍的比較量度,而使排比、分析的結果更加深化全面。

    不過有一個很大的問題是,就如同前面對契書分類一致化的說明所提到的:THDL發展了一套基於『契書標題』的電腦自動分類方法,……但此分類成果目前仍不夠完善,請研究者斟酌使用。」。對於已受過專業訓練的研究者來說,是很容易理解的,但對於初入學門或僅僅只是有興趣的人在面對這一問題的時候,會作何想法呢?換句話說,我們是否應該要以更明確的訊息、清楚的定義傳達給使用者,讓他們能夠了解古文書在不同的時空環境中所蘊涵的歷史脈絡,而不僅僅只是透過THDL系統進行檢索後,所得出的分析結果。以下,再接著討論應該注意哪些,古文書在被THDL「再標準化」的「資料前置處理程序」之後,所被「去除」的「歷史脈絡」。

2.缺乏統一的「標準化」

    類似於此處所要討論的問題,在王泰升有關法制史的研究中也提到了。他指出:

    從如上的舉例說明可知,今日被歸為「民事」的「租賃」法律關係相關史料,會出現在戴氏分類表中的「行政」門案件中。此再次證實淡新檔案內這些史料被書寫時,亦即清治時期,並沒有行政、民事這樣的現代法上的分類概念。也因此,前揭「明清檔案」若稱為「明清臺灣行政檔案」,則「行政」兩字,可能引發今之研究者的錯覺或誤會,以為該檔案中並無與今之「司法」相關的檔案,故不如就以資料庫建置者台大之名,區隔與此相類似的檔案或出版品,而稱之為「台大明清檔案資料庫」。[xiii]

   為了使史料能夠被有效的整理應用,就必須依賴一套特定而適用的分類準則,也無可避免的會產生若干問題;尤其是歷史語境意涵與現代觀念的差異而引發不同研究者的辯論。不過,要是能夠透過一個與史料本身相近類似的現代概念體系進行分類,而有助於突顯史料本身的特殊性質與存在的語境,並有益於研究者持續的進一步深入探討,那麼這一套分類準則就值得被推而廣之或隨時進行修証。

    而,很可惜的是至今研究者對於契書標題的分類法、名稱定義還沒有一致的共識。或許這可以說,即便古文書在歷史研究上已經累積到一定程度,但仍然存在著很大的努力空間,以致於我們仍然對古文書沒有一套明確的分類法與定義。同時,最不理想的情況是,由於存在不同的分類法則,對於專業研究者也好或是一般有興趣的大眾,便隨時會有產生混淆誤解的可能;進而導致了在實際研究上,破壞了引用來自不同收藏單位來源的古文書,所設定的分類法則所指稱的特定意涵,也意味著偏離了不同來源古文書其本來的分類指稱所對應的歷史脈絡。

    還有一點,由於存在著不同的收藏單位同時建置收錄同一件契約,如果因為不同的分類準則而被歸納在不同的群類,使用者該選擇那一套「標準」?要是連使用者本身所認知採用的分類法則亦不同於兩個收藏單位,那又該如何?以上種種問題,旨在說明一點,我們確實需要統一的分類法則與定義,並且只要「一套」標準化的規格。

3.被「抹去」的「歷史脈絡」

    THDL的「再標準化」包括了「日期書寫格式的正規化」一項,從歷史研究者的立場而言,正規化的這一程序,也「抹去」了古文書的「歷史脈絡」。從「形式學」的角度來思考,因為不同的書寫方式與固定格式,也意味著不同地區由於文化風氣、歷史發展背景的不同,而以互不相同而特定的方式進行書寫,表現出特定的行文風格與詞彙表達。

    不過,這個問題牽涉到系統技術應用的關係而必須將日期書寫格式正規化,亦即統一之後系統才能進行擷取辨識。因此,筆者認為使用者在這一問題上,不妨就利用在進行與第一手出處來源版本的契約內容進行校對時,稍加注意即可,還不至於構成太大問題。

4.句讀的謬誤、偽造契約

    有關「句讀」的問題,幾乎有使用過資料庫的人無不對此提出抱怨;在此筆者並無意加入抱怨的行列,而是考慮到初入學門的使用者,在基本知識基礎不夠的情況下,接觸到大量有句讀謬誤的契約,是否可能造成誤導性的學習?因此,筆者建議可否在這部分作加強改正。

    另外,契約「偽造」的問題似乎還沒有正式的被研究者提出來進行溝通討論。 從現存所能看到的清代司法民事訴訟史料文集、檔案的紀錄描述,存在著不少「偽造」契約的糾紛案件。以下試舉一位清朝官員在處理「南靖縣民郭博告許世徵等案」中的一段判語,其中提到;

    查康熙五十三年,一契載銀四兩,契背添乙未年再借銀七兩。細驗七字,乃原係「乙」字添一橫畫,添一豎頭改作「七」字,不但墨迹不同,而左向右向之形勢亦判然懸殊;且契身內現有乙字,以彼證此,添改顯然以故。……

    又查康熙五十九年,郭杞代筆一契內開胎借銀「十六兩」,後註收過契內銀「六兩」一紙之內,互相矛盾。衙訊世徵、郭杞,混供「十」字係錯寫,獨不思契載銀兩之數最為緊要,添改一字即滋疑竇!如果代書郭杞錯寫,彼時何難更換?豈有將錯就錯之理!

    細閱契後註收銀「六兩」,六字之上旁挖一小孔甚屬可疑,及閱契身三行,落腳三字與契內大小不同,筆跡亦異,其中行腳則「拾陸兩」之「拾」字也。首行落腳添一「厝」字,玩上下文法實不必有此「厝」字也;三行落腳添一「管」字,而四行起頭則已有「管」字也,乃知寫契之時預留空腳過後添一「拾」字,左右兩行不得不添「二」字,以配之後註收銀之數。亦旁添「拾」字以符契內之數,及至質審膽怯心虛,恐添註之「拾」字弄出破綻,復行挖去,遂混稱契內「拾」字為錯寫。……[xiv]

    除了上述一例外,在著名的「淡新檔案」中也可發現「偽造」的問題。但試問,今天我們在進行統整數量龐大的契約時,會注意到原件契約是否被偽造的可能嗎?或者說,我們是否過度肯定古文書的真實性而高度呼籲它在歷史研究中的重要性,以致於這個問題被忽略了?

    既然THDL提供了地名與人名的欄位檢索功能,我們便可以嘗試透過整體分析結果,重新比對相關聯的人物姓名、地名稱呼在原件契約中的書寫語氣、風格與地方特徵、交易習慣,進而釐清了人物、地名異同問題以及存在偽造的可能。同時我們也應該意識到,既然存在偽造竄改契約的可能性,那麼THDL所作出的整體分析結果,以專業研究者的立場來說,只要其中有一件是偽造契約,就足夠質疑系統的準確性與嚴謹度。

    雖然,我們仍然缺乏具體的研究成果與判定基準以供檢視這一「偽造」契約的問題,而較為周延的討論上述所提出的質疑。但不管如何,在未來我們必定需要面對這一為人所忽略的問題。

四、數位資訊與人文研究整合發展的價值提升

    在最後的討論當中,除了總結指出古文書的歷史研究在THDL的應用侷限問題,以期有助於有興趣的使用者能更好的掌握運用資料庫,重建更完整的歷史圖像之外;還要嘗試討論數位資訊與人文研究如何試著展開更多側面的對談。

(一)重建更完整的歷史圖象

    筆者認為,造成古文書的歷史研究在THDL的應用侷限問題在於以下幾點:

1.缺乏統一的契約分類法則。

2.因為存在許多不同的分類準則與定義,不同批次與收藏單位的古文書在之前亦來自於許多源頭,造成了古文書在輾轉流播的過程中不斷的「去標準化」與「再標準化」。

3.反覆的「去標準化」與「再標準化」過程中,使得古文書的歷史脈絡一次又一次被重新「組構」進不同的時空架構之中,偏離了不同來源古文書其本來的分類指稱所對應的歷史脈絡,因而更加支離破碎。

4.在重新「組構」的過程中,人工作業處理與系統程式的技術要求,就難以避免造成許多疏漏謬誤。包括了句讀罕見字詞的錯誤、正規化的要求而同化了契約本身的差異性。

5.過度肯定古文書的真實性而高度呼籲它在歷史研究中的重要性,以致於忽略了偽造契約的問題。

6.雖然在THDL的整體分析中,增強了在時間與地區範圍的比較量度,而使排比、分析的結果更加深化全面。但是考慮到上述諸問題,也增加了對史料產生誤解、歷史詮釋過於片面、誤導性學習的風險。

    在此,筆者的用意不在尖銳的批評,由於THDL在歷史研究應用中的侷限性而可能導致的風險,進而呼籲對它的使用抱持質疑、否定的態度。相反的,正是要深入全面的考量到,不管任何一門學科的知識體系、智能技術、管理制度都必定存在著一定的侷限性而需要進行檢視,藉此我們才能夠更好地善用發揮THDL在歷史研究中的「文本探勘」技術、重建更完整的歷史圖像。誠如筆者在前述也指出一點,對「量」的掌握能力的提升,以及持續開發更多元、智慧型的自動系統功能,協助研究人員透過各種分析技術以不同的角度進行大量史料的排比、解讀作業,提供開拓創造「新的研究議題」。

    舉例來說,正是因為考量到偽造契約問題,也促使我們可以善用THDL的「文本探勘」技術,有效率地進行重新比對契約之間相關聯的人物姓名、地名稱呼、書寫形式,同時釐清了人物、地名異同問題與存在偽造的可能。為「偽造契約」、「形式學」的議題研究創造可能。

(二)創造更多元豐富的人文圖象

    如果要指出一點,資料庫的開發所帶來最大的效益是什麼,筆者認同並支持劉吉軒的看法,

過去大量紙本文件中的資料難以取得使用,而限制了許多人文社會學科的實證研究。主題資料庫的發展將解除資料取得的限制,進而開啟許多新的研究機會。[xv]

    筆者認為,由於我們取得資料更為便利,就應該要更謹慎的處理,尤其是對資料的內容、性質、來龍去脈必需有基本的認知基礎。雖然本文僅以古文書作為例子來討論,但這問題對歷史研究者來說應該是互相共通的。

    其次,唯有透過使用者與資料庫建置者雙方之間的良性溝通與調整適應,方能達到雙贏的目標——提升數位資訊與人文研究的整合發展。換言之,我們除了要顧及如何積極的善用、規劃、建構資料庫的必要性,也應該同時展開更多側面的對談與思索,不能只是將它作為一個工具資料庫來看待。像是矢野桂司、八村廣三郎等人所提到的;

    我們認為人文學者應和資訊科技方面的研究員有更密切的合作,而非僅將資訊科技視為工具,由雙方共同的進一步探索,為日本研究開創新的可能性。[xvi]

    從國立臺灣大學數位典藏研究發展中心的立場來說,資料庫沒有僅僅只是被設計為工具開放外界使用是沒有問題的。不過,筆者從使用者的立場確實的看待這一問題認為,THDL在現階段的發展仍處於被視作歷史研究者的「輔助工具」的階段。筆者必須強調,這個現況只是意味著新的研究議題發展漸趨完整成熟度的問題,因為THDL本身最基本的就是被設計為史料的檢索資料庫而被建構出來供研究者操作使用。

    那麼,又如何試著展開更多側面的對談呢?在〈數位人文研究的結構與演化——以對應分析與共字分析為基礎之實證研究〉一文的摘要中,有一段相當值得提出來進行深入探討。內容指出;

在人文資料大量數位化後的下一步,應是主題性的資料蒐集與模型建置,並引入適當的資料分析技術,發掘其中隱藏的資訊,驗證過去存在的假設。[xvii]

    筆者認為,從確立各種類型主題的資料庫,到「引入適當的資料分析技術」是一個非常關鍵的環節,並且它還不只是基於適應資料的性質而被設計出來的一個作業程序而已。

    THDL的古文書建置為例,它可以概括為以下的「組構」過程。1.以古文書為主題之一[xviii],2.契約分類「標準化」與「日期書寫格式正規化」,3.系統匯集全體史料的資訊,進行統計、運算、建立資料的整體分析。

    這邊,筆者想問的是,THDL引入分析技術的設計理念源自誰?如果將這個問題放在不同的資料庫進行比較,深入分析「組構」過程異同,我們可以從中得出什麼特殊的意義嗎?是否會看到特定的人採用特定的標準?這群特定的人之間又是什麼關係呢?或是,資料庫的建置單位之間,存在著有多種關聯性的現象,影響著他們是否願意合作接納對方的「標準化」而進行系統「重構」?

    從以上不同的角度進行思考,我們對於數位資訊與人文研究的整合發展與應用,就不只是資料庫作為「輔助工具」,如何「去標準化」、「再標準化」、「組構」的問題。數位資料庫在設計「組構」的標準化過程,也會呈現出一幅交織著不同地區由於各自特有的文化資產、研究取向、熱門議題所構成的豐富文化圖像。

五、結論

    雖然文中筆者一再地強調,未來我們應該以「數位資訊與人文研究的整合應用與發展」為核心,並試著淡化兩者之間的區別界線以進行溝通對話。但最終,無可避免的還是要立足於歷史研究者的方法、思考觀念,進行檢視判準古文書在經過THDL的「去標準化」與「再標準化」的「組構」之後,可能會對尚未具備基礎知識的使用者造成什麼風險。接著,在嘗試分析構成這些潛在負面效應風險的原因之後,筆者企圖強調的是,深入了解不同學科技術的知識體系所存在的侷限性,我們才能更好的整合發展,共同重建更為完整的歷史圖像。最後,筆者也希望,雙方除了持續的良性溝通、增進資料庫的基本功能之外,在未來我們應該多多嘗試從不同的側面、角度來檢視資料庫的研發設計「組構」過程,所存在的深層意涵。


*  我非常感謝逢甲大學歷史與文物研究所,王志宇老師與張志相老師,以及暨南國際大學歷史學系博士班李朝凱學長。本文得以順利完成,來自於他們提供給我許多具體的看法和意見。

** 逢甲大學歷史與文物研究所碩士生三年級,E-mailworry322001@hotmail.com

[i] 詳細內容請參見項潔、陳詩沛、杜協昌,〈台灣古契約文書全文資料庫的建置〉,收於《第三屆台灣古文書與歷史研究學術研究會論文集》(臺中市:逢甲大學出版社,2009年),頁245-251

[ii] 陳詩沛、項潔、杜協昌,〈史料整體分析工具之幕後——介紹「臺灣歷史數位圖書館」的資料前置處理程序〉收於《數位典藏與數位人文國際研討會會議手冊》,頁284

[iii] 陳詩沛、項潔、杜協昌,〈史料整體分析工具之幕後——介紹「臺灣歷史數位圖書館」的資料前置處理程序〉,頁285-286

[iv] 陳詩沛、項潔、杜協昌,〈史料整體分析工具之幕後——介紹「臺灣歷史數位圖書館」的資料前置處理程序〉,頁284

[v] 陳詩沛、項潔、杜協昌,〈史料整體分析工具之幕後——介紹「臺灣歷史數位圖書館」的資料前置處理程序〉,頁286

[vi] 項潔、陳詩沛、杜協昌,〈台灣古契約文書全文資料庫的建置〉,頁250

[vii] 陳詩沛、項潔、杜協昌,〈史料整體分析工具之幕後——介紹「臺灣歷史數位圖書館」的資料前置處理程序〉,頁287

[viii] 劉吉軒、賴隆平,〈基於文官異動資料之職等陞遷預測〉,收於《數位典藏與數位人文國際研討會會議手冊》,頁81

[ix] 對特定的探討議題與關鍵詞彙的使用,在不同時代背景下的變化現象,確實是一個值得探討的問題。已有研究者發現,「我們對近五年來在重要期刊、與研討會論文集所發表之相關論文進行了對應分析(correspondence analysis)與共字分析(co-word analysis)。其中一項成果顯示,領域代表性命名已漸漸由人文電算(humanities computing)轉為數位人文研究(digital humanities)。」

詳見,王曉光、稻葉光行,〈數位人文研究的結構與演化——以對應分析與共字分析為基礎之實證研究〉,收於《數位典藏與數位人文國際研討會會議手冊》,頁2

[x] 張瑋儀,〈古今主題詩之建構〉,收於《數位典藏與數位人文國際研討會會議手冊》,頁108

[xi] 陳志豪,〈臺灣歷史數位圖書館與歷史研究的實際應用——以「淡新檔案」為例〉,收於《數位典藏與數位人文國際研討會會議手冊》,頁275

[xii] 王泰升,〈數位化歷史資料庫與歷史研究〉,收於《數位典藏與數位人文國際研討會會議手冊》,頁1-18

[xiii] 王泰升,〈數位化歷史資料庫與歷史研究〉,頁1-13

[xiv] 詳見清.徐士林,《徐雨峰中丞勘語》,(收於《明清法制史料輯刊》第一編.第11冊,北京 : 國家圖書館出版社,2008年,據光緒三十二年聖譯樓刻本),卷四,頁529-537

[xv] 劉吉軒,〈從政府公報到人事異動資料庫——數位資料產出及檢索分析〉,收於《數位典藏與數位人文國際研討會會議手冊》,頁58

[xvi] 矢野桂司、八村廣三郎、赤間亮、稻葉光行、鈴木桂子,〈日本文化與藝術人文研究中心〉,收於《數位典藏與數位人文國際研討會會議手冊》,頁1-26

[xvii] 劉吉軒、賴隆平,〈基於文官異動資料之職等陞遷預測〉,頁94

[xviii] 還包括「明清檔案」。

arrow
arrow
    全站熱搜

    THDL 發表在 痞客邦 留言(0) 人氣()