關於 THDL 分類的疑慮:

首先解釋THDL契書的來源:有一半是來自國中圖,裡面主要是總督府檔案抄錄契書;後來陸續倒入數量比較多的是「已出版古契書」。旻融所說「契書原本的脈絡因為 THDL 重新分類而被剔除了」指的應該是 THDL 中「已出版古契書」的部分,因為編著者/作者在蒐集契書時就已經替契書做了分類,但是倒入 THDL後這些分類卻都被抹去。THDL這樣做是因為古文書界對契書並無一致分類,我們當初決定做分類的標準化時,有參考王世慶教授與洪麗完教授的分類, 但因兩位看待契書的perspectives很不一樣,對契書的分類方式差異很大,因此後來我們用了一個比較偷吃步的方法——直接採用國中圖於民國92年第一批做了九千多件契書的分類方式,一方面因為他們的分類比較簡單,只有十幾類,比較不牽涉到對契書進行複雜的意義上的詮釋,而且這種分類跟洪麗完教授的分類非常相似。於是我們設計一套自動化的方法,將 THDL 的其它契書都按照這樣的分類原則進行統一分類。後來在做「已出版古契書」時,則因為每一本書的分類方法都不一樣, 而沒有考慮得夠周到,也將書中原有分類都保留下來。旻融提出的意見很好、很重要,現在應該可以回溯將「已出版古契書」原本的分類補上。並且,關於旻融提到,不同的書可能將同一件契書依據不同的分類法分類,這點在系統上可以用 multiple 的欄位來包容不同方式的分類,這也是數位化的好處之一:脈絡可以不只有一個,可以同時有多種脈絡,讓看的人自己詮釋。

      回應對日期書寫格式正規化的憂慮:

旻融認為將日期的書寫格式做正規化似乎抹去了某種脈絡,這可能是我在文章中沒有解釋清楚:正規化的結果其實不是要給人看的,是要給機器看的,日期的正規化並沒有去改動全文,只是增加了一個給機器看的註記,記錄日期正規化之後的格式,這是因為契書中的日期書寫有很多形式,數字部分可能就會寫成中文簡體或繁體,年份可能寫成干支年……等等,正規化的目的是讓機器可以看得懂這些不同書寫格式的日期,便可以在檢索或是後分類時,給使用者一些好處,避免檢索的缺漏等等。然而,THDL的正規化當中,「分類」的正規化的確是給人看的成分居多,因此當初沒有設計清楚就可能造成使用上的誤解。

      關於分類的問題:

分類的問題再打個比方:資料被不斷搬家的過程中,東西一直被重新放在適當的位置,可是整個架構都不一樣了,有些東西也會被遺失掉

回應:

我覺得這個問題困難的地方是在,做數位化的人/做重組的人,有沒有「意識」去保留過去的資訊,這是最容易 lost 掉的步驟,只要這個資訊被保留住了,建置系統時就會繼續保留那個資訊 

 ◆      是否需要標準化的分類:

請問大家分類的目的是什麼?使用者到底會拿分類來幹嘛、到底是怎麼用分類的?實驗室內最近也在討論是否應該建立工具、讓使用者可以各自分不同的類,但問題在於使用者怎麼快速把分類 apply 在所有文件上?分類的背後是不是有明確的 operations 可以讓機器幫忙分類?

      關於User tagging:

我們最近在思考的是很類似「使用者自訂分類」、「user annotation」的東西。Flicrk讓使用者可以對上傳的照片給keywords,我們在想的 user tagging 概念跟 Flickr 不同的是,讓使用者不只給 keywords,也給欄位名稱(描述的面向),例如對一份契書,使用者可以觀察其中提及的「農作物」有「稻」跟「竹筍」,因而給出「農作物」這個欄位名稱,以及「稻」跟「竹筍」這兩個欄位值。這跟分類有點像,比 keywords 好是這樣系統在做統計分析時,可以針對特定的面向(欄位)來進行分析,而不需要把各式各樣的 keywords 都混在一起分析。另,竣達有提到使用者自訂分類的「公開」問題,可以讓大家來貢獻、大家都看的到,增加物件本身的厚度,但會不會有人覺得這是自己的資產、不希望公開?

 

      資料庫是否必要有必要將資料『標準化』?

 

就我自己使用慈林資料庫的心得來說,雖然此資料庫在建置過程中也曾建構了一套資訊的分類架構,但此分類架構似乎並無法對我的研究產生直接幫助,反而是「關鍵字」功能較有助於我的研究架構。因此我的延伸想法是,或許資料庫的目標不是替研究者建立一套標準的分類架構,而是讓各種分類架構都有可能透過資料庫來產生。項潔主任剛才的說明也讓我想到,或許我們可以設計一種使用者回饋的機制,讓使用者可以透過「添加標籤」的方式,來增加每一筆資料的「厚度」,這樣或許便能夠讓各種分類的可能性都可以累積在「資料」上,既不會使資料失去「脈絡」,也不會讓資料被「特定脈絡」給完全鎖死而封閉了其他可能性。

arrow
arrow
    全站熱搜

    THDL 發表在 痞客邦 留言(0) 人氣()