國立成功大學「甲骨文全文檢索與全文影像系統」
|
|
第一階段建構工程 --《甲骨文合集》簡介 |
|
一、緣起:
國立成功大學「甲骨文全文檢索與全文影像系統」建構計劃始於 1995 年,原計劃名稱為「世界甲骨學資料庫建構計畫」,係由中國文學系甲骨學研究室、圖書館、資訊工程研究所三單位聯合執行。而後因甲骨學研究室主持人黃競新先生
1996 年離校去職,建構計劃則執行至《甲骨文合集》、《殷墟甲骨刻辭摹釋總集》第 10 冊 33600 片。為使計劃能發揮作用,在當時教務長李建二先生、前圖書館館長高強先生、蔡文達先生與前文學院院長王三慶先生的支持下繼續執行。原計劃欲涵蓋範圍也由「世界甲骨學資料庫」修正縮小為《甲骨文合集》部分,並列為第一階段實驗工程。本系統主要是將學習甲骨文與研究甲骨文的重要徵引資料《甲骨文合集》十三冊、《殷墟甲骨刻辭摹釋總集》上下冊及《殷墟甲骨刻辭類纂》上中下三冊匯整輸入,可全文檢索與全文影像處理,以方便甲骨學界、其它學科領域及初學者一套完整而便捷、快速取得理據的工具,進而推動學術的向前發展。
|
|
二、系統建置過程:
本系統先將《甲骨文合集》41956 拓片、摹片掃描輸入,分期分類,再依《殷墟甲骨刻辭摹釋總集》、《殷墟甲骨刻辭類纂》建立指引片、摹片及關鍵詞,依次建檔的資料為:筆次、拓片編號、指引片、摹片、資料來源、期別、釋文、關鍵詞及分類。並在
<檢索系統說明> 中附上 <校勘記>,以說明各冊各片的訛誤脫衍情形。至於未釋出的「字頭」,係依據《殷墟甲骨刻辭摹釋總集》、《殷墟甲骨刻辭類纂》、《甲骨文字詁林》諸書序號編碼,檢索時,可用「部首檢索」、「筆劃檢索」及「拼音檢索」方式。關於整個系統建置可分成四部分進行:
1. 影像處理部分:
原書掃描拓片時,由於拓片本身單色,影像也就以單色 TIFF/G4 格式處理,影像密度為 300DPI,有的為 400DPI,端視各拓片品質而定。如拓片分上、下、左、右,則分多頁合併一檔處理。因拓片性質特殊,所以影像壓縮比極高,所有拓片掃描完成後,儲存之光碟將不超過兩片,平均每片光碟可儲存達
50000 頁。
2. 釋文建檔部分:
《甲骨文合集》共著錄 41956 拓片,每一片拓片都有相對應的釋文,但因釋文長短變異很大,必須逐片鍵入,並加入分類及關鍵詞以利檢索。但在釋文的鍵入中,因當初建置準備時,對電腦字庫中所沒有的未釋詞未先依《殷墟甲骨刻辭摹釋總集》的序號編碼,隨著鍵入筆數的增加就愈形成一種困擾與負擔,今則對照《殷墟甲骨刻辭摹釋總集》的序號編碼,以利檢索。唯基於甲骨文造字的困難度與造字環境尚未臻成熟,今暫用序號編碼,待日後環境許可後,再作一次處理。
3. 指引片與摹片部分:
本系統有一部分是為甲骨文的清晰識讀或不諳習甲骨文識讀者設計的,故建有指引片與摹片。但《甲骨文合集》第十三冊著錄本身已以摹片為主,故僅提供指引片,其餘十二冊皆按指引片與摹片的方式進行。所謂「指引片」,係提供每一片拓片釋讀的次序與方向,次序的先後,係根據《殷墟甲骨刻辭摹釋總集》釋讀先後,並以每一條的第一字與最後一字為主,標示其方位指標。「摹片」則除剪錄《殷墟甲骨刻辭摹釋總集》摹寫本身外,並以描圖紙印對《甲骨文合集》摹寫還原。
4. 系統部分:
由於成功大學圖書館部份資料庫檢索係使用漢珍公司的「TTS 中英文全文檢索系統」,為考量本系統未來發行、交換及公開服務的需求,目前採用 WINDOWS
CLIENT 及 WEB 版兩種版本。但因甲骨文圖文資料的龐大,又必須兼顧質與量的前後一致,尤其在圖文整合方面,考慮到長期保存、系統成長、移植等因素,於是採圖文分開處理的原則。目前,本系統無法處理釋文與影像被精細的剪輯、合併,如欲處理,則需藉由某些套裝軟體,而產生依附的現象,從而使格式受限,不再只是最原始而單純的
ASCII 與影像檔,並在套裝軟體改版或淘汰時影響資料的後續維護與保管,對資料的長期保存與未來加工需求不利。 |
|
三、系統功能部分:
本系統具有功能如下:
- 資料庫中內建的每一個字皆可檢索 (特別指明只供顯示的資料除外),甲骨 文的釋文、分類、出處、關鍵詞、摘要等,只要指定為可全文檢索的區段,就可執行全文檢索。
- 可運用布林邏輯 AND、OR、NOT 將詞彙組合起來檢索,或是跨欄位查詢。
- 具有瀏覽片語索引 (Browse Index) 的功能。
- 可快速顯示資料庫中的文字,記錄並直接列印或儲存。
- 除可由全文檢索系統對文字部分作全文檢索外,如需查看拓片、指引片、摹片,可切換到影像輸出系統作顯示與列印,使用者並可將影像作局部放大、縮小、
旋轉、反白,可將細部看得更清楚,提供更進一步的研究。
|
|
四、系統功用:
本系統的功用,最基本的有:
- 結合《甲骨文合集》十三冊、《殷墟甲骨刻辭摹釋總集》兩冊、《殷墟甲骨刻辭類纂》三冊共十八巨冊,改善查閱上費時與佔空間的缺點,並提供拓片、指引片、摹片,查閱上更快速便捷,一秒鐘可達數百筆資料。
- 提供的筆數,可供研究商代應用文字的字頻,並探究各期應用文字的特性。
- 提供網路檢索,方便學者使用。
- 對初學者的辨識閱讀甲骨文提供協助。
- 提供甲骨學者較準確而有效的綴合嘗試。
|
|
五、未來展望:
- 本系統目前完成《甲骨文合集》共 41956
片,《殷墟甲骨刻辭摹釋總集》全部的釋文輸入建檔工作,及「關鍵詞」、「摹片」與「指引片」的工作也接近完成。
- 未來內容將更加細密謹當,求全求備的校正,及處理本文與影像各自獨立,藉由影像系統來切換不同畫面的缺點,祈能在甲骨文拓片影像顯示時,適切而統整地在畫面上呈現文字說明的小視窗,更待處理編碼造字的困難。而在經費與版權的許可下,計劃可將《甲骨文字詁林》納入,對系統的完整性而言,將更齊備。
- 本系統對古文字全文檢索與全文影像處理建構的初步嘗試,本是拋磚引玉,服務大眾性質,在古文字出土日繁的今日,如何透過資訊網路的便捷資料取得,以提昇學習與研究的質與量,古文字材料在資訊國度的「預流」,將是風起雲湧,須待努力!
|
|
最近更新 05/24/06 |
|