TOPPAN集團開發出可解讀中世紀希臘語的AI-OCR引擎
TOPPAN利用從解讀日本草書中獲得的技術,開發出能解讀中世紀希臘語的AI-OCR引擎。未來將運用梵蒂岡圖書館資料,目標達成95%以上的準確率。
📋 文章處理履歷
- 📰 發表: 2026年4月7日 19:02
- 🔍 收集: 2026年4月7日 10:30
- 🤖 AI分析完成: 2026年4月21日 00:06(收集後325小時35分鐘)
TOPPAN控股股份有限公司(總部:東京都文京區,代表董事社長COO:大矢 諭,以下簡稱 TOPPAN控股)及其集團公司TOPPAN股份有限公司(總部:東京都文京區,代表董事社長:野口 晴彥,以下簡稱 TOPPAN),已開發出一款可解讀一般被認為難以辨讀之中世紀希臘語的AI-OCR引擎(以下簡稱「本AI-OCR引擎」)。
未來,將利用與TOPPAN控股營運的印刷博物館具備合作關係的梵蒂岡教廷圖書館的希臘語手抄本影像與文字數據,透過不斷累積訓練數據與改善精確度,目標是讓本AI-OCR引擎的辨識準確率達到95%以上。
此外,這項計畫的成果將於2026年4月25日(六)起在印刷博物館舉辦的企劃展「名著誕生展 梵蒂岡教廷圖書館III+」中進行展示操作。
■ 本AI-OCR引擎的開發背景
古老文獻中記錄了關於具歷史價值的史實與地方文化的各種資訊,但其中許多是以現代人難以辨讀的手寫文字寫成。精確解讀這些內容並將文化傳承下去,已成為不限於日本的全球性社會課題。
TOPPAN集團近30年來,在推動文化傳承的多項計畫中與梵蒂岡教廷圖書館保持合作。梵蒂岡教廷圖書館為了促進研究與教育用途,將其館藏200萬件以上藏品中的一部分,以IIIF(※1)格式的高畫質影像公開。公開影像已超過900萬張,目前仍持續擴充中。此外,針對部分希臘語手抄本影像,也進行了「翻刻(※2)」與「註解」等附加資訊的數據整理,但若要將附加資訊擴展至整個館藏,則需要能解讀中世紀希臘語的高度專業人才進行長期的作業。
為支援日本全國珍貴歷史資料的研究與應用,TOPPAN過去一直致力於解讀以現代人難以辨讀之「草書(くずし字)」寫成的古文書。2015年開始研發運用AI影像辨識技術解讀「草書」的「草書OCR」,其後也致力於與各種研究機構合作及舉辦活動。此外,於2021年推出了古文書解讀與應用服務「Fuminoha®(ふみのは®)」,並於2023年推出了讓一般大眾也能輕鬆解讀古文書的智慧型手機應用程式「古文書相機®(古文書カメラ®)」。
在此背景下,TOPPAN本次運用迄今在「草書」解讀上所培養的AI-OCR相關技術與知識,開發出了能解讀中世紀希臘語的AI-OCR引擎。
■ 本AI-OCR引擎的特徵
・中世紀希臘語的解讀
中世紀希臘語的特徵是標記不統一,字體因時代或書寫者而異,且會有單字部分被省略、或使用與現代不同拼字的情況。此外,有時句子在單字與單字之間沒有留空白,這對於沒有專業知識的現代人來說非常難以閱讀。本AI-OCR引擎透過準備百萬字級別的字體與行資料庫作為訓練數據,實現了中世紀希臘語文字的解讀。
未來,將利用與TOPPAN控股營運的印刷博物館具備合作關係的梵蒂岡教廷圖書館的希臘語手抄本影像與文字數據,透過不斷累積訓練數據與改善精確度,目標是讓本AI-OCR引擎的辨識準確率達到95%以上。
此外,這項計畫的成果將於2026年4月25日(六)起在印刷博物館舉辦的企劃展「名著誕生展 梵蒂岡教廷圖書館III+」中進行展示操作。
■ 本AI-OCR引擎的開發背景
古老文獻中記錄了關於具歷史價值的史實與地方文化的各種資訊,但其中許多是以現代人難以辨讀的手寫文字寫成。精確解讀這些內容並將文化傳承下去,已成為不限於日本的全球性社會課題。
TOPPAN集團近30年來,在推動文化傳承的多項計畫中與梵蒂岡教廷圖書館保持合作。梵蒂岡教廷圖書館為了促進研究與教育用途,將其館藏200萬件以上藏品中的一部分,以IIIF(※1)格式的高畫質影像公開。公開影像已超過900萬張,目前仍持續擴充中。此外,針對部分希臘語手抄本影像,也進行了「翻刻(※2)」與「註解」等附加資訊的數據整理,但若要將附加資訊擴展至整個館藏,則需要能解讀中世紀希臘語的高度專業人才進行長期的作業。
為支援日本全國珍貴歷史資料的研究與應用,TOPPAN過去一直致力於解讀以現代人難以辨讀之「草書(くずし字)」寫成的古文書。2015年開始研發運用AI影像辨識技術解讀「草書」的「草書OCR」,其後也致力於與各種研究機構合作及舉辦活動。此外,於2021年推出了古文書解讀與應用服務「Fuminoha®(ふみのは®)」,並於2023年推出了讓一般大眾也能輕鬆解讀古文書的智慧型手機應用程式「古文書相機®(古文書カメラ®)」。
在此背景下,TOPPAN本次運用迄今在「草書」解讀上所培養的AI-OCR相關技術與知識,開發出了能解讀中世紀希臘語的AI-OCR引擎。
■ 本AI-OCR引擎的特徵
・中世紀希臘語的解讀
中世紀希臘語的特徵是標記不統一,字體因時代或書寫者而異,且會有單字部分被省略、或使用與現代不同拼字的情況。此外,有時句子在單字與單字之間沒有留空白,這對於沒有專業知識的現代人來說非常難以閱讀。本AI-OCR引擎透過準備百萬字級別的字體與行資料庫作為訓練數據,實現了中世紀希臘語文字的解讀。