AI導入で進む古書籍の修復と整理―中國

人民網(wǎng)日本語版    2022年4月12日(火) 14時50分

拡大

中國に現(xiàn)存する古書籍は約20萬種で、1949年から2019年の間に3萬8000種近くが修復?整理?出版された。イメージ寫真。

北京大學デジタル人文研究センター、北京大學?字節(jié)跳動(バイトダンス)デジタル人文開放実験室、北京大學人工知能(AI)研究院が共催する「古書籍スマート情報処理」シリーズシンポジウムがこのほど、オンライン開催された。光明日報が伝えた。

シンポジウムでは、北京大學デジタル人文研究センターの王軍センター長が、次のように計算した。中國に現(xiàn)存する古書籍は約20萬種で、1949年から2019年の間に3萬8000種近くが修復?整理?出版された。このペースでいくと、現(xiàn)存する古書籍をすべて修復?整理するのに300年かかる可能性がある。しかしAI技術(shù)で修復?整理をアシストすれば、およそ20~30年で完了するだろうという。

王氏が語る「AI技術(shù)による古書籍の修復」は未來の科學的構(gòu)想ではなく、現(xiàn)実における生き生きとした現(xiàn)実になろうとしている。バイトダンスは北京大學教育基金會に寄贈し、北京大學?バイトダンスデジタル人文開放実験室による「古書籍デジタル化プラットフォーム」の研究開発を支援し、スマート技術(shù)により中華古書籍資源のデジタル化建設を急ぐとした。3年內(nèi)に厳選された1萬種の古書籍のスマート化修復?整理が行われる見込みだという。

古書籍の保護は長期的に、原始的な保護方式が採用されてきた。これはつまり古書籍が「文化財」として保護されることだ。その後は再生的保護方法が登場し、古書籍の影印と畫像の保存が行われた。古書籍が紙またはマイクロフィルムとして存在できるようになった?,F(xiàn)在のデジタル化古書籍の多くがマイクロフィルムから変換されたもので、解像度が低く、白黒が中心的だ。

すべての古書籍をデジタル化の手段で影印?出版するとしても、その古書籍は融通がきかず、便利に利用できない。北京大學中國語學部の楊海崢教授は、次の分かりやすい例を挙げた。影印された古書籍には句読點がなく、非常に読みにくい。また、古書籍の內(nèi)容の検索ができず、ある內(nèi)容を読もうとするならば原文を最初から読む必要があり、スピーディーに必要な知識が得られない。そのため伝統(tǒng)的な古書籍の利用率を高めるためには、古書籍の內(nèi)容をデジタルテキストに変換しなければならない。かつてこの変換は主に専門家が自ら行い、時間的コストが極めて高かった。

王氏によると、近年は北京大學を含む多くの大學及び科學研究機関が、古書籍のデジタル化をめぐり畫期的な取り組みを進めている。OCR(光學文字認識)、AI句読、実體識別などの成熟した技術(shù)と経験を蓄積している。OCRの応用を例にすると、電子設備で紙の古書籍をスキャンすることで、その內(nèi)容がコンピューター內(nèi)に入力され、相応するデジタルファイルが生成される。その効率は人の手による入力よりけた違いに高い。

北京大學デジタル人文研究センターはAIとビッグデータ技術(shù)を利用し、先秦から明清の時代を跨ぐ大規(guī)模古書籍テキストを整理し、すでに古書籍の自動句読を?qū)g現(xiàn)している。平均正解率は94%。同時に人名、地名、時代名、官職名、書名の自動識別を?qū)g現(xiàn)しており、その中古史料における正確度は98%近くに上っている。(提供/人民網(wǎng)日本語版?編集/YF)

この記事のコメントを見る

ピックアップ



   

we`re

RecordChina

お問い合わせ

Record China?記事へのご意見?お問い合わせはこちら

お問い合わせ

業(yè)務提攜

Record Chinaへの業(yè)務提攜に関するお問い合わせはこちら

業(yè)務提攜