ブロックチェーンの社会実装という試みもそうですが、新たな技術がいろいろなボーダーを超えて普及していくことが、社会をアップデートしていくためには必要ですよね。
唐突に、うめきちさん企画「時代のアップデート」で書いた記事をリンクしましたが、この記事で取り上げた億ラビットくんさんの技術も、社会を大きく変える可能性を持っているように感じます。
普段、文系的な世界のなかで暮らしている僕にとっては、こうした世界に新しい技術がどんな形で入ってくるのか、とっても興味津々なんですね。
今回はそうした視点から、「これこれ!!こういうのを待ってたんよ!!」という技術に関するニュースを目にしたので、記事として書き留めておきたいと思います。
2019年7月12日にCNET Japanに掲載された記事によると、Googleは7月10日に、AIによる社会問題解決をテーマとしたメディア向けのイベントである「Solve with AI」を開催したそうです。
「AIによる社会問題解決」をテーマとするイベントということで、さまざまな分野でのAI活用の事例が当事者によって紹介されたようです。
そうしたプロジェクトのひとつとして紹介されているなかで、僕が「これこれ!」と思ったのは、「「くずし字」の光学文字認識システム」、つまりくずし字のOCRシステムなんです!
これは、日本の国立情報学研究所(NII)の「人文学オープンデータ共同利用センター(CODH)」が公開している「日本古典籍くずし字データセット」を活用した、AIによる認識システムなんです!
なんと画期的!
…と言っても、どれほどの人にこの興奮が伝わるでしょうか?💦
まず、「くずし字」というのは江戸時代までの手紙や書物に見られた、筆による書体を総称したものです。
これはまだ読みやすいほうですが、今のように一字一字書き分けるのではなく、筆の流れに任せて文字を連ねていくので、前後関係や書き手の癖によっていろんな字体が生み出されるんですね。
今回の取り組みについて国立情報学研究所が出したプレスリリースによれば、そんな規格化されていない「くずし字」で書かれた史料は「数億点規模」(!)にものぼるといわれています。
そんな膨大な史料が存在しているにもかかわらず、くずし字をきちんと読める人は日本にわずか数千人程度…
海外にもくずし字を読める研究者はいますけれど、その方々を合わせても、数億点規模の史料を解読するためのマンパワーが圧倒的に足りないんです。
そこで、国立情報学研究所はデジタル技術を活用したさまざまな取り組みとデータの共有化・オープンソース化を進めてきたんですけれど、そうした取り組みのひとつが今回のくずし字のOCRシステムの開発なんですね。
僕も大学院生のころに「くずし字」読解のトレーニングを受けてきたんですけれど、基本的には『くずし字辞典』を片手に、たくさんのテキストを読んで慣れていくという作業を続けていました。
『くずし字辞典』があるといっても、これはいわゆる「文字一覧」みたいなものなので、分からない文字に出会ったら辞典に収録されている文字と照合させながら「なんとなくこれかな?」という形で読み進めていくので、確信を持てないままに読んでいくことになります。
それでも、先に上げた写真のように、出版されたものはまだある程度決まった字体・字形があるので、こうした方法でもなんとか読んでいくことができます。
大変なのは、手紙や日記などの私蔵文書。
もうこれは、書き手のクセがストレートに出るので、辞書に乗っている字形とは全然違ったり、そもそも一文字だけ分からないとかではなく、一文単位で読めない…なんてこともザラにありました。
僕は近世の文書を読むことは少ないのですが、近代以降の史料でも筆で書かれたものは、だいぶ後の時代になってからも「くずし字」調で書かれたものが多く、そうした史料に当たるたびに溜め息をもらしていました💦
COHDが公開しているくずし字データセットを活用したデータベース検索を使えば、かなり読めるようになってはきたのですが、それでも一字一字検索にかけていく作業はなかなか大変でした。
そんな状況のなかで、OCRによる解読ができればどれほど便利なことか!
この感動、わかっていただけるでしょうか?
先に上げた国立情報学研究所のプレスリリースにも書かれていましたが、今後、このOCRシステムの開発に向けたコンペが、国際的なコンペティションプラットフォームであるKaggleで開催されるそうです。
コンペを経て、どのようなシステムが実現されるのか…