他カテゴリ

【教育·子育て】くずし字×AI⁉そうなんです!!これ待ってたんです!!

kaz's icon'
  • kaz
  • 2019/07/12 10:19
Content image
今回もみりんさんのイラストアイキャッチ!素敵!

ブロックチェーンの社会実装という試みもそうですが、新たな技術がいろいろなボーダーを超えて普及していくことが、社会をアップデートしていくためには必要ですよね。

唐突に、うめきちさん企画「時代のアップデート」で書いた記事をリンクしましたが、この記事で取り上げた億ラビットくんさんの技術も、社会を大きく変える可能性を持っているように感じます。

普段、文系的な世界のなかで暮らしている僕にとっては、こうした世界に新しい技術がどんな形で入ってくるのか、とっても興味津々なんですね。

今回はそうした視点から、「これこれ!!こういうのを待ってたんよ!!」という技術に関するニュースを目にしたので、記事として書き留めておきたいと思います。

Content image

AIが瞬時にくずし字を解読!?

2019年7月12日にCNET Japanに掲載された記事によると、Googleは7月10日に、AIによる社会問題解決をテーマとしたメディア向けのイベントである「Solve with AI」を開催したそうです。

AIによる社会問題解決」をテーマとするイベントということで、さまざまな分野でのAI活用の事例が当事者によって紹介されたようです。

そうしたプロジェクトのひとつとして紹介されているなかで、僕が「これこれ!」と思ったのは、「「くずし字」の光学文字認識システム」、つまりくずし字のOCRシステムなんです!

これは、日本の国立情報学研究所(NII)の「人文学オープンデータ共同利用センター(CODH)」が公開している「日本古典籍くずし字データセット」を活用した、AIによる認識システムなんです!

なんと画期的!

…と言っても、どれほどの人にこの興奮が伝わるでしょうか?💦

Content image

まず、「くずし字」というのは江戸時代までの手紙や書物に見られた、筆による書体を総称したものです。

Content image

これはまだ読みやすいほうですが、今のように一字一字書き分けるのではなく、筆の流れに任せて文字を連ねていくので、前後関係や書き手の癖によっていろんな字体が生み出されるんですね。

今回の取り組みについて国立情報学研究所が出したプレスリリースによれば、そんな規格化されていない「くずし字」で書かれた史料は「数億点規模」(!)にものぼるといわれています。

そんな膨大な史料が存在しているにもかかわらず、くずし字をきちんと読める人は日本にわずか数千人程度

海外にもくずし字を読める研究者はいますけれど、その方々を合わせても、数億点規模の史料を解読するためのマンパワーが圧倒的に足りないんです。

そこで、国立情報学研究所はデジタル技術を活用したさまざまな取り組みとデータの共有化・オープンソース化を進めてきたんですけれど、そうした取り組みのひとつが今回のくずし字のOCRシステムの開発なんですね。

Content image

僕も大学院生のころに「くずし字」読解のトレーニングを受けてきたんですけれど、基本的には『くずし字辞典』を片手に、たくさんのテキストを読んで慣れていくという作業を続けていました。

『くずし字辞典』があるといっても、これはいわゆる「文字一覧」みたいなものなので、分からない文字に出会ったら辞典に収録されている文字と照合させながら「なんとなくこれかな?」という形で読み進めていくので、確信を持てないままに読んでいくことになります。

それでも、先に上げた写真のように、出版されたものはまだある程度決まった字体・字形があるので、こうした方法でもなんとか読んでいくことができます。

大変なのは、手紙や日記などの私蔵文書

もうこれは、書き手のクセがストレートに出るので、辞書に乗っている字形とは全然違ったり、そもそも一文字だけ分からないとかではなく、一文単位で読めない…なんてこともザラにありました。

僕は近世の文書を読むことは少ないのですが、近代以降の史料でも筆で書かれたものは、だいぶ後の時代になってからも「くずし字」調で書かれたものが多く、そうした史料に当たるたびに溜め息をもらしていました💦

COHDが公開しているくずし字データセットを活用したデータベース検索を使えば、かなり読めるようになってはきたのですが、それでも一字一字検索にかけていく作業はなかなか大変でした。

そんな状況のなかで、OCRによる解読ができればどれほど便利なことか!

この感動、わかっていただけるでしょうか?

Content image

先に上げた国立情報学研究所のプレスリリースにも書かれていましたが、今後、このOCRシステムの開発に向けたコンペが、国際的なコンペティションプラットフォームであるKaggleで開催されるそうです。

コンペを経て、どのようなシステムが実現されるのか…

とってもとっても楽しみにしています!

早く実現しますように!

Content image
Content image
Content image
Content image
Supporter profile iconSupporter profile iconSupporter profile iconSupporter profile icon
Article tip 4人がサポートしています
獲得ALIS: Article like 45.01 ALIS Article tip 12.20 ALIS
kaz's icon'
  • kaz
  • @kaz
本職のフィールドである台湾・香港・中国の情報を中心に、自分が「面白いな!」と思ったことを記事にしています。Twitter: @kazALIS2

投稿者の人気記事
コメントする
コメントする
こちらもおすすめ!
Eye catch
トラベル

わら人形を釘で打ち呪う 丑の刻参りは今も存在するのか? 京都最恐の貴船神社奥宮を調べた

Like token Tip token
486.35 ALIS
Eye catch
トラベル

無料案内所という職業

Like token Tip token
84.20 ALIS
Eye catch
ゲーム

【初心者向け】Splinterlandsの遊び方【BCG】

Like token Tip token
6.32 ALIS
Eye catch
他カテゴリ

警察官が一人で戦ったらどのくらいの強さなの?『柔道編』 【元警察官が本音で回答】

Like token Tip token
114.82 ALIS
Eye catch
他カテゴリ

オランダ人が語る大麻大国のオランダ

Like token Tip token
46.20 ALIS
Eye catch
クリプト

Bitcoinの価値の源泉は、PoWによる電気代ではなくて"競争原理"だった。

Like token Tip token
159.32 ALIS
Eye catch
クリプト

NFT解体新書・デジタルデータをNFTで販売するときのすべて【実証実験・共有レポート】

Like token Tip token
121.79 ALIS
Eye catch
他カテゴリ

警察官が一人で戦ったらどのくらいの強さなの?『柔道編』 【元警察官が本音で回答】

Like token Tip token
114.82 ALIS
Eye catch
他カテゴリ

機械学習を体験してみよう!(難易度低)

Like token Tip token
124.82 ALIS
Eye catch
他カテゴリ

SASUKEオーディションに出た時の話

Like token Tip token
35.87 ALIS
Eye catch
他カテゴリ

テレビ番組で登録商標が「言えない」のか考察してみる

Like token Tip token
26.20 ALIS
Eye catch
クリプト

約2年間ブロックチェ-ンゲームをして

Like token Tip token
61.20 ALIS