他カテゴリ

【教育·子育て】くずし字×AI⁉そうなんです!!これ待ってたんです!!

kaz
2019/07/12 10:19

Content image — 今回もみりんさんのイラストアイキャッチ！素敵！

ブロックチェーンの社会実装という試みもそうですが、新たな技術がいろいろなボーダーを超えて普及していくことが、社会をアップデートしていくためには必要ですよね。

唐突に、うめきちさん企画「時代のアップデート」で書いた記事をリンクしましたが、この記事で取り上げた億ラビットくんさんの技術も、社会を大きく変える可能性を持っているように感じます。

普段、文系的な世界のなかで暮らしている僕にとっては、こうした世界に新しい技術がどんな形で入ってくるのか、とっても興味津々なんですね。

今回はそうした視点から、「これこれ!!こういうのを待ってたんよ!!」という技術に関するニュースを目にしたので、記事として書き留めておきたいと思います。

Content image

AIが瞬時にくずし字を解読!?

2019年7月12日にCNET Japanに掲載された記事によると、Googleは7月10日に、AIによる社会問題解決をテーマとしたメディア向けのイベントである「Solve with AI」を開催したそうです。

「AIによる社会問題解決」をテーマとするイベントということで、さまざまな分野でのAI活用の事例が当事者によって紹介されたようです。

そうしたプロジェクトのひとつとして紹介されているなかで、僕が「これこれ！」と思ったのは、「「くずし字」の光学文字認識システム」、つまりくずし字のOCRシステムなんです！

これは、日本の国立情報学研究所（NII）の「人文学オープンデータ共同利用センター（CODH）」が公開している「日本古典籍くずし字データセット」を活用した、AIによる認識システムなんです！

なんと画期的！

…と言っても、どれほどの人にこの興奮が伝わるでしょうか？💦

Content image

まず、「くずし字」というのは江戸時代までの手紙や書物に見られた、筆による書体を総称したものです。

Content image

これはまだ読みやすいほうですが、今のように一字一字書き分けるのではなく、筆の流れに任せて文字を連ねていくので、前後関係や書き手の癖によっていろんな字体が生み出されるんですね。

今回の取り組みについて国立情報学研究所が出したプレスリリースによれば、そんな規格化されていない「くずし字」で書かれた史料は「数億点規模」（！）にものぼるといわれています。

そんな膨大な史料が存在しているにもかかわらず、くずし字をきちんと読める人は日本にわずか数千人程度…

海外にもくずし字を読める研究者はいますけれど、その方々を合わせても、数億点規模の史料を解読するためのマンパワーが圧倒的に足りないんです。

そこで、国立情報学研究所はデジタル技術を活用したさまざまな取り組みとデータの共有化・オープンソース化を進めてきたんですけれど、そうした取り組みのひとつが今回のくずし字のOCRシステムの開発なんですね。

Content image

僕も大学院生のころに「くずし字」読解のトレーニングを受けてきたんですけれど、基本的には『くずし字辞典』を片手に、たくさんのテキストを読んで慣れていくという作業を続けていました。

『くずし字辞典』があるといっても、これはいわゆる「文字一覧」みたいなものなので、分からない文字に出会ったら辞典に収録されている文字と照合させながら「なんとなくこれかな？」という形で読み進めていくので、確信を持てないままに読んでいくことになります。

それでも、先に上げた写真のように、出版されたものはまだある程度決まった字体・字形があるので、こうした方法でもなんとか読んでいくことができます。

大変なのは、手紙や日記などの私蔵文書。

もうこれは、書き手のクセがストレートに出るので、辞書に乗っている字形とは全然違ったり、そもそも一文字だけ分からないとかではなく、一文単位で読めない…なんてこともザラにありました。

僕は近世の文書を読むことは少ないのですが、近代以降の史料でも筆で書かれたものは、だいぶ後の時代になってからも「くずし字」調で書かれたものが多く、そうした史料に当たるたびに溜め息をもらしていました💦

COHDが公開しているくずし字データセットを活用したデータベース検索を使えば、かなり読めるようになってはきたのですが、それでも一字一字検索にかけていく作業はなかなか大変でした。

そんな状況のなかで、OCRによる解読ができればどれほど便利なことか！

この感動、わかっていただけるでしょうか？

Content image

先に上げた国立情報学研究所のプレスリリースにも書かれていましたが、今後、このOCRシステムの開発に向けたコンペが、国際的なコンペティションプラットフォームであるKaggleで開催されるそうです。

コンペを経て、どのようなシステムが実現されるのか…

とってもとっても楽しみにしています！

早く実現しますように！

Content image

Content image

Content image

Content image

AI くずし字 OCR 史料文書

4人がサポートしています

獲得ALIS:

45.01 ALIS

12.20 ALIS

kaz
@kaz

本職のフィールドである台湾・香港・中国の情報を中心に、自分が「面白いな！」と思ったことを記事にしています。Twitter: @kazALIS2

投稿者の人気記事

あのALISが無くなるかも…と耳にして

Like token

Tip token

限りある時間のなかでー2020年ALISとの距離感ー

Like token

Tip token

【閑話休題】ALISで記事を書き始めて2年が経ちました

Like token

Tip token

コメントする

コメントする

こちらもおすすめ！

Eye catch

約２年間ブロックチェ－ンゲームをして

1.16k ALIS 161.20 ALIS

無料案内所という職業

596.41 ALIS 84.20 ALIS

他カテゴリ

機械学習を体験してみよう！（難易度低）

454.56 ALIS 124.82 ALIS

他カテゴリ

警察官が一人で戦ったらどのくらいの強さなの？『柔道編』　【元警察官が本音で回答】

827.50 ALIS 125.92 ALIS

NFT解体新書・デジタルデータをNFTで販売するときのすべて【実証実験・共有レポート】

681.47 ALIS 121.79 ALIS

他カテゴリ

オランダ人が語る大麻大国のオランダ

66.13 ALIS 46.20 ALIS

ジョークコインとして出発したDogecoin（ドージコイン）の誕生から現在まで。注目される非証券性🐶

1.44k ALIS 38.31 ALIS

他カテゴリ

テレビ番組で登録商標が「言えない」のか考察してみる

417.76 ALIS 31.20 ALIS

17万円のPCでTwitterやってるのはもったいないのでETHマイニングを始めた話

1.34k ALIS 46.60 ALIS

【初心者向け】Splinterlandsの遊び方【BCG】

514.28 ALIS 6.32 ALIS

Bitcoinの価値の源泉は、PoWによる電気代ではなくて"競争原理"だった。

144.63 ALIS 159.32 ALIS

他カテゴリ

SASUKEオーディションに出た時の話

494.64 ALIS 35.87 ALIS