リンク:
アリスブログ > ALISのデータ分析まとめ > 当記事
◆ 【ALIS】「記事ID」に使われない文字がある件
○ 事の発端
もうそろそろ「ALIS」という文字が、記事のIDに出現するかな~と思って、2万件の「記事ID」に対して検索をしたのですが、該当が0件だったので少し気になりました。
後に、「S」を削って「ALI」だけで検討したのですが、こちらも該当が0件であり、もし文字の出現確率が均等に分散されていたら、確率上はありえない現象なので、記事のIDの文字の規則性について、軽く調べてみることにしました。
○ 留意事項
・「2018-12-31」に記事を作成しました
・「2018-4-17」~「2018-12-24」までの記事が対象になっています
・「21765 件」の記事IDを検索しています
◆ 全文字(アルファベットの大文字+小文字+数字)の出現頻度
調査してみたところ、現時点において、
「C,F,H,I,S,T,U,c,f,h,i,s,t,u」
という文字が全く出現していない、ということがわかりました。
使用されている文字は、全部で48種類みたいですね。
「i」「s」が使用されていないので、「alis」が記事ID内に出現する確率は0です……。
(´;ω;`)
これだと、記事のIDに「alis」が入って、アリスマンが全力で褒めてくれるというイベントは、一切なさそうですね……。
◆ 先頭の文字の出現頻度
ついでに調べてみました。
結果、
Counter({'3': 9649, 'K': 5389, 'a': 4642, '2': 2085})
でした。
記事IDの先頭の文字には、「K,a,2,3」しか使われていないようです。
(2文字目以降に「K,a,2,3」は出現しない模様)
◆ 2番目以降の出現頻度について
2番目と12番目も調べてみましたが、こちらは44文字がランダムで出現している感じでした。
・2番目
Counter({'V': 687, 'E': 679, 'b': 672, 'N': 671, 'z': 656, 'm': 652, 'n': 652, 'e': 651, 'W': 646, 'J': 641, '7': 628, 'B': 624, 'P': 473, 'R': 460, 'w': 459, '9': 459, 'L': 457, 'D': 454, 'O': 452, 'Y': 452, 'Z': 451, 'y': 450, 'A': 449, '4': 448, '5': 448, '8': 443, '6': 443, 'Q': 437, 'g': 435, 'G': 435, 'p': 434, 'v': 433, 'r': 428, 'o': 426, '1': 425, 'X': 425, 'k': 425, 'q': 422, 'd': 417, 'x': 408, 'M': 408, 'j': 387, '0': 382, 'l': 381})
・12番目
Counter({'O': 789, 'Z': 735, '8': 709, 'Q': 610, 'L': 603, 'X': 572, 'B': 572, '0': 567, 'q': 562, 'g': 558, 'o': 556, 'l': 546, 'r': 544, '7': 544, 'Y': 542, 'p': 537, '5': 534, 'J': 531, 'A': 527, 'n': 527, 'M': 526, 'd': 519, '1': 517, '6': 505, '9': 503, 'z': 466, 'N': 451, 'P': 449, 'W': 437, 'b': 435, 'V': 430, 'e': 429, 'G': 425, 'D': 423, 'x': 419, 'j': 381, 'R': 380, 'k': 370, 'w': 367, 'm': 362, 'v': 360, 'y': 333, '4': 330, 'E': 283})
このことから、1番目には何らかの(2ビット?の)情報を保存、2番目以降には「記事の番号」か「sortkey」を変換して保存していると思われます。
◆ 記事の保存数の最大について
最初は、「記事の番号」を12桁+62種類の暗号化だと思っていたので、
62 ^ 12 = 56800235584 ^ 2
から、
約 2500,000,000,000,000,000,000 記事
ぐらい保存できるのかなーと思ったのですが……。
実際には、
48 ^ 11 = 12230590464 * 254803968
から、
約 3,000,000,000,000,000,000 記事
ぐらいしか保存できないのかもしれませんね。
(追記:計算を少し間違えていました。正しい計算は「44 ^ 11」です)
※1 上記の数値は、100億人が毎日記事を1個書いたとすると、おおよそ「800,000年」しか持たない計算になります
※2 最上位の謎の2bitも含むと、さらに4倍の記事が保存できるかも
以上、どうでもいい調査でした。
(´∀`)
◆ 「ゆうき」のツイッター