【Python】ALISの記事をバックアップする方法

ゆうき
2018/09/13 08:06

リンク：

アリスブログ ＞ 「ALISのAPI」を使用する方法まとめ ＞当記事

◆ 【Python】ALISの記事をバックアップする方法

「ALISの記事のバックアップファイルを生成する方法がない！」ということが、前々から気になっていたのですよね。

……ということで、自力で作ってみました。

下記のプログラムを用いれば、自分の記事のバックアップを作成することができますよ。

○ 留意事項

・「2018/09/13」に作成された記事です

・ALISのAPIの仕様が変わると、このプログラムは動作しなくなる可能性があります

・バックアップ用のプログラムは、ALISサーバーに「負荷がかかりやすい」です

・バックアップ用のプログラムは実行速度が遅いです

・バックアップ用のプログラムを同じ日付内で実行すると、バックアップしたファイルが「上書き」されます

・当プログラムでバックアップを行うのは「テキストデータのみ」です。画像ファイルを保存することはできません

○ 関連記事

◆ バックアップ用のプログラム

○ 記事のバックアップを生成するプログラム

import urllib.request
import json
import pprint
import time
import datetime
import ast
import codecs

# 任意の値
user_name1 = 'yuuki'
load_num = 3 # 記事の呼び出しを行う数

# 固定の値
article_id_memo1 = ''
sort_key_memo1 = ''
article_box2 = []

# 呼び出しする数の生成
if load_num < 1 : load_num = 1

limit1 = load_num
loop_num = (int)(1 + (load_num - 1) / 100)

if limit1 > 100 : limit1 = 100

for count1 in range(loop_num):
try:
url_name1 = f'https://alis.to/api/users/{user_name1}/articles/public?limit={limit1}'
if count1 >= 1:
url_name1 += f'&article_id={article_id_memo1}&sort_key={sort_key_memo1}'

cm_data1 = urllib.request.urlopen(url_name1)
article_box1 = json.loads(cm_data1.read().decode("utf-8"))
article_box2.extend(article_box1['Items'])

load_article1_len1 = len(article_box1['Items'])

print("Load : " + str(count1))

if load_article1_len1 <= 0:
break

else:
article_id_memo1 = article_box1['Items'][load_article1_len1 - 1]['article_id']
sort_key_memo1 = article_box1['Items'][load_article1_len1 - 1]['sort_key']

#time.sleep(1)

except:
print("Error!")
break

print("")

page2 = 0
load_article1_len2 = len(article_box2)

article_box5 = []

for article3 in article_box2:
article_id1 = article3['article_id']
url_name2 = f'https://alis.to/api/articles/{article_id1}'

cm_data2 = urllib.request.urlopen(url_name2)
article_box4 = json.loads(cm_data2.read().decode("utf-8"))
article_box5.append(article_box4)

time.sleep(1)

page2 += 1
print(f"Copy ({page2} / {load_article1_len2}) : " + article3['title'])

if load_article1_len2 >= 1 :
text1 = json.dumps(article_box5,ensure_ascii = False)

date1 = datetime.date.today()

file_name1 = str(date1) + '_' + user_name1 + '_ALIS_BackupData.txt'
file1 = codecs.open(file_name1,'w','utf-8')
file1.write(text1)
file1.close

print("")
print(f"保存数 : {page2}")
print(f"バックアップファイル「{file_name1}」を作成しました！")
print("")

else:
print(f"保存するデータがありませんでした……")

input('Enterキーで終了')

※１このソースコードは「特定のALISユーザーの『記事の情報』を全部取得してみよう！」に掲載されているコードを改造したものです

※２説明しておきたい場所は、太字にしています

○ 作成したバックアップデータを読み込むプログラム

import pprint
import datetime
import ast
import codecs

# 任意の値
user_name1 = 'yuuki'

date2 = '2018-09-13' # 任意の日付

file_name2 = str(date2) + '_' + user_name1 + '_ALIS_BackupData.txt'

file2 = codecs.open(file_name2,'r','utf-8')

file_str1 = file2.read()

article_box6 = ast.literal_eval(file_str1)

file2.close

for article7 in article_box6:
print(article7['title'])

print("")
print("要素数 : " + str(len(article_box6)))
print("")

input('Enterキーで終了')

※ こちらのソースコードの説明は省きます

○ 説明！

import codecs

今回のコードでは、「指定した文字コードでのファイルの保存」が必要となるため、「codecs」のモジュールを入れておきます。

load_num = 3 # 記事の呼び出しを行う数

前回まで「limit1」「loop_num」を設定していましたが、今回から変数１つで「呼び出し数」を決められるようにします。

# 呼び出しする数の生成
if load_num < 1 : load_num = 1

limit1 = load_num
loop_num = (int)(1 + (load_num - 1) / 100)

if limit1 > 100 : limit1 = 100

変数１つで「呼び出し数」を決められるようにした結果、必要なコードが増えてしまいました……（汗）。

article_id1 = article3['article_id']
url_name2 = f'https://alis.to/api/articles/{article_id1}'

２回目のループ文では、１回目のループ文で獲得した「各記事の番号」を使って「/articles/{article_id}」のAPIを呼び出します。

これを行うことで、記事内（body内）のHTMLデータを取得することができるようになります。

（バックアップを行う上で必要になるデータです）

article_box5.append(article_box4)

「extend」を用いると、（型落ちで）保存されていたデータが消えてしまうので、「append」に変更しました。

・「append」と「extend」の使い分けについて

サンプルプログラムを組んでみると、わかりやすいです。

list1 = {"A":1, "B":2, "C":3}
list2 = {"Items": [{"A":1, "B":2, "C":3}]}
list4 = []
list5 = []
list6 = []
list7 = []

for test1 in range(2):
list4.append(list1)
list5.extend(list1)
list6.append(list2['Items'])
list7.extend(list2['Items'])

print(list4)
print(list5)
print()
print(list6)
print(list7)

input('Enterキーで終了')

・サンプルの出力結果

[{'A': 1, 'B': 2, 'C': 3}, {'A': 1, 'B': 2, 'C': 3}]
['A', 'B', 'C', 'A', 'B', 'C']

[[{'A': 1, 'B': 2, 'C': 3}], [{'A': 1, 'B': 2, 'C': 3}]]
[{'A': 1, 'B': 2, 'C': 3}, {'A': 1, 'B': 2, 'C': 3}]

外に要素（「['Items']」）が無い時は「append」。

外に要素がある時は「extend」を用いることで、[]内に「{}のみ」を複数配置することができます。

（「append」は全部そのまま追加、「extend」は中身を追加。という認識でいいような気がします）