がくしです
法律とか規約とかは、
私の専門外の話なので、
運営さんに聞いてきました。
パクリ記事掲載は規約違反だけど、
著作権を持つ人が被害を訴えないと、
パクリ判定が出来ない、とのこと。
著作権侵害は、
当事者間の問題であると理解しました。
しかしながら、
明らかなパクリ記事を、
放置するのは不健全です。
かといって、
私の独善でパクリ判定した記事を
通報していくのは本望ではありません。
何故なら、
非中央集権的サービスにおいて、
スマコン外のルールを強いることは、
不健全な確執を生むと考えているからです。
steemitでの騒動も記憶に新しいでしょう。
しまりすの死を無駄にする訳にはいきません。
さて、どうしたものでしょうか。
抑止力を作るに留める事にしました。
パクリと思しき記事を、
検出するプログラムです。
今すぐ何をするでもなく、
いざとなれば検出できるんだよ、
というメッセージに留めます。
パクリ常習犯の良心に届けば幸いです。
●ALIS最新記事のデータを取得
●各記事本文の一節をgoogle検索
●指定されたニュースサイトの記事のみ選出
今回はコインの森を使用
●ニュースサイト記事とALIS記事の類似度を算出
直近3日分の記事をチェックしました。
一応、特定出来ないように伏せてます。
similarityが0.9超えると、パクリ説濃厚ですね。
今回は検出自体が目的出ないので、
割とザルなシステムになってます。
もし興味のある方がいれば、
これをたたき台にでもして、
より良いものを作ってもらえればと。
再三繰り返しますが、
今回はパクリ検知が目的ではないです。
そもそも、類似度が高くても、
著作権者が許可している可能性もありますし。
ただ、これをきっかけに、
悪い事をする人が減ってくれれば嬉しいです。
かしこ。