簡単高速に文章がコピペかを検出したい

概要

大量の文章の中から比較的高速に文章が盗作されたものかどうかを検出する方法について紹介します.ここでは、文章の単語を抽出しそれらのFinger Printが一致するかで検査します.全体を見ていないにもかかわらず精度はそこそこ出ます.
Facebookシェア Twitterツイート LINEで送る このエントリーをはてなブックマークに追加
この章を学ぶ前に必要な知識
0
条件
  • 基準となるドキュメントと入力されたドキュメント
効果
  • 高速に文章のコピペを検出
ポイント
  • 検査したい文章と比較したい文章それぞれで単語を抽出し数値化(FingerPrintを得る)
  • 作成したFingerPrintがどの程度一致するかで比較
  • FingerPrintによる検出がよく使用される方法

解 説

簡単かつ高速に文章がコピペかを検出する方法についてまとめます. たとえば遅くても単純に比較するようなものでも良い場合は、誰でも思いつく「比較対象の部分文字列」が「検査対象の部分文字列」に含まれているかを検索する方法です.この場合全部の文章を毎回検索することになるため、計算資源もデータの容量資源も多くを要します. また、複数のドキュメントを探索しなくてはならない場合は途方になるほどの時間がかかってしまいます. そのため文章全体を比較せずにその特徴を引っ張り出してきて比較することで高速化を行います. ここでは ・代表的な部分文字列を何らかの方法で数値変換しそれを相手も持っているか確認する方法(FingerPrintによる確認) を紹介します.
簡単高速に文章がコピペかを検出したいの導入

1.FingerPrintによるコピペ確認

文章全体を使うのではなくngram(文章から部分的な文字列を切り出す方法)を用いて文章から代表的な単語をいくつも引っ張ってくる方法が考えられます. 1. 検査対象のファイルと比較対象のファイルからngram等を使って単語を複数取得. 2. その後,それらの情報を何らかの方法で数値(FingerPrintの計算)に変換 3. 得られたFingerPrintが一致するものがあるかを照合. 4. 一致度が高ければそれは盗作の疑いがあると判断 FingerPrintに変換することで比較を高速化しています.
FingerPrintによるコピペ確認を行いたい
この章を学んで新たに学べる
Comments

Reasons
>>隠す