文体からコピペかを検出したい

概要

文体からコピペかを検出する方法についてまとめます.これらの方法によるコピペの検出は未だ発展途上であり、精度も低いです.文章における単語の置き換えが激しい場合に適用することが可能かもしれません.
Facebookシェア Twitterツイート LINEで送る このエントリーをはてなブックマークに追加
この章を学ぶ前に必要な知識
0
条件
  • 検査対象の文章
  • 他の同一筆者の文章
効果
  • 文体によってコピペかどうかを検出
ポイント
  • 精度はまだ低いと言われる
  • 機械学習や統計処理によって実現する

解 説

文体からコピペかを検出することは未だに難しく、多くは機械学習や統計処理によって実現を試みている状況です. 主な方法では字句統計による単語の使用される頻度を利用した推定が多く、それらの情報からPCAを行ったり、ニューラルネットワークによる著者データの学習を行ったりと様々です.遺伝的アルゴリズムによる著者の推定等も試みられています. これらの技術が適切に確立されれば単語の変換が過度に行われていて原文との相関が見つけにくいコピペ等に対しても盗作検出をすることができるようになると考えられます.
文体からコピペかを検出したい
近年流行りのDeepLearning等を用いた研究も盛んになってきている. 右の論文では文章から筆者の性別や年齢を高精度で推定できたと主張している.
この章を学んで新たに学べる
Comments

Reasons
>>隠す