
重複コンテンツとは?そのパターンと対処方法
どんなパターンで重複コンテンツが発生してしまうのか、重複コンテンツが発生することによる問題点と対策方法も合わせてご紹介します。
- 2016/6/7
- 2016/5/20
重複コンテンツとは、完全に同じか限りなく同じに近いコンテンツを掲載しているページのことを指します。
意図的に重複コンテンツを作成している場合は別として、意図せずに重複コンテンツを発生させてしまうこともあります。
例えば、PC版と全く同じ内容のスマホ版のWebページを別のURLで作成した場合や、印刷用にヘッダーやサイドメニューなどを非表示にしたWebページを作成した場合などが考えられます。
スマホ用サイトを別URLで作成する事は珍しくありませんので、適切なアノテーションの設定が行われておらず、重複コンテンツになってしまっている事は多いのではないかと思います。
▼知りたいところから読む
重複コンテンツペナルティはあるの?
重複コンテンツがあるとペナルティを受けるのでは?と相談される事がありますが、重複コンテンツが原因となってペナルティを受ける事はありません。
301リダイレクトやcanonicalタグなどを使って、ユーザーが重複コンテンツの存在とその処理をGoogleに伝える手段も確立されていますし、何よりもGoogle自身、重複コンテンツの処理が上手になってきています。
だからと言って、コンテンツをバンバン複製していいわけではありません。
重複しているとGoogleが判断したページは、インデックスから削除されたりランキングが明らかに下がるなどの対応が取られますので、ページを複製してもメリットはありません。
また、ランキングを操作しようという明らかな意図があるとGoogleが判断すれば、そのサイトに対して何らかの処置がされる可能性はあります。
さらに、コンテンツをコピーしてWebサイトをたくさん作り、そのWebサイトからリンクを張って外部リンクを強化しようなどと思っているのであれば、不自然な外部リンクのペナルティを受ける事になるかもしれません。
第三者のコンテンツを無断でコピーした場合には、著作権違反にもなります。
Googleには、コピーされた側が使う著作権侵害を申請するフォームも用意されています。
自分のサイトのコンテンツをコピーされた場合でも、そちらのページが検索結果に表示されてしまう可能性がありますので、そういった場合には専用のフォームから、申し立てを行いましょう。
重複コンテンツが発生してしまう可能性があるパターン
Googleのヘルプページには、重複コンテンツが発生するページの例として、以下のようなパターンが挙げられています。
- 通常ページと携帯デバイス用の簡易ページの両方を生成するディスカッション フォーラム
- 複数の異なる URL で表示またはリンクされる商品ページ
- ウェブページの印刷用バージョン
複数の異なるURLで表示されるページには、以下のようなパターンがあります。
- wwwありのURLとwwwなしのURLの両方で表示されるページ
どちらか使用する方のURLに301リダイレクトを行います。301リダイレクトを行えない場合には、サーチコンソールの「サイト設定」で、wwwあり・wwwなしのどちらのURLを使用するかを設定することができます。
サーチコンソールで使用するドメインを設定する場合には、使用しない方のドメインもサーチコンソールに登録する(所有者を確認する)必要があります。 - 末尾が/(スラッシュ)で終わるURLと、末尾にindex.htmlが付いているページ
使用しないURLから、使用するURLに対して301リダイレクトを行います。 - httpのURLとhttpsのURL
httpsでアクセスすることができるなら、httpからhttpsに301リダイレクトを行います。httpsでアクセスすることができない場合には、何もしなくて大丈夫です。
ただ、リンクされるURLがどちらかで(完全ではないとしても)統一されている場合には、サーチコンソールでタイトルタグの重複なども表示されていませんので、Google側でうまく処理してくれているようです。
重複コンテンツの問題点
悪意はなく重複コンテンツが発生してしまう可能性があるのですが、重複コンテンツが発生した場合にどんな問題が起きるのでしょうか。
重複していると見なされたページのどれかがインデックスに表示されなくなる
Googleに重複しているバージョンのコンテンツだと判断された場合、インデックスに表示されなくなります。
通常、これが問題になるのは、別のサイトに記事を寄稿している場合です。
寄稿先のサイトにも自分のサイトにも同じコンテンツがある場合、自分のサイトのコンテンツの方が古い(より先に公開された)場合でも、寄稿先のサイトのドメインパワーが強い場合などは、寄稿先のサイトがインデックスに表示されてしまうことがあります。
Googleもうまく処理をしようと頑張っていますが、なかなかうまくいかない場面もあると思いますので、もし他サイトに寄稿する場合などは、寄稿先から自分のサイトにリンクを張ってもらったり、自分のサイトに公開するコンテンツに追記するなどの工夫をしましょう。
Googleのヘルプでは、提供先のサイトの該当ページをnoindexタグでインデックスされないようにするという方法も書かれていますが、この方法はビジネス上実現不可能かと…。
被リンク評価の分散が起きてしまう
例えば、index.htmlありのURLとindex.htmlなしのURLに、それぞれ被リンクが張られている場合、どちらか正規のURLに対して被リンクのパワーが集約されるはずなのに、両方のURLに対して被リンクのパワーがついてしまいます。
ただ、同じページが表示される場合には、Google側で上手に処理してくれるはずです。
とは言っても、Googleが確実に処理してくれるかどうかは分かりませんので、Webサイトの運営側でできることはやっておく方がいいでしょう。
重複コンテンツにならないようにできる事
重複コンテンツが起きないように、Webサイト運営者側でできる事もたくさんあります。
- リダイレクト、canonicalタグで検索結果に表示させたいページを指定する
リダイレクトについてはこちら、canonicalについてはこちらのページで解説しています。 - 内部リンクのURLは一貫性を持って設置する
あるページからはindex.htmlありのURLで、別のページからはindex.htmlなしのURLでリンクを張るという事がないように、どちらかで統一するようにリンクを張るようにします。 - 同じコンテンツが別のフォーマットで表示されないようにCMSを調整する
WordPressは、日付別のアーカイブページが自動で作成されます。1日に1記事しか投稿しない場合には、記事ページと日付別ページは同じ内容になってしまいます。
このような場合に、日付別アーカイブページにnoindexタグを設置するなどの工夫が必要です。 - 類似コンテンツは作らない
一部分だけが異なっていて、それ以外はほとんど同じコンテンツというページは、1ページにまとめられないか検討しましょう。
例えば、各地の支店の情報などの、地図や住所以外は同一になってしまう可能性があるページは、1ページにまとめてしまった方が、ユーザーにとっても使いやすくなると思います。
各支店ごとに独自のコンテンツが提供できる場合は、その限りではありません。
クローラーをブロックしない
robots.txtなどを使って、重複するコンテンツへのクローラーのアクセスをブロックする対策ではおすすめできません。
クローラーをブロックしてしまったら、重複するコンテンツをリダイレクトしようが、canonicalタグを設置しようが、Googleにはそれが伝わらないからです。
重複するコンテンツに適切な処理を施したあとは、きちんとクローラーにも訪問してもらい、こちらで指定した方法でGoogleに処理してもらうようにしましょう。