1. ホーム > 
  2. Webサイト集客 > 
  3. サーチコンソールの使い方 > 
  4. サーチコンソールでrobots.txtのテストをする方法

サーチコンソールでrobots.txtのテストをする方法

robots.txtとは何か?どうやって書いたらいいのか?書式が正しいかどうかチェックする方法は?といった疑問に回答します。

  • 2016/6/29
  • 2011/9/18

Googleサーチコンソールの「クロール」の中に、robots.txtテスターという機能があります。
この画面には、robots.txtのエラーを確認する、robots.txtの動作を確認する、robotx.txtの更新をGoogleに伝えるという3つの機能があります。

それぞれの機能について知る前に、まずはrobots.txtがどういったものなのかをおさらいしておきましょう。

robots.txtとは?

「robots.txt」とはGoogleなどの検索エンジンが、情報を収集する為に使うロボット(プログラム)の制御を行うためのファイルです。

また、シンプルなテキストファイルですので、秀丸エディタやmiといったテキストエディターで作成することができます。

検索エンジンなどのクローラーはrobots.txtの内容を読み取り、検索結果に表示されてはいけないページをクロールの対象から除外するなど、Webサイト側で指定した動き方を確認します。

もし検索エンジンのクローラーにクロールしてほしくないURLが無い場合には、無理やり作る必要はありません。

robots.txtには強制力はありませんが、誤って「ホームページのすべてのページをクロールしない」という設定にしてしまうと、新しいページもインデックスされない、コンテンツを更新したページもGoogle検索で反映されないといった事になってしまいます。

robots.txtに頼りすぎるのは危険

robots.txtはクロールするURLをコントロールするものですが、完全ではありません。
仮にrobots.txtに「クロールしないでね」と書いてあったとしても、他のWebサイトからリンクされているなど、検索エンジンのクローラーが他の場所からURLを見つけた場合、検索結果に表示されてしまうかもしれません。

もし重要な企業情報などがそのページに書かれていた場合、意図せず検索できてしまうことにもなりかねません。

また、robots.txtはルートディレクトリに置き、名前も決まっていますから、誰でも簡単にアクセスできてしまいます。

例えば、楽天市場のrobots.txtは「http://www.rakuten.co.jp/robots.txt」Amazonのrobots.txtは「https://www.amazon.co.jp/robots.txt」です。

普通に考えれば、そこに書かれているURLは簡単にアクセスできてはマズイようなURLなのですから、コンテンツの内容によってはとても大きな事故に繋がってしまうリスクもあるのです。

そのため、robots.txtに頼りきりにするのではなく、重要な情報が書かれたページを公開せざるをえない場合には、パスワードやIPアドレスでの制限をかけるなどの不正アクセス防止対策も万全にしておく必要があります。

robots.txtを作る

robots.txtは、「クローラーを指定して、クロールを拒否するURLを指定する」というとてもシンプルな構造をしています。

ユーザーエージェントの指定

ユーザーエージェントとは、アクセスしたプログラムを指定する名前のようなもので、ブラウザでWebページにアクセスした時もサーバーに送られている情報です。

このユーザーエージェントを使って、robots.txtの対象となるクローラーを指定します。

書式:User-agent: (対象のユーザーエジェント)

通常は、アクセスするすべてのユーザーエージェントを対象にしますので、*(アスタリスク)を設定します。

例:すべてのクローラーを対象にする
User-agent: *

例:Googlebot(Googleのクローラー)だけを対象にする
User-agent: Googlebot

ユーザーエージェントはRobots DatabaseというWebサイトで確認できます。
すべてのクローラーを網羅しているわけではないみたいですが、だいたいのクローラーのユーザーエージェントは分かります。

クロールを許可する / 許可しないフォルダの指定

ユーザーエージェントで指定したクローラーに、アクセスを許可するフォルダ、許可しないフォルダを、以下の書式で指定します。

許可するフォルダの指定
書式:Allow: (フォルダ)

許可しないフォルダの指定
書式:Disallow: (フォルダ)

例:サイトのすべてのフォルダ・ページへのアクセスを許可しない場合
Disallow: /

例:ドメイントップに存在するfruitsフォルダへのアクセスを許可しない場合
Disallow: /fruits/

例:fruitsフォルダ内のapple.htmlへのアクセスを許可しない場合
Disallow: /fruits/apple.html

特定のファイルやフォルダへのアクセスを許可しない設定だけを記述するのが一般的ですが、その中でもアクセスを許可したいURLがある場合は、DisallowとAllowを組み合わせて使います。

例:fruitsフォルダはアクセスを拒否、apple.htmlのみアクセスを許可する場合
Disallow: /fruits/
Allow: /fruits/apple.html

パターンマッチングを使う方法

パターンマッチングとは、パターンに合ったものだけを指定する方法です。パターンマッチングを使えば、あるフォルダ内のgif画像だけを指定するといった事が、たったの1行で指定できます。

*(アスタリスク)
1文字以上の文字を意味します。

例:fruitsフォルダ内のaから始まるURLすべてを指定してクロールを拒否
Disallow: /fruits/a*

$(ドルマーク)
末尾の文字をマッチングします。

例:fruitsフォルダ内の.gifで終わるURLすべてを指定してクロールを拒否
Disallow: /fruits/*.gif$

Googlebotは、ページで使用しているJavaScriptやCSSもクロールして、ページの内容を評価していますので、JavaScriptが格納されているフォルダや、CSSをrobots.txtでブロックしないように注意してください。

サイトマップの場所を指定する

robots.txtでは、sitemap.xmlの場所を指定する事もでき、クローラーにそのURLを伝える役目を持っています。

書式:Sitemap:(sitemap.xmlのURL)


Sitemap:http://hogehoge.com/sitemap.xml

sitemap.xmlの作成方法については、サイトマップの作成方法とグーグルに登録(送信)する方法で解説しています。

robots.txtのエラーを確認する

robots.txtテスターのページにアクセスすると、公開済みでGoogleがクロール済みのrobots.txtの内容が画面に表示されています。

この画面の下に、エラー数と警告数が表示され、書式などにエラーがある場合には、この画面ですぐに分かります。

まだrobots.txtを公開していない場合は、テスター画面のエディタにrobots.txtの内容を記述すると、すぐにスペルミスなどのエラーがあるかどうかをチェックしてもらえます。

このエディタに入力したrobots.txtは、「送信」ボタンをクリックして開くウィンドウからダウンロードすることができますので、robots.txtを作成・修正する時に活用すると便利です。

robots.txtの動作を確認する

画面の下には、URLを入力するボックスと、対象となるロボットの種類、「テスト」ボタンがあります。

ここで入力したURLを選択したロボットがクロールした時に、問題なくアクセスできるか(アクセスできないか)を確認することができます。

robots.txtテスターの画面

書式のスペルミスがない場合でも、間違ったフォルダやファイルを指定してしまうと、期待したようにrobots.txtが動作しませんので、必ず確認しておきましょう。

また、Googleのクローラーは大文字と小文字を区別します。
「aaa.html」と「AAA.html」、「bbb.jpg」と「bbb.JPG」は別のURLとして処理されますので注意しましょう。

robotx.txtの更新をGoogleに伝える

robots.txtでアクセスを許可しないフォルダを追加するなど更新をした場合には、robots.txtをアップロード後に画面の「送信」ボタンをクリックして、Googleにrobots.txtが更新されたことを伝えることができます。

robots.txtの更新をGoogleに伝える画面

「アップロードされたバージョンを確認」ボタンをクリックすると、いま公開されているrobots.txtが別ウィンドウで表示されますので、古いバージョンを誤って公開していないかどうか確認しておきましょう。

問題がなければ「Googeに更新をリクエスト」の「送信」ボタンをクリックして、robots.txtの更新をGoogleに伝えましょう。

参考
更新した robots.txt を Google に送信 – Search Console ヘルプ

追記:クロール量を増やすとページ評価が高まるという話について

robots.txtとクロールの話になると、「検索エンジンのクロール量を増やすことで、ページの評価を高めて検索順位を上げる事ができる」という趣旨の話に出くわす事があります。

実際、肌感として検索順位の高いページほどクロールされる頻度は多く、ドメイン自体が評価されているほどクロール量は多い傾向にあります。

しかし、「クロール量が増えたから検索順位が上がった」ではなく「検索順位が高くなった(ユーザーの検索意図にマッチしたコンテンツがある)からクロール量が増えた」という考え方が正しいと思います。

また、似たような話で「更新頻度を高めればクローラーの訪問頻度も増えますよね」という話も聞きますが、意味のない更新をしていてもクローラーの訪問頻度は変わらないはずですし、そんなことをしても何の意味もありません。

クロール量が多い少ないという話は正直どうでもよくて、「そんな事を考えている暇があるなら、少しでもユーザーの検索意図に応えられるコンテンツを用意することに時間をかけましょう」という事が一番重要なわけです。

クローラビリティ(クロールのしやすさ)という意味で、クロール最適化をすることは重要な事ですが、これも重要なページには内部リンクをきちんと用意する、ユーザーが迷子にならないような導線を考えるというような、何も特別な事をする必要はないと思っています。

Webデザイン・プログラムスキルを身につけたい方におすすめしたいスクール

私もWebスキルを身につけるためにスクールに通いましたが、正直言って「趣味の講座レベルのスクール」が多く、実践的なスキルを身につける事ができるスクールは多くありません。

ただ全くの未経験ではWebを仕事にする事が難しいのも事実。そこでWebの実践的なスキルを身につけられるスクールをご紹介します。

スクールの価格は安くありませんので、まずは無料体験レッスンや無料カウンセリングで体験してみて、良さそうだなと思ったら本格的に取り組む方法をおすすめします。

WebCampPro(3ヶ月の超ガッチリ型)

3ヶ月の実践カリキュラムと3ヶ月のキャリアサポートで「転職・就職を保証してくれる」スクール。来校型のスクールですが、平日は毎日13:00以降、講師が常駐しているので質問や疑問もすぐに解消できるのが良いです。それぞれの学習スピードに合わせてカリキュラムが組まれますが、3ヶ月間という短期で一人前のエンジニアになるのが目標なので、かなりきつい部分もあるかと思います。

しかし裏を返せば「本気でキャリア形成をしたい」、「プログラムを仕事にしたい」という方にはピッタリなスクールです。

WebCamp(1か月の集中型)

こちらは1ヶ月の短期集中型。と言っても、最初のカウンセリングを通してカリキュラムは個人ごとのオーダーメイドなので、自分の都合で学べるのが良いです。

このご時世、直接Web制作に携わらない部署の人もWebに関する知識は必要なので、社会人の方の受講も多いです。

CodeCamp(2〜6か月のカスタマイズ型)

現役エンジニア・デザイナーからマンツーマン指導が受けられるスクールです。内容的には他のスクールにひけはとらないにもかかわらず、オンラインのみなので価格が安いのが良いです。

新卒などの社内研修でも利用されているので、社員のスキルギャップに悩んでいる方にも良いかもしれません。

「役にたった」と思ったらシェアお願いします