クローラによるサイトのインデックス化をブロックする ( robots.txt )

Pocket

サイトの公開準備中などのケースで、google のクローラのインデックス化をブロックしたい場合があります。ここでは、サイト全体やディレクトリ(ページ)単位でブロックする設定方法を掲載しています。クローラのインデックス化をブロックすると、グーグルの検索結果に表示されなくなります。

ただし、保障はありません。クローラが決定権を持っています。また、ブログなどを更新しているのに全然アクセスがない場合などは、インデックスをブロックしていないか確認してみると良いでしょう。ちなみに、WordPress であれば、サイト全体のインデックス化をブロックするのはチェックボタン一発で設定できます。誤ってブロックしているかもしれません。

スポンサーリンク

robots.txt をドキュメントルートに配置

ドキュメントルートへの書き込み権限がある場合は、robots.txt による設定が簡単です。robots.txt の名前でファイルを配置します。ファイル内の設定内容は下記を参照ください。

サイト全体のインデックス化をブロック

サイト全体をインデックスさせない場合の robots.txt の設定内容です。

// robots.txt

User-agent: *
Disallow: /

一部のファイルやディレクトリのインデックスをブロック

本サンプルでは、/test.html ファイルと /disable/ ディレクトリ配下のページのインデックス化をブロックし、/disallow/allow.html はクローラによるインデックス化を許可しています。

// robots.txt

User-agent: *
Disallow: /test.html
Disallow: /disallow/
Allow:    /disallow/allow.html

HTML ヘッダーの meta タグに設定する

ドキュメントルートへのアクセス権限 ( 書き込み権限 ) がない場合は、各ページごとにインデックス化をブロックするように meta タグに設定することもできます。name=”robots” の content に noindex を記述します。

<html>
  <head>
    <meta name="robots" content="noindex,nofollow" />
  <head>
  <body>
    ・・・
  <body>
</html>

インデックス化をブロックしていなくても、検索結果に表示されるとは限りません。念のため

スポンサーリンク


Pocket

Leave a Comment

Your email address will not be published. Required fields are marked *