検索エンジンのロボット対策、見られたくないファイルを隠す

検索エンジンに、見られたくないファイルもある。
それを正しく隠さないと、見られたくないものでも、検索で引っかかってしまうことがある。*.incや*.txtといったファイルは、対策しないと丸見えになる可能性がある。


そのための対処としてすぐ導入できるものとして、2つ:

  1. robots.txtの設置
  2. .htaccessの設置

robots.txtの設置
http://dokodemo.rankuappu.com/syono5.htmlに詳しい。注意点は

  1. robots.txtの置き場所はドメインのトップディレクトリだけ!
  2. 検索エンジンクローラーがウェブサイトへやってきたら一番最初にrobots.txtを探す決まりがあります。
  3. robots.txtは必ずこの名前で、半角小文字でなけらばならず、間違えたらクローラーに無視されます。

全てのクローラーで全てを拒否するrobots.txt

User-agent: *
Disallow: /


.htaccessの設置
.htaccessはいくつもの役割を持たせることができるが、ここで注目するのは以下の2つ:

  1. BASIC認証
  2. ディレクトリ内のファイル一覧を見せないようにする

.htaccessファイルの記述方法に詳しい。
2をしておくことで、index.htmlを置き忘れたときにも、中のファイルやディレクトリを見られることはなくなる。このための書式は

Options -Indexes

そして、そういったファイルへアクセスされたかどうかも監視する必要があるかもしれない。
そういう万一に備えて、アクセスログを取得することも肝要だ。