実は間違っていた robot.txt の設定
webサイトを運営していると、まとわりついてくるのが robot.txt というファイル。古来から色々と設定はできるのだけど一歩間違えてしまうと検索に引っからない!という自体に陥ることがある。
robot.txt
User-agent: *
Disallow: /private/
Allow: /public/
sitemap: https://example.com/sitemap.xml
基本的には上記のような設定をすることが多いけどもDisallow:
で指定したファイルやディレクトリーは、一切「覗かないでください」という意味になり、強いては検索エンジンにインデックスされないということになる。
例えば、サムネイル画像があって/thumbnails/
サムネイル画像を検索結果に出したくないというのであれば、Disallow: /thumbnails/
と書くのは正しい。
しかし、[ Journal-Category:AI ] にて、
検索結果に出したくないという理由で
User-agent: *
Disallow: /journal-category?name=
と書いてしまった場合は「このURLは一切覗かないでください」という意味になってしまう。
これの何が悪いの?と言われると、この状態は交通で例えると「進入禁止」であり、一方通行の設定ではないということ
クロールロボットに対して、お戻りなさいという意味になってしまう。
<meta name="robots" content="noindex, follow"> のススメ
もしも、検索結果に出したくないのであれば Disallow:
ではなく、
<meta name="robots" content="noindex, follow">
を使うのが良いかもしれません。
この場合は、検索エンジンにたいして「このファイルはインデックスはダメだけども、このファイルにあるリンクは辿っていいのよ」という意味になり、もしもリンクが整備されていればアクセスされる可能性があるということになります。
<meta name="robots" content="all">
もしもWebページ全体をインデックスさせたいならば深いことを考えずに、
<meta name="robots" content="all">
を使うのが一番の最適解です。
<meta name="robots" content="noindex, nofollow">
この設定は、robot.txt の Disallow:
と同じ意味になります。
<meta name="robots" content="noindex, nofollow">
一切「覗かないで中身も辿らないでください」という意味になりますので注意が必要です。例えば、admin とか管理人のページで他の人に見られたくない場合は、こちらの設定を使うのが良いでしょう。
今回修正させていただいた内容
[ Journal-Category:AI ]での検索エンジンにCategoryが出てしまう問題と、[ キャラクター「 ゾフィエ 」のイラスト ] の絞り込み機能での検索エンジンに出てしまう問題を解決するために<meta name="robots" content="noindex, follow">
に変更させていただきました。検索エンジンに「カテゴリーページ」ばっかり表示されてても、本当に大切なページが埋もれてしまうのはもったいないですからね。