robots.txtとは何ですか?
robots.txt は、ウェブサーバー上のテキストファイルです。これは、ロボット排除標準プロトコルに基づいて構成されています。このファイルには、検索エンジン用にインデックスを作成するためにページをスキャンするウェブクローラーへの指示が含まれています。
検索エンジン運営者は、robots.txt ファイルの指示に従う義務があるのでしょうか?
いいえ!robots.txtファイルの情報は、ウェブサイト運営者が検索エンジンに推奨する読み取り情報に過ぎません。Google、Bing、Yahooなどの大手検索エンジンは、2008年にrobots.txtの指示に従うことで合意しました。しかし、100%の保証は決してありません。
robots.txtファイルは、ウェブサーバーのどこに保存すればよいですか?
このファイルは、ウェブサーバーのルートディレクトリ、つまり最上位ディレクトリに配置する必要があります。これにより、URLのトップレベルドメインの後に/robots.txtを追加することで、このファイルに常にアクセスできるようになります を追加すれば、常にアクセス可能になります。
例:https://taismo.de/robots.txt
robots.txtファイルはどのように構成されていますか?
構文は非常にわかりやすく構成されており、3つの基本要素で構成されています。
- ユーザーエージェント:
- この要素は、以下の指示がどのボットに適用されるかを指定します。
- 例:googlebot
- この指示をすべてのボットに適用する場合は、* を挿入することができます。
- 例:ユーザーエージェント:*
- この要素は、以下の指示がどのボットに適用されるかを指定します。
- 許可:
- この要素は、クロールすべきディレクトリまたは特定のページを指定します。
- Disallow:
- この要素は、ディレクトリまたは特定のページを指定します。 クロール クロールされるべきではないディレクトリまたは特定のページを指定します。
例:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
説明:
このコードスニペットには、すべてのクローラー向けの指示が含まれています。これらは、フォルダ wp-admin をクロールしないようにするものです。ただし、PHP ファイル admin-ajax.phpを除く、すべてのクローラーに対する指示が含まれています。