robots.txtとは何ですか？

robots.txt は、ウェブサーバー上のテキストファイルです。これは、ロボット排除標準プロトコルに基づいて構成されています。このファイルには、検索エンジン用にインデックスを作成するためにページをスキャンするウェブクローラーへの指示が含まれています。

検索エンジン運営者は、robots.txt ファイルの指示に従う義務があるのでしょうか？

いいえ！robots.txtファイルの情報は、ウェブサイト運営者が検索エンジンに推奨する読み取り情報に過ぎません。Google、Bing、Yahooなどの大手検索エンジンは、2008年にrobots.txtの指示に従うことで合意しました。しかし、100%の保証は決してありません。

このファイルは、ウェブサーバーのルートディレクトリ、つまり最上位ディレクトリに配置する必要があります。これにより、URLのトップレベルドメインの後に/robots.txtを追加することで、このファイルに常にアクセスできるようになりますを追加すれば、常にアクセス可能になります。

例：https://taismo.de/robots.txt

構文は非常にわかりやすく構成されており、3つの基本要素で構成されています。

ユーザーエージェント：
- この要素は、以下の指示がどのボットに適用されるかを指定します。
  - 例：googlebot
- この指示をすべてのボットに適用する場合は、* を挿入することができます。
  - 例：ユーザーエージェント：*
許可：
- この要素は、クロールすべきディレクトリまたは特定のページを指定します。
Disallow:
- この要素は、ディレクトリまたは特定のページを指定します。 クロール クロールされるべきではないディレクトリまたは特定のページを指定します。

例：

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

説明：

このコードスニペットには、すべてのクローラー向けの指示が含まれています。これらは、フォルダ wp-admin をクロールしないようにするものです。ただし、PHP ファイル admin-ajax.phpを除く、すべてのクローラーに対する指示が含まれています。

robots.txt ファイルが正しく設定されていないと、ウェブサイトの一部のコンテンツがSERPに表示されなくなる場合があります表示されない場合があります。特定のページが希望どおりにランク付けされない場合は、ファイル内の指示を確認してください。

robots.txt ファイルを使用すると、SEOに関連する追加情報をウェブクローラーに伝達することができます。とりわけ、サイトマップへのパスをを登録することができます。

その方法については、サイトマップの用語集記事をご覧ください。