Blog

ブログ

robots.txtの活用法を知らないとSEO対策は伸びない？今すぐ見直したい基本ポイント

ホームページを運営しているものの、検索エンジンのクロール効率を最適化できていないと感じていませんか。

「重要なページがなかなかインデックスされない」「サーバーの負荷が気になる」といった悩みを抱えているWeb担当者は少なくありません。

robots.txtを正しく設定することで、検索エンジンのクロールを効率化し、SEO効果を最大限に引き出すことができます。

本記事では、robots.txtの基本から具体的な活用法、実装時の注意点まで、実務で活用できる情報を詳しく解説します。

この記事でわかること

❶ 検索エンジンのクロール仕組みと、robots.txtがどんな役割を持っているか
❷ どのページを許可・禁止すべきかなど、サイトタイプ別の具体的な設定パターン
❸ 「robots.txt」と「noindex」をどう使い分ければいいか、やってはいけないNG例とあわせて理解できる
❹ 　Googleサーチコンソールを使った確認方法や、ミスを防ぎながらクロール最適化を進める実務的な手順

robots.txtでSEO効果を高める活用法5つ
- クロール不要なページを適切にブロックする
- クロールバジェットを重要ページに集中させる
- Sitemapを指定してクロール効率を向上させる
- 重複コンテンツのクロールを制限する
- サーバー負荷を軽減し表示速度を改善する
robots.txtの正しい書き方4つの要素
- User-Agent(制御対象クローラーの指定)
- Disallow(クロール禁止範囲の指定)
- Allow(例外的に許可する範囲の指定)
- Sitemap(XMLサイトマップの場所指定)
状況別robots.txt活用シーン4つ
- ECサイトでの活用(検索結果ページ・カート画面の制御)
- メディアサイトでの活用(タグページ・アーカイブの制御)
- 企業サイトでの活用(管理画面・会員ページの制御)
- WordPressサイトでの活用(wp-adminディレクトリの制御)
robots.txtとnoindexの使い分けの3つの基準
- クロール制御が目的ならrobots.txt
- インデックス削除が目的ならnoindex
- 両方の併用が必要なケースと正しい設定順序
robots.txt設定時の注意点
- 全ページブロックの記述ミスに注意する
- 重要ページを誤ってブロックしないよう確認する
- 反映までに1〜2週間かかることを理解する
robots.txtの確認・テスト方法3ステップ
- Googleサーチコンソールのrobots.txtテスターで検証する
- 本番環境での動作確認とステータス監視
- クロール除外理由の確認と問題解決
SEO対策は株式会社アリカにお任せ！
まとめ

この記事の監修者：中嶋翼（CEO）

2020年在学中に起業。大学院で自然言語処理・物体検出の分野を主に専攻し、大学研究機関からの開発依頼の受注を期に法人化。大学院発ベンチャーとして AI関連技術の開発やAIを活用したWEBマーケティングを産官学をはじめ、様々な分野・業種の方に展開。

趣味はポーカーとサウナと、認めたくないけどゴルフ。来年こそポーカーで5ヶ国周りたいと思ってます！

robots.txtでSEO効果を高める活用法5つ

robots.txtは、検索エンジンのクロール動作を制御するための重要なファイルです。適切に活用することで、SEO効果を大きく向上させることができます。

クロール不要なページを適切にブロックする

検索結果に表示する必要のないページをrobots.txtでブロックすることで、クロールの効率化が図れます。

ブロックすべき代表的なページとして、以下のようなものがあります。

お問い合わせフォーム
プライバシーポリシー
ログインページ
サイト内検索結果ページ
管理画面

これらのページは、ユーザーが検索エンジンから直接訪れる必要がないため、クロール対象から除外することで、より重要なページにクロールリソースを集中させることができます。

管理画面やシステムファイルの制御方法として、以下のような記述が効果的です。

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /includes/
Disallow: /tmp/

クロールバジェットを重要ページに集中させる

クロールバジェットとは、検索エンジンが特定のサイトをクロールする際に割り当てられるリソースのことです。

特に大規模サイトでは、全ページを短期間でクロールすることが難しいため、優先度の高いページに集中的にクロールさせることが重要になります。

優先度の低いページをrobots.txtで制限することで、以下のようなメリットが得られます。

新規コンテンツの早期インデックス
更新ページの迅速な再クロール
重要ページの評価向上

実践方法として、商品ページや記事ページなどコンテンツの核となるページはクロール対象とし、フィルター機能やソート機能で生成される大量のURLは制限するという方針が効果的です。

Sitemapを指定してクロール効率を向上させる

robots.txtにXMLサイトマップの場所を記述することで、検索エンジンに対してクロールすべきページを明確に伝えることができます。

User-agent: *
Sitemap: https://example.com/sitemap.xml

複数のサイトマップがある場合は、それぞれを個別に指定できます。

Sitemap: https://example.com/sitemap-posts.xml
Sitemap: https://example.com/sitemap-pages.xml
Sitemap: https://example.com/sitemap-products.xml

サイトマップとrobots.txtを連携させることで、クロールすべきページとブロックすべきページを明確に区別でき、効率的なクロールが実現します。

重複コンテンツのクロールを制限する

同じコンテンツが複数のURLで存在する重複コンテンツは、SEOにおいて問題となる可能性があります。

パラメータ付きURLの制御として、以下のような記述が有効です。

User-agent: *
Disallow: /*?*sort=
Disallow: /*?*filter=
Disallow: /*?*page=

ECサイトやメディアサイトでよく見られる以下のページも制限対象として検討すべきです。

検索結果ページ（/search?q=）
ソート機能ページ（?sort=price）
フィルター機能ページ（?filter=category）
ページネーション（?page=2、?page=3など）

これらのページは、ユーザーにとっては便利な機能ですが、検索エンジンにとっては本質的なコンテンツではないため、クロール対象から除外することが推奨されます。

サーバー負荷を軽減し表示速度を改善する

検索エンジンのクローラーは、サイトに対して頻繁にアクセスを行います。特に大規模サイトでは、クローラーによる過剰なアクセスがサーバー負荷を増大させる可能性があります。

robots.txtで不要なクロールを制限することで、以下の効果が期待できます。

サーバーリソースの節約
ページ表示速度の向上
他のユーザーアクセスへの影響軽減

ページ速度はGoogleのランキング要因の一つであり、間接的にSEO効果にも貢献します。robots.txtによるクロール最適化は、サイト全体のパフォーマンス向上につながる重要な施策と言えるでしょう。

robots.txtのSEO活用法の振り返り

❶ クロール不要なページを適切にブロックすることでクロール効率を向上
❷ クロールバジェットを重要ページに集中させることで早期インデックスを実現
❸ サーバー負荷の軽減により間接的なSEO効果も期待できる

robots.txtの正しい書き方4つの要素

robots.txtを効果的に機能させるには、正しい記述方法を理解することが重要です。主要な4つの要素について詳しく見ていきましょう。

User-Agent(制御対象クローラーの指定)

User-Agentは、どのクローラーに対してルールを適用するかを指定するディレクティブです。

全クローラーを対象とする場合は、アスタリスク(*)を使用します。

User-agent: *
Disallow: /admin/

特定のクローラーのみを対象とする場合は、以下のように個別に指定できます。

User-agent: Googlebot
Disallow: /search/

User-agent: Bingbot
Disallow: /search/

また、特定のクローラーを完全にブロックすることも可能です。

User-agent: BadBot
Disallow: /

Disallow(クロール禁止範囲の指定)

Disallowは、クローラーにアクセスさせたくないURLやディレクトリを指定するディレクティブです。

ディレクトリ全体をブロックする場合は以下のように記述します。

Disallow: /admin/

特定のファイルをブロックする場合は、ファイル名まで含めて指定します。

Disallow: /private/secret.html

ワイルドカード(*)を使用することで、柔軟な制御が可能です。

Disallow: /*.pdf$
Disallow: /*?sessionid=
Disallow: /*/print/

正規表現を活用することで、複雑な条件にも対応できるため、サイトの構造に応じて適切な記述方法を選択しましょう。

Allow(例外的に許可する範囲の指定)

Allowは、Disallowで制限した範囲の中で、例外的に許可するURLを指定するディレクティブです。

DisallowとAllowを組み合わせることで、細かい制御が可能になります。

User-agent: *
Disallow: /admin/
Allow: /admin/public/

この記述により、/admin/配下は基本的にブロックされますが、/admin/public/のみはクロールが許可されます。

使用頻度は低いものの、以下のようなケースで有効です。

一般ユーザー向けに公開しているヘルプページが管理画面ディレクトリ内にある場合
一部のパラメータ付きURLのみクロールさせたい場合
特定のサブディレクトリだけを例外的にクロールさせたい場合

Sitemap(XMLサイトマップの場所指定)

Sitemapディレクティブは、XMLサイトマップの場所を検索エンジンに伝えるために使用します。

記述方法は非常にシンプルで、サイトマップの完全なURLを指定するだけです。

Sitemap: https://example.com/sitemap.xml

複数のサイトマップがある場合は、それぞれを個別の行に記述します。

Sitemap: https://example.com/sitemap-posts.xml
Sitemap: https://example.com/sitemap-pages.xml
Sitemap: https://example.com/sitemap-categories.xml

配置場所としては、robots.txtの末尾に記述するのが一般的です。User-AgentやDisallowの記述とは独立しているため、ファイル内のどこに配置しても機能しますが、可読性の観点から最後に記述することが推奨されます。

状況別robots.txt活用シーン4つ

robots.txtの活用方法は、サイトの種類や目的によって異なります。代表的な4つのシーンについて、具体的な設定例とともに解説します。

ECサイトでの活用(検索結果ページ・カート画面の制御)

ECサイトでは、商品ページ以外に多くの機能ページが存在します。これらを適切に制御することが重要です。

サイト内検索結果ページは、ユーザーごとに異なる結果を表示するため、クロール対象から除外すべきです。

User-agent: *
Disallow: /search?
Disallow: /*?q=
Disallow: /results/

ショッピングカートや決済ページも同様に制限します。

Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /order-confirmation/

これらのページは個人情報を扱うため、セキュリティの観点からもクロール対象外とすることが推奨されます。

メディアサイトでの活用(タグページ・アーカイブの制御)

メディアサイトやブログでは、コンテンツを分類するための様々なページが自動生成されます。

タグページやカテゴリページの判断基準として、以下のポイントを考慮しましょう。

メインカテゴリページは重要なナビゲーションとしてクロール許可
細分化されたタグページは重複コンテンツの原因となるため制限
ユーザーにとって価値が低いページは積極的に除外

User-agent: *
Disallow: /tag/
Disallow: /author/
Disallow: /*/page/
Disallow: /date/

アーカイブページや日付別ページも、記事本体と同じコンテンツを含むため、重複コンテンツ対策として制限を検討すべきです。

企業サイトでの活用(管理画面・会員ページの制御)

企業サイトでは、社内用ページや開発環境へのアクセスを厳密に管理する必要があります。

User-agent: *
Disallow: /admin/
Disallow: /dashboard/
Disallow: /dev/
Disallow: /staging/
Disallow: /test/

会員限定コンテンツの扱いについては、以下のような方針が考えられます。

会員登録前に閲覧できる紹介ページはクロール許可
ログイン後のマイページや個人情報ページは完全にブロック
会員向けコンテンツは構造化データで制御を併用

セキュリティの観点からも、社内システムへのアクセスは確実にブロックすることが重要です。

WordPressサイトでの活用(wp-adminディレクトリの制御)

WordPressサイトには、デフォルトで管理画面やシステムファイルが含まれています。

WordPressのデフォルト設定として、以下のディレクトリをブロックすることが推奨されます。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/

プラグインの活用方法として、SEO系プラグイン（Yoast SEO、All in One SEOなど）を使用すると、robots.txtの管理が簡単になります。

カスタマイズのポイントは以下の通りです。

テーマファイルは基本的にブロック
画像ファイル(/wp-content/uploads/)は許可
プラグインディレクトリは状況に応じて判断

robots.txtとnoindexの使い分けの3つの基準

robots.txtとnoindexは、どちらも検索エンジンの動作を制御するための仕組みですが、その機能と目的は大きく異なります。適切に使い分けることが重要です。

クロール制御が目的ならrobots.txt

robots.txtは、検索エンジンのクローラーがサイトにアクセスすること自体を制限する仕組みです。

クロールバジェット節約が目的の場合、大規模サイトでは限られたクロールリソースを効率的に使うため、優先度の低いページをrobots.txtでブロックします。

サーバー負荷軽減が目的の場合も、robots.txtが適切です。クローラーのアクセス自体を防ぐことで、サーバーへの負担を直接的に軽減できます。

robots.txtでブロックされたページは、クローラーがアクセスできないため内容を確認できず、結果的にインデックスされないことになります。

インデックス削除が目的ならnoindex

noindexは、クローラーのアクセスは許可しつつ、検索結果に表示させないための仕組みです。

検索結果に表示させたくない場合として、以下のようなケースがあります。

サンクスページ
エラーページ
テスト用ページ
重複コンテンツ

確実にインデックスを防ぎたい場合は、noindexの使用が推奨されます。noindexは、クローラーがページ内容を確認したうえでインデックスしないと判断するため、より確実な制御が可能です。

robots.txtでブロックした場合、そのページへの外部リンクがあると、クローラーがページ内容を確認できないまま、タイトルなしでインデックスされてしまう可能性があります。

両方の併用が必要なケースと正しい設定順序

状況によっては、robots.txtとnoindexの両方を使用することが効果的な場合もあります。

併用時の注意点として、最も重要なのは設定の順序です。

正しい設定手順は以下の通りです。

まずページにnoindexタグを設置
クローラーがnoindexを認識するまで待つ(1〜2週間)
インデックスから削除されたことを確認
必要に応じてrobots.txtでクロールをブロック

誤った併用がもたらすリスクとして、先にrobots.txtでブロックしてしまうと、クローラーがページにアクセスできずnoindexタグを読み取れないため、既存のインデックスが削除されないという問題が発生します。

すでにインデックスされているページをrobots.txtでブロックすると、そのページのインデックス情報は中途半端に残り続ける可能性があるため注意が必要です。

robots.txt設定時の注意点

robots.txtの設定ミスは、サイト全体のSEOに深刻な影響を与える可能性があります。特に注意すべき3つのポイントを理解しておきましょう。

全ページブロックの記述ミスに注意する

最も重大なミスの一つが、意図せずサイト全体をブロックしてしまうことです。

「Disallow: /」の危険性として、以下の記述はサイト全体へのクロールを禁止します。

User-agent: *
Disallow: /

この記述が残っていると、検索エンジンはサイトの全ページをクロールできず、既存のインデックスも徐々に削除されてしまいます。

開発環境と本番環境の混同リスクとして、開発段階では全ページをブロックしておき、公開時に設定を変更するケースがあります。しかし、この変更を忘れると、公開したサイトが検索エンジンに全く表示されないという事態になります。

実際の事例として、新規サイト公開後に検索流入が全くないという相談を受け、調査したところrobots.txtで全ページがブロックされていたというケースは少なくありません。

重要ページを誤ってブロックしないよう確認する

商品ページや記事ページなど、検索エンジンに表示させたい重要なコンテンツを誤ってブロックしてしまうミスも頻繁に発生します。

テスト環境での事前確認の重要性として、robots.txtの変更前に、以下の手順で確認することが推奨されます。

Googleサーチコンソールのrobots.txtテスターで検証
主要ページのURLを実際にテスト
ブロックされるページとされないページを明確に把握

特にワイルドカード(*)を使用した記述は、予想以上に広範囲に影響する可能性があるため、慎重な確認が必要です。

反映までに1〜2週間かかることを理解する

robots.txtの変更は即座に反映されるわけではありません。

Googleのキャッシュクリア時間として、検索エンジンは定期的にrobots.txtをチェックしますが、その頻度はサイトによって異なります。一般的には、変更が完全に反映されるまで1〜2週間程度かかると考えるべきです。

設定変更後の効果確認タイミングとして、以下のスケジュールを目安にしましょう。

24時間後：Googleサーチコンソールでクロール状況を確認
1週間後：インデックス数の変化を確認
2週間後：検索流入への影響を分析

緊急時の対処法として、すぐにインデックスを削除したい場合は、Googleサーチコンソールの「URL削除ツール」を活用することで、より迅速な対応が可能です。

robots.txtの確認・テスト方法3ステップ

robots.txtを設定した後は、正しく機能しているか確認することが重要です。効果的な検証手順を3つのステップで解説します。

Googleサーチコンソールのrobots.txtテスターで検証する

Googleサーチコンソールには、robots.txtの動作を確認できる専用のテスターツールが用意されています。

テスターツールの使い方は以下の通りです。

Googleサーチコンソールにログイン
左メニューから「設定」→「robots.txtテスター」を選択
テストしたいURLを入力
「テスト」ボタンをクリック
結果を確認(「許可」または「ブロック済み」)

テストすべき項目リストとして、以下のURLを必ず確認しましょう。

トップページ
主要な商品ページ・記事ページ
カテゴリページ
意図的にブロックしたページ(管理画面など)
検索結果ページやフィルターページ

ブロック済み表示の確認方法として、テスト結果に「ブロック済み」と表示された場合、そのURLはクロールされません。意図したブロックであれば問題ありませんが、重要ページが誤ってブロックされていないか慎重に確認しましょう。

本番環境での動作確認とステータス監視

テスターでの確認だけでなく、実際の本番環境での動作も継続的に監視する必要があります。

「取得済み」ステータスの確認として、Googleサーチコンソールの「カバレッジ」レポートで、主要ページが正常にクロールされているか確認します。

エラー表示の種類と意味は以下の通りです。

「robots.txtによりブロックされました」: 意図した制限なら問題なし
「クロール済み - インデックス未登録」: robots.txt以外の要因でインデックスされていない
「検出 - インデックス未登録」: クロールされていない状態

定期的なモニタリングの重要性として、月に1回程度は以下の項目を確認することが推奨されます。

インデックス数の変化
クロールエラーの有無
robots.txtによるブロック状況
新規ページの認識状況

クロール除外理由の確認と問題解決

サーチコンソールの「ページ」レポートを活用することで、より詳細なクロール状況を把握できます。

「ページ」レポートの活用方法は以下の通りです。

Googleサーチコンソールで「ページ」を選択
「除外」セクションを確認
「robots.txtによりブロックされました」をクリック
ブロックされているURLのリストを確認

意図しないブロックの発見と修正として、このリストの中に、本来クロールされるべき重要なページが含まれていないか確認します。

もし誤ってブロックされているページを発見した場合、以下の手順で修正しましょう。

robots.txtの該当する記述を修正
変更内容をサーバーにアップロード
サーチコンソールで再度テスト
「インデックス登録をリクエスト」を実行
1〜2週間後に再度確認

SEO対策は株式会社アリカにお任せ！

「得意分野」をもっと輝かせる。

丁寧に伴走する
総合Webマーケティングパートナー

アリカの強み

神戸市の株式会社アリカでは、Web制作・SNS運用・AIマーケティングを中心に、お客様の強みを最大限に引き出すサポートを行っています。会話を重ねながら、社内から社外へ。たくさんの「ありたい」を叶えるパートナーとして伴走いたします。

丁寧なコミュニケーションで貴社の強みを把握
データ分析に基づいた無駄のないマーケティング戦略
初めての方にも安心の伴走型サポート体制

ビジネスの「攻め」と「成長」を、私たちが共に支えます。

お問い合わせはこちら → サービス概要を見る

※お悩みベースの無料相談も受け付けています。

まとめ

robots.txtは、検索エンジンのクロール動作を制御し、SEO効果を最大化するための重要なファイルです。正しく活用することで、サイトの検索パフォーマンスを大きく向上させることができます。

本記事で解説した内容を振り返りましょう。

robots.txtでSEO効果を高める5つの活用法として、以下が挙げられます。

クロール不要なページを適切にブロック
クロールバジェットを重要ページに集中
Sitemapを指定してクロール効率を向上
重複コンテンツのクロールを制限
サーバー負荷を軽減し表示速度を改善

robots.txtとnoindexの使い分けでは、クロール制御が目的ならrobots.txt、インデックス削除が目的ならnoindexを使用するという基本原則を押さえることが重要です。

確認・テスト方法として、Googleサーチコンソールのrobots.txtテスターを活用し、定期的に動作状況を監視することが推奨されます。

robots.txtの適切な設定は、一度行えば終わりではなく、サイトの成長や構造変更に応じて継続的に見直すべきものです。定期的にクロール状況を確認し、必要に応じて設定を最適化することで、長期的なSEO効果を維持できるでしょう。

今日からでも、自社サイトのrobots.txtを見直し、検索エンジンのクロール最適化に取り組んでみてください。

← 前へ

記事一覧へ

Blog