Preloader Icon

Robots.txt چیست؟ آموزش ساخت و بررسی robots.txt برای سئو

robot-txt
0 دیدگاه
04 اسفند 1404

وقتی یک سایت آنلاین میشود، اولین چیزی که موتورهای جستجو انجام میدهند این است که آن را بررسی کنند، دقیق تر بگوییم: صفحه به صفحه میگردند تا بفهمند چه محتوایی وجود دارد و کدام بخش ها باید در نتایج جستجو نمایش داده شود. اما نکته اینجاست که ربات ها بدون راهنمایی، فرق بین صفحات مهم و بخش های غیرضروری را نمیدانند و ممکن است وقت و منابع سایت را صرف صفحاتی کنند که هیچ ارزشی ندارند.

فایل robots.txt یک فایل متنی کوچک اما بسیار مهم است که در ریشه دامنه قرار میگیرد و به ربات ها میگوید: «کجا بروید، کجا نروید، و از کدام بخش های سایت شروع کنید.»

این فایل نه امنیت ایجاد میکند و نه میتواند ربات های مخرب را متوقف کند، اما میتواند رفتار ربات های معتبر مثل ربات های گوگل (Googlebot) را هدایت کند تا منابع سرور بهتر مصرف شوند و صفحه های مهم شما سریع تر دیده شوند.

در این مقاله، گام به گام یاد میگیری که robots.txt دقیقا چیست، چطور کار میکند، چه دستورهایی دارد، چگونه باید آن را تنظیم کنی و از چه اشتباهاتی باید دوری کنی. حتی اگر مبتدی باشی یا سال هاست سئو کار میکنی، این راهنما به تو کمک میکند فایل robots.txt سایتت را درست، اصولی و حرفه ای بسازی. در انتهای مقاله برای شما یک نکته طلایی آوردم که تجربه شخصی خودم را از این فایل در اختیار شما گذاشته ام.

Robots.txt چیست؟

فایل robots.txt یک فایل متنی ساده است که در ریشه ی اصلی دامنه قرار میگیرد و اولین نقطه ای است که ربات های معتبر موتور های جست و جو هنگام ورود به سایت آن را بررسی میکنند. این فایل به ربات ها اعلام میکند که کدام مسیر های سایت اجازه ی خزش دارند و کدام مسیرها باید نادیده گرفته شوند. به زبان ساده فایل ربات مثل یک دفترچه راهنما برای ربات های گوکل است.

Robots.txt چه چیزهایی نیست؟

برای جلوگیری از سو برداشت، باید بدانیم این فایل چه کارهایی نمیتواند انجام دهد:

  • robots.txt جلوی ایندکس شدن را تضمین نمیکند.
  • ربات های مخرب معمولا آن را نادیده میگیرند.
  • نقش امنیتی ندارد و برای مخفی کردن اطلاعات حساس مناسب نیست.
  • بنابراین، robots.txt یک ابزار کنترلی است نه حفاظتی.
  • فقط یک فایل، اما برای کل دامنه

هر دامنه فقط یک فایل robots.txt دارد و باید در مسیر زیر باشد:
https://نام برندت.com/robots.txt

اگر صفحه ای، پوشه ای یا مسیر خاصی را نمیخواهی ربات ها بخزند، فقط در همین فایل باید مشخص شود.

این فایل همچنان برای هر ساب دامین هم جداگانه لازم است، مثل:

  • blog.نام برندت.com/robots.txt
  • shop.نام برندت.com/robots.txt

در ادامه یاد میگیری robots.txt چطور کار میکند و ربات ها چگونه تصمیم میگیرند صفحات را بخزند یا نادیده بگیرند.

robots.txt چگونه کار میکند؟

وقتی یک ربات معتبر مثل Googlebot وارد سایت میشود، اولین ماموریتش این است که بفهمد از کجا شروع کند و به کدام بخش ها اجازه ی ورود دارد. برای همین، قبل از اینکه حتی یک لینک را دنبال کند، مستقیم سراغ فایل زیر میرود: /robots.txt در این فایل، مجموعه ای از دستورها نوشته شده که مسیر های مجاز و غیرمجاز را مشخص میکنند. ربات این فایل را خط به خط میخواند، دستورها را تفسیر میکند و بر اساس آن برنامه ی خزش خود را تنظیم میکند.

خزش سایت بدون robots.txt چگونه است؟

اگر فایل robots.txt وجود نداشته باشد:

  • ربات ها آزادانه تمام لینک های داخلی را دنبال میکنند
  • هیچ اولویتی برای مسیرها وجود ندارد
  • صفحات بی ارزش یا صفحات تکراری هم خزش میشوند
  • Crawl Budget روی بخش های مهم متمرکز نمیشود

به همین دلیل، نبود robots.txt لزوما فاجعه نیست، اما در سایت های بزرگ یا فروشگاهی میتواند مشکل ساز شود.

خزش سایت با وجود robots.txt چگونه تغییر میکند؟

وقتی robots.txt باشد، ربات پس از خواندن فایل:

  • مسیرهای مجاز را در برنامه ی خزش قرار میدهد
  • مسیرهای غیرمجاز را حذف میکند
  • رفتار خود را با دقت بیشتری برای سایت تنظیم میکند

ربات های خوب و ربات های بد

  • ربات های خوب (Googlebot، Bingbot و…)
  • طبق فایل robots.txt رفتار میکنند
  • به دستورها احترام میگذارند
  • دقیق ترین دستور را اجرا میکنند

ربات های بد (Scraper ها و Crawler های مخرب)

  • معمولا فایل را نادیده میگیرند
  • از محدودیت ها عبور میکنند
  • برای امنیت نباید به robots.txt اتکا کرد
  • این نکته مهم باعث میشود robots.txt فقط ابزار مدیریت باشد، نه ابزار امنیت.

مهم ترین اصل: ربات ها دقیق ترین دستور را اجرا میکنند

اگر در فایل برای یک مسیر قوانین مختلف نوشته باشی، ربات همیشه خاص ترین و دقیق ترین قانون را انتخاب میکند. مثال:

Disallow: /images/
Allow: /images/logo.jpg

Googlebot کل پوشه ی تصاویر را نمیخزد، اما logo.jpg را میخزد چون دستور دقیق تر است. robots.txt برای هر Subdomain جداست

اگر سایتت چند بخش دارد، مثل:

  • blog.نام برندت.com
  • shop.نام برندت.com
  • app.نام برندت.com

هرکدام باید robots.txt مستقل داشته باشند، چون از نظر موتورهای جستجو، هر Subdomain یک سایت جدا محسوب میشود.

robots.txt چه چیزی را کنترل نمیکند؟

  • ایندکس شدن قطعی صفحات
  • نحوه ی نمایش صفحات در نتایج
  • رفتار ربات های غیر معتبر
  • امنیت فایل ها و دایرکتوری ها
  • وظیفه ی آن فقط راهنمایی در خزش است.

چرا robots.txt برای سئو مهم است؟

robots.txt نه محتوای سایت را بهتر میکند و نه به طور مستقیم باعث افزایش رتبه میشود، اما نقشی دارد که اگر درست مدیریت نشود، میتواند کل فرایند سئو را دچار اختلال کند. این فایل کوچک درواقع به موتورهای جست و جو کمک میکند که انرژی خود را روی درست ترین بخش ها از سایت تو متمرکز کنند و وقتشان را صرف مسیر هایی نکنند که هیچ ارزشی برای کاربر و گوگل ندارند.

در ادامه مهم ترین دلایلی که robots.txt را به یکی از ابزارهای حیاتی سئو تبدیل میکند مرور میکنیم.

1) مدیریت بودجه ی خزش (Crawl Budget)

ربات های گوگل برای هر سایت بودجه ی خزشی مشخصی دارند، یعنی تعداد محدودی درخواست ارسال میکنند و تعداد محدودی صفحه را بررسی میکنند، اگر این بودجه صرف بخش های بی ارزش یا تکراری شود، صفحات مهم دیرتر یا کمتر خزیده میشوند. با robots.txt میتوانی:

  • مسیرهای غیرضروری را ببندی
  • دسترسی به صفحات کم اهمیت را محدود کنی
  • خزش را متمرکز روی صفحات حیاتی نگه داری
  • این کار باعث میشود سرعت ایندکس و بروزرسانی صفحات مهم سایت بالا برود.

2) جلوگیری از خزش صفحات بی هدف یا بی ارزش

برخی مسیرهای سایت برای کاربر مفید هستند اما برای گوگل اهمیتی ندارند، مثل:

  • صفحه های ورود / مدیریت
  • مسیر های پردازشی (cart/ ، checkout/)
  • فیلترهای URL
  • فایل های سیستمی یا موقت

اگر این مسیرها خزیده شوند:

  • بودجه خزش هدر میرود
  • محتوای بی هدف وارد Crawl queue میشود
  • حرکت ربات ها در بخش های مهم کند میشود

robots.txt به سادگی میتواند این بخش ها را کنار بگذارد.

3) جلوگیری از بار اضافی روی سرور

سایت هایی با هاست اشتراکی یا منابع محدود، در برابر خزش بی برنامه ی ربات ها آسیب پذیرند. اگر مسیرهای بی ارزش زیاد باشد، حجم درخواست ها میتواند:

  • سرعت سایت را پایین بیاورد
  • منابع CPU و RAM را مصرف کند
  • باعث کندی یا حتی اختلال موقت در سایت شود
  • مسدود سازی مسیرهای غیرضروری در robots.txt به طور مستقیم مصرف منابع سرور را کاهش میدهد.

4) نظم دهی به ساختار سایت

robots.txt به موتور های جست و جو کمک میکند ساختار کلی سایت را بهتر درک کنند. وقتی ربات بداند:

  • کدام بخش ها محتوا دارند
  • کدام بخش ها کاربرد داخلی دارند
  • چه مسیر هایی باید اولویت داشته باشند
  • خزش سایت منطقی تر و قابل پیش بینی تر خواهد بود.

5) کمک غیر مستقیم به سرعت ایندکس

وقتی مسیرهای اضافی بسته شوند و بودجه ی خزش بهتر استفاده شود:

  • صفحات مهم سریع تر کشف میشوند
  • بروزرسانی ها زودتر شناسایی میشوند
  • نرخ ایندکس کلی سایت افزایش پیدا میکند
  • این ها همه به طور غیر مستقیم بر رتبه تاثیر میگذارند.

پروتکل های فایل robots.txt

فایل robots.txt فقط چند خط متن ساده نیست، پشت این فایل، دو پروتکل رسمی وجود دارد که رفتار ربات ها را تعریف میکنند. شناخت این پروتکل ها کمک میکند دقیق تر بفهمیم چرا برخی دستورها توسط ربات ها اجرا میشود و برخی دیگر نادیده گرفته میشود. robots.txt بر اساس دو پروتکل اصلی کار میکند:

1) پروتکل Robots Exclusion Protocol (یا REP): این پروتکل، ستون اصلی فایل robots.txt است. REP به ربات ها میگوید:

  • کدام مسیرها نباید خزیده شوند؟
  • کدام بخش ها محدودیت دارند؟
  • کدام ربات ها هدف این محدودیت ها هستند؟

دستورهای زیر بخشی از همین پروتکل اند:

  • User-agent
  • Disallow
  • Allow
  • Crawl-delay (در برخی موتورهای جستجو)

REP درواقع همان چیزی است که به ربات ها میگوید «کجا نرو، کجا برو» و رفتار اصلی robots.txt را شکل میدهد.

2) پروتکل Sitemaps (Sitemap Inclusion Protocol): برخلاف REP که مربوط به محدودیت ها است، این پروتکل مربوط به درج مسیرهای قابل خزش است. در این پروتکل تو مسیر نقشه ی سایت (XML) را در robots.txt قرار میدهی تا ربات ها بدانند:

  • کدام صفحات واقعا مهم اند
  • ساختار اصلی سایت چگونه است
  • چه مسیرهایی باید حتما دیده شوند

نمونه دستور در robots.txt:
Sitemap: https://نام برندت.com/sitemap.xml
این پروتکل باعث افزایش سرعت کشف صفحات جدید میشود، مخصوصا در سایت هایی با:

  • صفحات زیاد
  • دسته بندی های پیچیده
  • ساختار پویا یا فروشگاهی

3) تفاوت نقش دو پروتکل: برای اینکه تفاوت دقیق تر روشن شود:

پروتکل نقش مثال های مرتبط

  • Robots Exclusion Protocol جلوگیری از خزش مسیرها Disallow، Allow، User-agent
  • Sitemap Protocol معرفی مسیر های مهم Sitemap: https://..

به همین دلیل، robots.txt هم “فیلتر” است و هم “راهنما”. هم محدود میکند، هم مسیر درست را نشان میدهد.

ساختار دستورات در robots.txt

فایل robots.txt از چند دستور اصلی تشکیل شده است، دستوراتی که به ربات ها میگویند «چه کسی هستی؟»، «کجا برو؟» و «کجا نرو؟». این دستور ها بسیار ساده اند، اما اگر اشتباه استفاده شوند میتوانند باعث شوند صفحات مهم سایت هرگز خزیده نشوند.
تمام دستورهای robots.txt خط به خط خوانده میشوند و هیچ کدام نیاز به تگ HTML یا علامت گذاری خاص ندارند. در ادامه دستور های اصلی را کامل توضیح میدهیم.

1) دستور User-agent: این دستور مشخص میکند قانون نوشته شده برای کدام ربات است. هر ربات موتور جستجو یک نام دارد، مثل:

  1. Googlebot (ربات اصلی گوگل)
  2. Googlebot-Image (خزش تصاویر)
  3. Bingbot
  4. Baiduspider
  5. YandexBot

و وقتی میخواهی برای یک ربات خاص قانون بنویسی: User-agent: Googlebot
اما اگر میخواهی قانون برای همه ی ربات ها اعمال شود: User-agent: *
علامت * به معنی “همه ی ربات ها” است.

نکته: اگر چندین گروه دستور داشته باشی، هر «User-agent» فقط به دستور های خودش توجه میکند.

2) دستور Disallow: این دستور مشخص میکند کدام مسیرها نباید خزیده شوند. مثال: جلوگیری از خزش یک بخش: Disallow: /admin/

مثال: جلوگیری از خزش یک صفحه خاص: Disallow: /private/file.pdf
مثال: جلوگیری از خزش تمام سایت: Disallow: /

توجه:
Disallow = جلوگیری از خزش
نه جلوگیری از ایندکس
(این اشتباه رایج است و بعدا در بخش اشتباهات توضیح میدهیم.)

3) دستور Allow: این دستور دقیقا برعکس Disallow نیست، بلکه برای مشخص کردن استثنا استفاده میشود. مثال:

  • Disallow: /images/
  • Allow: /images/logo.png

در این حالت ربات ها اجازه ورود به پوشه /images را ندارند، اما اجازه دارند فایل logo.png را بخزند. این دستور در سایت هایی با پوشه های بزرگ یا مسیرهای ترکیبی بسیار کاربردی است.

4) دستور Sitemap: با استفاده از این دستور، مسیر نقشه ی سایت را معرفی میکنی: Sitemap: https://نام برندت.com/sitemap.xml
این دستور باعث میشود ربات ها سریع تر به صفحات اصلی سایت دسترسی پیدا کنند.

نکته:
میتوانی چند sitemap را پشت هم معرفی کنی.

5) دستور Crawl-delay: این دستور به ربات ها میگوید بین هر درخواست، چند ثانیه صبر کنند. مثال:

Crawl-delay: 5 یعنی ربات باید بین هر درخواست ۵ ثانیه مکث کند.

نکته مهم

  • گوگل از این دستور پشتیبانی نمیکند.
  • ولی موتورهایی مثل Yandex و Bing معمولا رعایت میکنند.
  • برای مدیریت Crawl Rate در گوگل باید از Search Console استفاده کنی، نه از robots.txt.

انواع مسدود سازی در robots.txt

robots.txt زمانی واقعا مفید میشود که بتوانی از آن برای مدیریت دقیق مسیر های مختلف استفاده کنی. منظور از “مسدود سازی” این است که به ربات ها بگویی کدام مسیر ها را نباید بخزند. این مسدود سازی میتواند سطح های مختلف داشته باشد: یک فایل، یک پوشه، یا حتی کل سایت. در ادامه کاربردی ترین حالت ها را با مثال های واضح توضیح میدهیم.

1) مسدود کردن یک صفحه مشخص: اگر فقط یک صفحه ی خاص وجود دارد که نمیخواهی ربات ها آن را بخزند، کافی است مسیر همان صفحه را بنویسی.

  • User-agent: *
  • Disallow: /old-price-list.pdf

مناسب برای فایل ها، صفحات موقتی یا صفحاتی که ارزشی برای خزش ندارند.

2) مسدود کردن یک پوشه یا بخش کامل سایت: اگر میخواهی تمام فایل های داخل یک دایرکتوری بررسی نشوند، پوشه را مسدود میکنی:

  • User-agent: *
  • Disallow: /backup/

هرچه داخل /backup/ باشد (فایل، پوشه ی داخلی، فایل های موقتی)، خزیده نمیشود. مفید برای مسیر های سیستمی مثل:

  • /admin/
  • /tmp/
  • /cache/
  • /private/

3) مسدود کردن تمام سایت (خطرناک): گاهی برای سایت در حال توسعه، لازم است موقتا کل ربات ها را بیرون نگه داری.

  • User-agent: *
  • Disallow: /

نکته مهم: اگر این خط در سایت فعال قرار بگیرد، ربات ها هیچ صفحه ای را نمیخزند و سایت از نتایج حذف میشود. این رایج ترین اشتباه فنی مدیران سایت است.

4) اجازه دادن به یک مسیر در میان مسیرهای مسدود (Allow داخل Disallow): یکی از کاربردی ترین امکانات robots.txt همین است که استثنا تعریف کنی.

مثال: میخواهی کل پوشه ی تصاویر خزیده نشود، ولی لوگوی اصلی سایت باید قابل دسترسی باشد.

  • User-agent: *
  • Disallow: /images/
  • Allow: /images/logo.png

ربات ها:کل /images/ را نمیخزند، اما logo.png بدون مشکل خزیده میشود.

این روش زمانی مفید است که پوشه ها بزرگ هستند اما فایل هایی داخل آن اهمیت دارند.

5) مسدود سازی با استفاده از الگوها (Pattern Blocking): گاهی لازم است مسیرهایی را ببندی که الگوی تکراری دارند.

مثال: جلوگیری از خزش URLهایی که پارامتر sort دارند:

  • User-agent: *
  • Disallow: /*?sort=

یا جلوگیری از خزش URL های فیلتر: Disallow: /*?filter=

این روش بسیار مهم است برای سایت های فروشگاهی که URL های تکراری تولید میکنند.

6) مسدود کردن فایل های خاص با پسوند مشخص: اگر نمیخواهی فایل های خاص (مثلا فایل های سنگین) خزیده شوند:

  • Disallow: /*.zip$
  • Disallow: /*.mp4$
  • Disallow: /*.exe$

علامت $ یعنی پایان URL؛ پس فقط فایل های با همین پسوند مسدود میشوند.

7) باز گذاشتن کامل سایت: اگر میخواهی همه چیز برای تمام ربات ها باز باشد:

  • User-agent: *
  • Disallow:

این دستور یعنی ”هیچ مسیری مسدود نیست”.

8) ربات ها کدام دستور را اجرا میکنند؟ اگر برای یک مسیر چند قانون نوشته شده باشد، ربات ها دقیق ترین دستور را انتخاب میکنند. مثال:

  • Disallow: /products/
  • Allow: /products/tv/

ربات: /products/ را نمیخزد
اما مسیر /products/tv/ را میخزد چون دقیق تر است

Sitemap چیست و چرا باید در robots.txt معرفی شود؟

Sitemap فایلی است که آدرس همه ی صفحات مهم سایت را به صورت ساخت یافته فهرست میکند. اضافه کردن sitemap به robots.txt باعث میشود:

  • ربات ها صفحات جدید را سریع تر پیدا کنند
  • ساختار دسته بندی ها بهتر درک شود
  • صفحات مهم زودتر ایندکس شوند
  • خزش سایت کمتر تصادفی و بیشتر هدفمند شود

به خصوص در سایت هایی با تعداد زیادی صفحه یا ساختار پیچیده (فروشگاهی، آموزشی، مجله ای)، معرفی sitemap در robots.txt یک اقدام ضروری است.

نحوه ی اضافه کردن Sitemap به robots.txt

فرمت نوشتن sitemap در robots.txt بسیار ساده است: Sitemap: https://نام برندت.com/sitemap.xml
این خط معمولا در انتهای فایل قرار میگیرد.

پشتیبانی همه ی موتور های جست و جو

مزیت مهم: تمام موتورهای جستجو (گوگل، بینگ، یاندکس و …)، تمام ربات های استاندارد و حتی بیشتر ربات های AI Crawlers جدید؛ همگی دستور Sitemap را از داخل robots.txt میشناسند. به همین دلیل معرفی sitemap در robots.txt یکی از رایج ترین و کارآمد ترین روش ها برای کمک به ربات هاست.

معرفی چند Sitemap سورس

اگر سایتت چند نسخه sitemap دارد، مثل:

  • sitemap اصلی
  • sitemap محصولات
  • sitemap بلاگ
  • sitemap ایندکس (فهرست سایر sitemapها)

میتوانی همه را پشت هم معرفی کنی:

  • Sitemap: https://نام برندت.com/sitemap.xml
  • Sitemap: https://نام برندت.com/sitemap-products.xml
  • Sitemap: https://نام برندت.com/sitemap-blog.xml

گوگل تمام آن ها را پردازش میکند.

جایگاه مناسب برای قرار دادن Sitemap در robots.txt

بهترین روش:
در انتهای فایل
بعد از تمام User-agent و Disallow/Allow
بدون اضافه کردن دستور غیر ضروری دیگر
این کار خوانایی فایل را بالا میبرد و ربات ها راحت تر آن را پیدا میکنند.

نکته مهم درباره سیستم های چند سایتی و ساب دامین ها

اگر سایت چند ساب دامین دارد، هر ساب دامین باید فایل robots.txt و sitemap مخصوص خود را داشته باشد.
مثال:
https://blog.نام برندت.com/robots.txt
Sitemap: https://blog.نام برندت.com/sitemap.xml
و برای بخش فروشگاه:
https://shop.نام برندت.com/robots.txt
Sitemap: https://shop.نام برندت.com/sitemap.xml
این موضوع برای سایت های بزرگ بسیار حیاتی است.

robots.txt و مدیریت ربات ها

robots.txt فقط برای مدیریت سئو نیست، این فایل نقش مهمی در کنترل رفتار ربات ها و جلوگیری از فشار اضافه روی سرور دارد. با اینکه robots.txt یک ابزار امنیتی نیست، اما میتواند کمک کند سایتت در برابر خزش بی هدف، مصرف غیرضروری منابع و رفتار های نامنظم ربات ها مقاوم تر شود. در این بخش میفهمیrobots.txt دقیقا چه کمکی به مدیریت ربات ها میکند و چه کارهایی نمیتواند انجام دهد.

1) robots.txt چگونه به مدیریت ربات ها کمک میکند؟

ربات های معتبر (مثل Googlebot، Bingbot، AhrefsBot و…) قبل از شروع خزش، robots.txt را میخوانند.
این یعنی:

  • هر مسیری که Disallow شده باشد، هرگز خزیده نمیشود
  • دستورات Allow مسیرهای مجاز را مشخص میکند
  • بخش های بی اهمیت خزیده نمیشوند
  • منابع سرور فقط روی بخش های مهم مصرف میشود
  • رفتار ربات ها قابل پیش بینی تر میشود

نتیجه: خزش سایت هوشمندانه تر، سریع تر و هدفمند تر میشود.

2) کاهش بار اضافی روی سرور

یکی از کاربردی ترین نقش های robots.txt کنترل استفاده از منابع سایت است. خزش ربات ها مخصوصا در سایت های بزرگ یا فروشگاهی میتواند باعث:

  • افزایش مصرف CPU
  • افزایش Load سرور
  • کند شدن صفحات
  • حتی ایجاد خطاهای ۵۰۰ شود

وقتی مسیرهای غیرضروری (مثل /cart/، /checkout/، /tmp/، /cache/) مسدود شوند:

  • سرور کمتر مشغول میشود
  • خزش روی صفحات مهم متمرکز میماند
  • سرعت و پایداری سایت بهتر میشود

این موضوع به ویژه در هاست های اشتراکی یا VPSهای ضعیف بسیار حیاتی است.

3) نقش robots.txt در برابر AI Crawlers (2025)

در سال های اخیر ربات های جدیدی ظاهر شده اند که برای آموزش مدل های هوش مصنوعی محتوا را جمع آوری میکنند. این ربات ها گاهی بار بسیار بیشتری نسبت به ربات های سنتی ایجاد میکنند. robots.txt برای مدیریت این ربات ها به کار میرود:

User-agent: GPTBot
Disallow: /
یا:
User-agent: CCBot
Disallow: /

گرچه همه ی این ربات ها ۱۰۰٪ قوانین را رعایت نمیکنند، اما بسیاری از AI Crawlers معتبر به robots.txt احترام میگذارند.

4) robots.txt نمیتواند جلوی ربات های مخرب را بگیرد

این یک نکته ی کلیدی است که باید برای همیشه به خاطر بسپاری:

  • robots.txt ابزار امنیتی نیست.
  • مسیرهای حساس را نباید در robots.txt آشکار کنی.
  • ربات های مخرب و Scraper ها معمولا فایل را نادیده میگیرند.

اگر مسیری کاملا محرمانه است: نباید در robots.txt ذکر شود. باید از سیستم های امنیتی واقعی (Auth، firewall، محدودیت IP و…) استفاده کنی.

5) robots.txt به تنهایی برای کنترل رفتار ربات ها کافی نیست

برای کنترل کامل ربات ها باید ابزار های دیگری هم استفاده شوند:

  • Google Search Console برای کنترل Crawl Rate گوگل
  • فایل htaccess یا تنظیمات سرور برای بلاک IPها
  • فایروال (WAF) برای مسدود کردن ربات های مخرب
  • CDN ها (مثل Cloudflare) برای مدیریت هوشمند ترافیک
  • robots.txt فقط راه نماست، نه پلیس.

6) در چه سایت هایی مدیریت ربات ها اهمیت بیشتری دارد؟

  • فروشگاه های اینترنتی
  • سایت های خبری یا مجله ای
  • سایت هایی با دیتابیس سنگین
  • سایت های چند زبانه
  • سایت های بزرگ با هزاران صفحه
  • سایت هایی که نرخ به روزرسانی بالایی دارند

در این نوع سایت ها مدیریت رفتار ربات ها تفاوت زیادی در عملکرد، سرعت و هزینه ها ایجاد میکند.

کجا و چگونه robots.txt را ویرایش کنیم؟

برخلاف ظاهر ساده ی فایل robots.txt، محل قرار گیری آن کاملا مشخص و استاندارد است. فقط اگر این فایل درست در جای خودش باشد، ربات ها میوانند آن را پیدا کنند. در این بخش یاد میگیری robots.txt دقیقا کجا قرار میگیرد، چطور باید آن را ویرایش کنی و در چه سیستم هایی به چه شکل مدیریت میشود.

1) محل دقیق قرارگیری فایل robots.txt

فایل robots.txt باید در ریشه ی اصلی دامنه (Root Directory) قرار بگیرد، جایی که فایل های اصلی سایت قرار دارند. مسیر استاندارد: https://نام برندت.com/robots.txt
این فایل نباید در پوشه های داخلی مثل /public/ یا /wp-content/ یا /themes/ قرار بگیرد. ربات ها تنها به مسیر مستقیم فوق دسترسی دارند.

2) اگر فایل robots.txt وجود ندارد چه میشود؟

بسیاری از سایت ها به صورت پیش فرض robots.txt ندارند. نبود این فایل مشکلی ایجاد نمیکند، اما کنترل رفتار ربات ها از دست تو خارج میشود و اگر robots.txt وجود نداشت، کافی است یک فایل متنی جدید بسازی و نام آن را دقیقا بگذاری: robots.txt

3) چگونه robots.txt را در هاست ایجاد یا ویرایش کنیم؟

در بیشتر هاست ها (cPanel، DirectAdmin، Plesk):

  • وارد File Manager شوید.
  • به مسیر public_html یا www بروید.
  • فایل robots.txt را پیدا کنید.
  • در صورت نبودن، یک فایل جدید با همین نام بسازید.
  • فایل را باز کرده و دستورهای لازم را وارد کنید.
  • ذخیره کنید و فایل آماده است.

هیچ فایل دیگری با نام مشابه (مثل robots.text یا robot.txt) نباید وجود داشته باشد.

4) ویرایش robots.txt در وردپرس

وردپرس به صورت پیش فرض robots.txt مجازی دارد، اما برای داشتن کنترل کامل باید نسخه ی فیزیکی بسازی. برای این کار:

  • به File Manager هاست بروید.
  • در public_html یک فایل robots.txt ایجاد کنید.
  • دستور های دلخواه را داخل آن قرار دهید.

بعد از ایجاد نسخه ی فیزیکی، وردپرس دیگر نسخه ی مجازی خود را نمایش نخواهد داد.

افزونه های مفید برای مدیریت robots.txt:

  • Yoast SEO، بخش Tools ،File Editor
  • Rank Math، بخش General Settings ، Edit robots.txt

این افزونه ها اجازه میدهند از پیشخوان وردپرس فایل را ویرایش کنید.

5) robots.txt در سیستم های اختصاصی یا CMS های دیگر

اگر سایت اختصاصی دارید یا CMS رسمی ندارید: کافی است فایل را در Root آپلود کنید. و فایل باید با MIME Type صحیح (text/plain) ارائه شود.

برای اطمینان در مرورگر وارد کنید: yoursite.com/robots.txt
اگر محتوا دیده شد، فایل درست تنظیم شده است.

6) robots.txt برای هر Subdomain جداست

اگر چند ساب دامین داری:

  • blog.example.com
  • shop.example.com
  • app.example.com

باید برای هر کدام یک فایل robots.txt جداگانه بسازی.
مثال:

  • https://blog.نام برندت.com/robots.txt
  • https://shop.نام برندت.com/robots.txt

زیرا هر Subdomain در موتورهای جستجو مثل یک سایت جداگانه رفتار میشود.

7) نکته های مهم هنگام ویرایش robots.txt

  • هر خط باید تمیز و بدون کاراکتر اضافی باشد.
  • فاصله ی اضافی یا نیم فاصله مشکلی ایجاد نمیکند، اما نظم فایل مهم است.
  • قبل از ذخیره ی دستورات، چند بار بررسی کن چون یک خط اشتباه میتواند خزش کل سایت را متوقف کند.
  • همیشه فایل را در مرورگر تست کن تا مطمئن شوی سرور آن را درست ارائه میدهد.

اشتباهات رایج در robots.txt

robots.txt فایلی کوچک است، اما یک خط اشتباه در آن میتواند تمام زحمات سئوی یک سایت را از بین ببرد. بسیاری از مدیران سایت بدون اینکه متوجه شوند، با یک دستور اشتباه باعث میشوند ربات ها نتوانند صفحات مهم را بخزند یا حتی کل سایت از نتایج گوگل ناپدید شود. در این بخش مهم ترین خطاهایی را میبینی که نباید مرتکب شوی.

1) مسدود کردن کل سایت (مرگبارترین اشتباه): بسیاری از سایت ها هنگام توسعه یا طراحی اولیه از این دستور استفاده میکنند: Disallow: /

این یعنی:

  • هیچ صفحه ای نباید خزیده شود
  • ربات ها اجازه ی ورود ندارند
  • سایت از نتایج جستجو حذف میشود

مشکل زمانی شروع میشود که سایت راه اندازی میشود و این خط همچنان داخل robots.txt باقی مانده است. این اشتباه در بسیاری از پروژه ها بارها تکرار شده و یکی از دلایل اصلی افت کامل ترافیک است.

2) مسدود کردن فایل های CSS و JS: گاهی بدون توجه به تاثیر آن، کل پوشه ها بسته میشود: Disallow: /assets/

اگر در این پوشه فایل های CSS یا JS وجود داشته باشد، Googlebot نمیتواند صفحه را درست رندر کند. نتیجه:

  • کاهش امتیاز Core Web Vitals
  • بدفهمی گوگل از ساختار صفحه
  • مشکلات نمایش موبایلی
  • افت رتبه در نتایج جستجو
  • گوگل باید بتواند HTML، CSS و JS را کامل ببیند.

3) استفاده از robots.txt برای جلوگیری از ایندکس (اشتباه فنی رایج): بسیاری از افراد فکر میکنند این دستور باعث ایندکس نشدن، میشود: Disallow: /private/
اما حقیقت این است:

  • Disallow = جلوگیری از خزش
  • Noindex = جلوگیری از ایندکس

اگر صفحه ای Disallow شده باشد، گوگل ممکن است از طریق لینک های بیرونی آن را بدون خزش ایندکس کند. برای جلوگیری از ایندکس باید از تگ متا robots یا هدر HTTP استفاده شود، نه از robots.txt.

4) مسدود کردن مسیرهای حساس به جای حفاظت واقعی: خیلی ها مسیرهای مهم یا حساس را در robots.txt پنهان میکنند:

  • Disallow: /secret/
  • Disallow: /config/

اما این کار اشتباه است زیرا:

  • ربات های مخرب robots.txt را نادیده میگیرند
  • مسیرهای حساس را در فایل آشکار میکنی
  • این مسیرها توسط کاربران هم قابل مشاهده است

robots.txt ابزار امنیت نیست. اگر مسیر حساس داری باید احراز هویت (Auth) و دسترسی سرور اعمال کنی.

5) مسدود کردن صفحات با ارزش سئو: گاهی برای تمیز کردن سایت مسیر هایی بسته میشود که اتفاقا ارزشمندند. مثال اشتباه: Disallow: /blog/ یا Disallow: /product/
اگر صفحات مهم خزیده نشوند:

  • ایندکس نمیشوند
  • رتبه نمیگیرند
  • ترافیک ارگانیک افت میکند

همیشه قبل از نوشتن Disallow بررسی کن مسیر واقعا بی ارزش است یا نه.

6) نداشتن دستور Allow در میان مسیرهای مسدود: مثال اشتباه: Disallow: /images/
اگر فایل های مهمی داخل این پوشه هستند، ربات ها نمیتوانند آن ها را ببینند.

نسخه ی درست:

  • Disallow: /images/
  • Allow: /images/logo.png
  • استفاده از Allow برای مسیرهای مهم اجباری است.

7) ویرایش robots.txt بدون تست و اعتبارسنجی: بسیاری از مدیران سایت:

  1. فایل را ویرایش میکنند
  2. ذخیره میکنند
  3. اما تست نمیکنند

درحالی که حتی یک خط اشتباه مثل «فاصله ی اضافی»، «کد اشتباه»، «خط شکسته» یا «فایل اشتباه» ممکن است باعث شود ربات ها نتوانند فایل را بخوانند. برای تست:  از ابزار Robots.txt Tester در سرچ کنسول استفاده کن و فایل را در مرورگر باز کن و در مرحله بعد، مسیرها را یکی یکی بررسی کن.

8) قرار دادن robots.txt در مسیر اشتباه: اگر فایل را در مسیر های زیر قرار بدهی:

  • /public
  • /wp-content
  • /theme
  • /assets

ربات ها آن را پیدا نمیکنند و تمام فایل بی اثر خواهد بود. تنها مسیر معتبر: نام برندت.com/robots.txt

9) استفاده از دستورهای غیر رسمی: بعضی افراد دستور هایی مثل زیر مینویسند:

  • Noindex: /temp/
  • Index: /blog/
  • Follow: /news/

این ها در robots.txt معتبر نیستند و توسط گوگل و بیشتر ربات ها نادیده گرفته میشوند.

ابزارهای تست و اعتبارسنجی robots.txt

نوشتن robots.txt فقط نصف مسیر است، نصف مهم تر ماجرا این است که مطمئن شوی این فایل درست کار میکند و دستورها همان طور که انتظار داری توسط ربات ها تفسیر میشوند. یک خط اشتباه یا یک مسیر غلط میتواند باعث بسته شدن بخش هایی از سایت یا خزش بی هدف شود. در این بخش ابزارها و روش هایی را معرفی میکنیم که بتوانی robots.txt را به طور کامل تست و بررسی کنی.

ابزار/روش

توضیحات

Robots.txt Tester در Google Search Console

بررسی صحت فایل برای Googlebot؛ تست URL، مشاهده خطاها، و بررسی رفتار Disallow/Allow.

بررسی robots.txt در مرورگر

ساده‌ ترین تست: وارد کردن آدرس سایت به همراه /robots.txt در مرورگر برای بررسی وجود فایل و صحت آن.

تست دستی مسیرها

بررسی مسیرهای Disallow و اطمینان از عملکرد صحیح Allowها برای مسیرهای مختلف.

استفاده از ابزار Fetch / Inspect URL

بررسی تک‌ به‌ تک صفحات، مشاهده اینکه آیا robots.txt مسدود کننده است یا خیر و زمان آخرین خزش.

بررسی خطاهای فرمت فایل

استفاده از ویرایشگرهایی مانند Notepad++ برای بررسی فرمت صحیح فایل (Encoding، فاصله‌ ها و کاراکتر های اشتباه).

ابزارهای خارجی برای ارزیابی robots.txt

ابزارهایی مثل TechnicalSEO، SEOBook، Ahrefs که فایل را آنلاین بررسی کرده و خطاها و هشدارها را نمایش میدهند.

بررسی گزارش Coverage در Search Console

گزارش‌ های خطا مثل “Blocked by robots.txt” که نشان میدهد قوانین باید بازنگری شوند.

بایدها

  • مسدودسازی مسیرهای غیرضروری، بودجه ی خزش را ذخیره میکند.
  • معرفی Sitemap در robots.txt باعث کشف سریع تر صفحات میشود.
  • استفاده از Allow برای استثناها در میان مسیرهای مسدود ضروری است.
  • تست فایل با ابزار Robots.txt Tester دقت دستورها را تضمین میکند.
  • نوشتن فایل به صورت تمیز، ساده و بدون کاراکتر اضافی بهترین عملکرد را دارد.

نبایدها

  • جلوگیری از خزش صفحات مهم مثل محصول، مقاله یا دسته بندی اشتباه است.
  • مسدود کردن CSS و JS باعث اختلال در رندر صفحه توسط گوگل میشود.
  • استفاده از دستورهای غیررسمیمثل Noindex یا Follow هیچ اثری ندارد.
  • مسدودسازی کل سایت با Disallow: / فقط در سایت در حال توسعه قابل قبول است.
  • اقدام به ویرایش robots.txt بدون بررسی نهایی، خطر ایجاد خطاهای جدی را بالا میبرد.

نباید فراموش کنی که

  • robots.txt فقط مانع خزش میشود و جلوی ایندکس را نمیگیرد.
  • مسیر فایل همیشه در ریشه ی دامنه قرار دارد و مسیر دیگری پذیرفته نیست.
  • هر ساب دامین فایل robots.txt مخصوص خود را نیاز دارد.
  • نوشتن مسیرهای حساس در robots.txt اشتباه است و امنیت ایجاد نمیکند.
  • ربات های مخرب معمولا قوانین robots.txt را نادیده میگیرند.

نکاتی برای نوشتن یک robots.txt بهینه

  • همیشه مسیرهای غیرضروری را مسدود کن
  • مسیرهای مهم را با Allow آزاد نگه دار
  • فایل را خوانا و تمیز بنویس
  • از پارامترهای URL فیلتر و sort جلوگیری کن
  • Sitemap را حتما معرفی کن
  • بعد از هر تغییر، تست Robots.txt Tester انجام بده

نکته طلایی

نتیجه گیری

فایل robots.txt شاید کوچک و ساده به نظر برسد، اما یکی از ابزارهای کلیدی برای مدیریت خزش، بهینه سازی بودجه ی خزیدن و هدایت ربات های موتورهای جستجو است. اگر این فایل به درستی نوشته شود، ربات ها دقیقا میدانند کدام مسیرها ارزش خزش دارند و کدام بخش ها باید نادیده گرفته شوند؛ در نتیجه صفحات مهم سایت سریع تر ایندکس میشوند، فشار غیرضروری از روی سرور برداشته میشود و ساختار کلی سایت بهتر درک میشود.

از طرف دیگر، یک خط اشتباه در همین فایل کوچک میتواند باعث افت رتبه، کاهش ترافیک یا حتی حذف کامل سایت از نتایج شود. بنابراین robots.txt ابزاری نیست که فقط «داشته باشیم»؛ ابزاری است که باید آن را آگاهانه، منظم و مطابق استانداردهای روز ۲۰۲۵ مدیریت کنیم.

درصورت داشتن سوال یا بودن ابهام در مقاله در کامنت ها برام بنویسید؛ خیلی سریع به سوالات شما پاسخ میدهیم “ارادتمند شما ویکی دمی”

دسته بندی‌ها:

آنچه در این مقاله میخوانید

دیدگاه شما

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *