چرا صفحات سایت در گوگل ایندکس نمیشوند؟ دلایل عدم ایندکس

تصور كن محتوای عالي و سايت قشنگي ساختی، ولی در نتايج گوگل انگار وجود نداره! هيچ ترافيكي نمياد و كسب و كارت روي هواست. اينجاست كه مشكل عدم ایندكس صفحات مثل يه ديوار نامرئی سر راهت سبز میشه و همه زحماتت رو بی اثر میكنه. در این مقاله به بررسی دلایلی که باعث میشه محتواهای شما ایندکس نشود پرداختیم. در پایان مقاله برای شما نکته طلایی مخصوص ویکی دمی آوردم که با خوندنش مشکلتون برای همیشه حل میشه.

چرا عدم ايندکس بزرگ ترين تهديد سئو است؟

بذار از ساده ترين جا شروع کنم و يک بار برای هميشه قضيه را روشن کنيم. تا وقتی صفحه ات داخل ايندکس گوگل نباشد، از ديد گوگل اصلا وجود خارجی ندارد، انگار هرگز ساخته نشده. فرقی نميکند چقدر برای محتوايش زحمت کشيده ای، چقدر روی سئو وقت گذاشتی، چند ساعت تحقيق کردی يا چند تا تصوير جذاب طراحی کردی، وقتی صفحه ايندکس نشده، ترافیک ارگانيک (Organic Traffic) آن عملا صفر است و هيچ کاربری از طريق جستجو وارد آن نميشود.

حالا اصلا ايندکس شدن يعنی چی؟

گوگل برای اينکه يک صفحه را در نتايج جستجو نشان بدهد، به طور کلی سه مرحله را طی ميکند:

اول صفحه را پيدا و دانلود ميکند؛ به اين مرحله میگوييم Crawl (کراول يا خزش)، يعنی ربات گوگل آدرس صفحه را پيدا ميکند و محتوايش را میخواند.
بعد از آن، محتوا را آناليز ميکند و در پايگاه داده خودش ذخيره ميکند؛ اين بخش همان Index (ايندکس يا ثبت در پايگاه داده گوگل) است.
در مرحله بعد، وقتی کاربر چيزی را جستجو ميکند، گوگل تصميم ميگيرد کدام صفحه را در کدام جايگاه نشان بدهد؛ به اين قسمت ميگوييم Ranking (رنکينگ يا رتبه بندی نتايج).

خيلی ها اين سه مرحله را با هم قاطی ميکنند و مثلا ميگويند: «صفحه من رتبه نگرفته، پس احتمالا ايندکس نشده.» در حالی که ممکن است صفحه کاملا ايندکس شده باشد، فقط از ديد گوگل آنقدر ارزشمند و رقابتی نباشد که در نتايج بالای جستجو رتبه بگيرد. پس «ايندکس نشدن» با «رتبه نگرفتن» دو مسئله کاملا جدا هستند که در اين مقاله قرار است مرزشان را برای خودت شفاف کنی.

اگر سئو را مثل يک سيستم کامل در نظر بگيری، «سيستم ايندکس گذاری» در واقع قلب اين سيستم است. اگر اين قلب درست و منظم کار نکند، بقيه بهينه سازی ها مثل بهبود محتوا، لينک سازی، سرعت، UX و… فقط سر و صدا و مصرف منابع هستند، نه نتيجه واقعی در ترافيک و فروش.

تفاوت خزش و ايندکس و رنکينگ

برای اينکه دقيق و حرفه ای حرف بزنيم، بايد سه مفهوم مهم را کاملا از هم جدا کنی و هر کدام را با کارکردش بشناسی:

اگر صفحه ای Crawl نشود، يعنی ربات های گوگل اصلا آن را نديده اند؛ در نتيجه امکان ايندکس شدن هم وجود ندارد.
اگر صفحه ای Crawl شود ولی Index نشود، يعنی گوگل صفحه را ديده، درخواست سرور را گرفته و تا حدی محتوا را بررسی کرده، اما در نهايت تصميم گرفته آن را در پايگاه داده اش ذخيره نکند.
اگر صفحه ای Index شود ولی Rank نگيرد، يعنی در پايگاه داده گوگل هست، اما از ديد الگوريتم ها آنقدر قوی يا مرتبط نيست که در نتايج مهم جستجو به کاربر نشان داده شود.

يک اشتباه بسيار رايج در عمل اين است که:

وقتی صاحب سايت يک صفحه را برای کلمه کليدی هدفش در نتايج نميبيند، سريع نتيجه ميگيرد که «گوگل صفحه را ايگنور کرده» يا «صفحه اصلا ايندکس نشده». در حالی که قبل از هر نتيجه گيری بايد چند سوال ساده ولی مهم را جواب بدهی:

اين صفحه واقعا ايندکس شده يا نه؟
روی چه کوئری ها و جستجوهايی نمايش داده ميشود؟
وضعيتش در Google Search Console (سرچ کنسول گوگل، ابزار مديريت عملکرد سايت در جستجو) چطور است؟

وقتی اين قدم ها را رعايت کنی، ميفهمی مشکل از «عدم ايندکس» است يا از «ضعف در رتبه گرفتن».

گوگل چطور صفحات را کشف، خزيده و ايندکس ميکند؟

گوگل برای کشف (Discovery، پيدا کردن) و ايندکس کردن صفحات جديد يا به روز شده، از چند منبع اصلی کمک ميگيرد. دانستن اين منابع به تو کمک ميکند بفهمی چرا بعضی صفحات اصلا کشف نميشوند يا خيلی دير ديده ميشوند:

لينک های داخلی خود سايت (Internal Links، لينک بين صفحات داخل سايت)
لينک های خارجی از سايت های ديگر (Backlinks، بک لينک)
نقشه سايت XML (XML Sitemap، فايل نقشه آدرس های مهم سايت)

URL هايی که قبلا شناخته و در گذشته Crawl شده اند و گوگل به صورت دوره ای دوباره سراغشان مي آيد. گاهی هم منابع جانبی مثل RSS، فيد ها و سرويس های ديگر که به گوگل خبر ميدهند آدرس جديدی ايجاد شده

وقتی ربات گوگل وارد يک صفحه ميشود، به ترتيب چند کار مهم انجام ميدهد:

کد HTML (اچ تی ام ال ، اسکلت کد صفحه) را دانلود ميکند و ساختار صفحه را میبيند.
استاتوس کد HTTP (کد وضعيت درخواست، مثل 200، 404، 301 و…) را بررسی ميکند تا بفهمد صفحه سالم است يا نه.
متا تگ ها (Meta Tags، تگ های اطلاعاتی مثل عنوان و متا ديسکريپشن)، عنوان صفحه، بدنه محتوا، لينک ها و ساختار داخلی را میخواند.

اگر از نظر قوانين فنی اجازه داشته باشد (مثلا robots.txt يا متا تگ noindex جلويش را نگرفته باشد) و صفحه را ارزشمند و مفيد تشخيص بدهد، آن را در صف Index (صف ايندکس شدن) قرار ميدهد تا در مرحله بعدی وارد پايگاه داده شود. اين مسير برای هر صفحه بارها و بارها ممکن است تکرار شود، مخصوصا وقتی صفحه به روز رسانی ميشود.

مسير کامل ايندکس گذاری از ديد گوگل

اگر بخواهيم روند ايندکس شدن را با يک مثال ساده برای ذهنمان تصويری کنيم، ميتوانيم آن را شبيه مسير حرکت يک بسته پستی ببينيم که از فرستنده تا گيرنده مراحل مختلفی را طی ميکند. مراحل اصلی از نگاه گوگل تقريبا اين شکلی است:

کشف URL (کشف آدرس صفحه): اول بايد گوگل به نوعی بفهمد که چنين آدرسی وجود دارد، اين کشف ميتواند از طريق لينک های داخلی، لينک های خارجی، نقشه سايت XML يا اينکه قبلا آن URL را ميشناخته اتفاق بيفتد.
Crawl (دانلود و خزش): بعد از کشف، ربات گوگل به سرور درخواست ميفرستد، صفحه را دانلود ميکند و پاسخ سرور (Response، پاسخ HTTP) را دريافت ميکند. اگر پاسخ مناسب باشد، محتوا وارد مرحله بعد ميشود.
Render (رندر يا اجراي صفحه): اگر صفحه جاوااسکريپت محور باشد، گوگل آن را رندر ميکند؛ يعنی کدهای جاوااسکريپت (JavaScript، زبان برنامه نويسی سمت مرورگر) را اجرا ميکند تا محتوای واقعی که کاربر ميبيند برای ربات هم قابل مشاهده شود. برای سايت های مدرن، اين مرحله بسيار مهم است.
تحليل محتوا (تحليل متن و ساختار): در اين مرحله، گوگل متن، تيترها (Heading ها)، لينک ها، اسکيمای Structured Data (داده های ساختار يافته مثل Schema.org)، تصاوير و ساختار کلی صفحه را بررسی ميکند تا بفهمد صفحه درباره چه موضوعی است و برای چه نوع جستجوهايی مفيد خواهد بود.
تصميم Index (تصميم برای ذخيره سازی در ايندکس): بعد از تحليل، گوگل تصميم ميگيرد اين صفحه را در پايگاه داده خود ذخيره کند يا کنار بگذارد. اگر صفحه را «کم ارزش»، «تکراری» يا «مشکل دار» تشخيص بدهد، ممکن است اصلا وارد ايندکس نشود.
به روز رسانی Index (به روز کردن اطلاعات صفحه): هر بار که تغييرات مهمی در صفحه انجام دهی، اين روند دوباره ميتواند تکرار شود تا نسخه جديد محتوا جای نسخه قديمی را در ايندکس بگيرد.

اگر در هر کدام از اين حلقه ها مشکلی پيش بيايد، مثلا ارور سرور (Server Error)، دستور noindex (دستور عدم ايندکس در متا تگ)، بلاک شدن توسط robots.txt (فایل رباتس تکست) يا خطا در جاوااسکريپت ؛ ممکن است صفحه ات هرگز به مرحله نهايی ايندکس نرسد يا با تاخير و مشکل وارد ايندکس شود.

چطور بفهميم صفحه ايندکس شده يا نه؟

قبل از اينکه وارد تحليل های فنی پيچيده شوی، مهم ترين کار اين است که وضعيت فعلی صفحه را چک کنی:

الان اين صفحه در ايندکس گوگل هست يا نه؟
تا جواب اين سوال را ندانی، هر کاری بکنی بيشتر حدس و گمان است تا عيب يابی حرفه ای.
استفاده از site: (اپراتور site برای جستجوی دامنه)

ساده ترين و سريع ترين روش، استفاده از اپراتور site: در خود گوگل است. اين روش دقيق و لحظه ای نيست، ولی برای يک چک کلی عالی است.

برای کل دامنه:
در گوگل بنويس:
site:example.com
اين دستور همه صفحه هايی که از اين دامنه در ايندکس هستند را به تو نشان ميدهد.
برای يک پوشه خاص:
مثلا برای پوشه وبلاگ:
site:example.com/blog/
با اين کار فقط آدرس هايی را ميبينی که داخل اين مسير قرار دارند.
برای يک صفحه مشخص:
ميتوانی بخشی از URL يا عنوان مقاله را کنار اپراتور site وارد کنی:
site:example.com “عنوان مقاله”

اگر صفحه ات در ايندکس باشد، معمولا در نتايج ظاهر ميشود.

اگر با اين روش صفحه ات را پيدا نکردی، معمولا دو سناريو وجود دارد:

يا واقعا هنوز ايندکس نشده و گوگل آن را وارد پايگاه داده نکرده؛ يا آنقدر جديد است که هنوز ايندکس آپديت نشده و بايد کمی زمان بگذرد. به هر حال، اين روش بيشتر برای ديدن تصوير کلی مفيد است و نميتوانی فقط بر اساس آن تصميم بگيری. برای دقت بيشتر و اطلاعات جزئی، بايد بروی سراغ Google Search Console (سرچ کنسول گوگل).
ابزار URL Inspection (بررسی URL در سرچ کنسول) دقيق ترين منبع برای فهميدن وضعيت يک صفحه است. اين ابزار برای هر URL به تو ميگويد:
الف) صفحه در حال حاضر ايندکس شده يا نه
ب) آخرين بار چه تاريخی Crawl شده
پ) از چه Canonical (کانونيکال، نسخه اصلی مورد نظر) استفاده شده
چ) ربات به چه مشکلی خورده يا اصلا خطايی در سطح سرور يا محتوا ديده يا نه.

مثلا يک سناريو رایج: وضعيت: URL is not on Google
يعنی اين صفحه در حال حاضر در گوگل ايندکس نشده و در نتايج نشان داده نميشود. در ادامه سرچ کنسول ممکن است يک علت يا Status جزئی تر نشان بدهد، مثل:

Discovered ، currently not indexed (کشف شده ولی هنوز ايندکس نشده)
Crawled ، currently not indexed (کراول شده ولی فعلا ايندکس نشده)
Blocked by robots.txt (بلاک شده توسط فایل robots.txt)
Alternate page with proper canonical (صفحه جايگزين با کانونيکال صحيح)

هر کدام از اين حالت ها يک داستان جدا و يک علت فنی يا محتوايی پشت خودشان دارند که در بخش “خطاها” با جزئيات بيشتر به آنها ميپردازيم.

تفاوت «ايندکس نشده» با «ايندکس شده ولی رتبه ندارد»

اينجا همان جايی است که خيلي ها در عمل گم ميشوند و از همين جا تشخيص اشتباه شان شروع ميشود.

حالت اول: صفحه ايندکس نشده: در URL Inspection صراحتا ميخوانی «URL is not on Google». وقتی با اپراتور site: جستجو ميکنی، صفحه ات را پيدا نميکنی. در اين حالت مسئله اصلی اين است که گوگل اصلا صفحه را وارد ايندکس نکرده.

حالت دوم: صفحه ايندکس شده ولی رتبه نگرفته: در URL Inspection ميبينی «URL is on Google». اما وقتی کلمه کليدی اصلی را سرچ ميکنی، در صفحات اول نتايج اثری از صفحه ات نيست.

در عمل، خيلی وقت ها سايت های تازه يا صفحات جديد، ابتدا روی کوئری های Long-tail (لانگ تيل، کلمات طولانی و کم رقابت) يا جستجوهای برند (Brand Queries) ديده ميشوند، نه لزوما روی کلمه اصلی و سخت. پس نديدن صفحه برای يک کلمه خاص، به تنهايی دليل بر «عدم ايندکس» نيست.

برای حل مشکلات سئو بايد اول دقيق مشخص کنی در کدام حالت هستی:

اگر ايندکس نشده: مشکل احتمالا فنی، ساختاری يا مربوط به کشف نشدن صفحه است.
اگر ايندکس شده ولی رتبه ندارد: مشکل بيشتر از جنس کيفيت محتوا، رقابت بالا، نبود لينک سازی، UX (تجربه کاربری) و… است.

گزارش ايندکس در سرچ کنسول

حالا که ميدانی ايندکس چيست و چطور اتفاق می افتد، قدم بعدی اين است که بتوانی تصوير بزرگ سايتت را در Google Search Console (گوگل سرچ کنسول) درست بخوانی. بخش Indexing Report يا Pages در سرچ کنسول، مثل يک داشبورد سلامت برای سايتت عمل ميکند؛ جايی که گوگل به تو ميگويد با هر صفحه چه کار کرده و چرا.

گزارش Indexing: صفحات Valid، Excluded، Error

در بخش Pages يا Indexing، گوگل صفحات سايتت را به چند گروه اصلی تقسيم ميکند تا بتوانی راحت تر بفهمی وضعيت کجای کار خوب است و کجا مشکل جدی دارد:

Valid (صفحات معتبر و ايندکس شده):
در اين گروه، صفحه هايی قرار دارند که گوگل بدون مشکل خاص آنها را ايندکس کرده است. يعنی صفحه از نظر فنی سالم است، ايندکس شده و فعلا مانعی برای نمايش آن در نتايج وجود ندارد.
Error (صفحات داراي خطای جدی):
اين دسته مربوط به صفحه هايی است که به خاطر يک مشکل مهم (مثلا خطای سرور، ريدایرکت اشتباه، بلاک شدن غيرمنتظره) اصلا ايندکس نشده اند. اينجا بايد برای رفع خطا دست به کار شوی، چون گوگل به طور واضح ميگويد: «اين صفحات را نتوانستم به درستی پردازش و ايندکس کنم.»
Excluded (صفحات کنار گذاشته شده يا مستثنا):
در اين دسته، گوگل به دلايل مختلف تصميم گرفته صفحه را تعمدا ايندکس نکند. اين به اين معنا نيست که حتما مشکلی فنی وجود دارد، بلکه ممکن است گوگل تشخيص داده صفحه تکراری است، نسخه جايگزين دارد، يا ارزش خاصی برای نمايش در نتايج ندارد.

در گروه Excluded چند وضعيت بسيار مهم وجود دارد که در عمل زياد با آنها روبه رو میشوی، مثل:

(کراول شده ولی فعلا ايندکس نشده) Crawled ، currently not indexed
(کشف شده ولی هنوز کراول نشده يا ايندکس نشده) Discovered ، currently not indexed
(محتوای تکراری بدون کانونيکال انتخاب شده توسط کاربر) Duplicate without user selected canonical
(صفحه جايگزين با کانونيکال صحيح) Alternative page with proper canonical

اين برچسب ها فقط اسم نيستند؛ هر کدام يک داستان پشت صحنه دارند و به تو کمک ميکنند بفهمی چرا گوگل بعضی صفحات را وارد ايندکس نکرده.

نکته: يک نکته ظريف ولی مهم اين است که گاهی خود صفحه در ايندکس است، اما منابع مهم داخل آن مثل CSS (سی اس اس ، استايل ها)، JavaScript (جاوااسکريپت ، کدهای تعاملی)، يا تصاوير به نوعی برای ربات ها بلاک شده اند. در اين حالت، گوگل ممکن است صفحه را ببيند، اما نتواند آن را درست Render (رندر ، نمايش و تفسير کامل) کند و در نتيجه، درک ناقصی از محتوا و ساختار آن خواهد داشت.

برای مثال:

اگر CSS بلاک شود، گوگل نميفهمد صفحه از نظر چيدمان، ساختار و نمايش برای کاربر چطور است؛ در حالی که ظاهر و ساختار هم بخشی از تجربه کاربری محسوب ميشود.
اگر JavaScript بلاک شود، محتوای ديناميک (Dynamic Content، محتوايی که با اسکرول يا کليک لود ميشود) ممکن است اصلا برای گوگل قابل مشاهده نباشد، در حالی که کاربر آن را میبيند.

در اين شرايط، ممکن است گوگل بگويد: «من اين صفحه را ميشناسم و در ايندکس دارم، اما چون منابعش را نديده ام، فهمم از آن ناقص است» و اين در نهايت روی رتبه و اعتماد الگوريتمی اثر ميگذارد. از طرف ديگر، در بخش Removals (حذف موقت نتايج) در سرچ کنسول، ميتوانی به گوگل بگويی برخی URL ها را به صورت موقت از نتايج جستجو مخفی کند. مثلا اگر اشتباها اطلاعات حساس منتشر شده يا محتوای اشتباهی لايو شده، از اين ابزار کمک ميگيری.

نکته مهم اينجاست که:
Removals جایگزين متا تگ noindex يا حذف واقعی صفحه نيست؛ فقط يک درخواست موقت برای مخفی کردن نتيجه از نتايج جستجو است. پس اگر واقعا نمیخواهی صفحه ای در گوگل ايندکس شود، بايد از noindex يا حذف کامل آن استفاده کنی، نه فقط Removals.

استفاده از Validate Fix برای ریکاوری صفحات مشکل دار

در سايت های واقعی، مخصوصا فروشگاه های بزرگ، پيش می آيد که يک دسته کامل از صفحات دچار يک خطای مشترک شوند؛ مثلا:

يک اشتباه در قالب باعث شده تعداد زيادی صفحه 404 (صفحه پيدا نشد) برگردانند.
در يک آپديت اشتباه، روی چند صد صفحه متا تگ noindex اعمال شده.
يا مسير ريدایرکت ها (Redirect ، انتقال کاربر از يک URL به URL ديگر) به هم ريخته و کلی URL اشتباه به مقصدی بد منتقل ميشوند.

وقتی اين مشکلات را اصلاح کردی، سرچ کنسول هنوز وضعيت قديمی را نگه ميدارد تا زمانی که خودش دوباره آن صفحات را بررسی کند. برای اينکه به گوگل بگويی: «من اين دسته خطا را اصلاح کردم، لطفا دوباره چک کن»، از دکمه Validate Fix (اعتبار سنجی اصلاح) استفاده ميکنی.

بعد از زدن Validate Fix، گوگل:

نمونه ای از صفحات مشکل دار را دوباره Crawl ميکند، اگر ببيند مشکل واقعا رفع شده، به مرور وضعيت بقيه صفحات هم به «Fixed» يا حالت سالم تغيير ميکند. برای پروژه های بزرگ، اين کار بايد بخشی از روتين ماهانه سئو باشد؛ يعنی هر ماه خطاهای مهم را چک کنی، اصلاحات را انجام بدهی و بعد Validate Fix را بزنيد تا مطمئن شوی گوگل هم تغييرها را ديده است.

دلایل اصلی ايندکس نشدن صفحات

حالا میرسيم به مهم ترين بخش مقاله؛ جايی که بايد مثل يک دکتر سئو، علت اصلی بيماری را تشخيص بدهی. عدم ايندکس شدن معمولا از سه دسته مشکل ريشه میگيرد:

مشکلات فنی (Technical، تکنیکال) مثل خطای سرور، ريدایرکت های اشتباه، robots.txt و…
مشکلات ساختاری (Structural، معماری اطلاعات و ساختار لينک ها)
مشکلات محتوايی (Content، کيفيت و ارزش محتوا)

در ادامه، تک تک سناريوهای مهم را مرور ميکنيم تا بتوانی خودت روی سايتت آنها را پيدا و رفع کنی.

پیکربندی نادرست دامنه و URL: يکی از ريشه ای ترين مشکلات، شيوه پيكربندی دامنه و URL هاست. سناريوهای زير در بسياری از سايت ها ديده ميشود:
HTTP و HTTPS هر دو در دسترس هستند: يعنی هم نسخه http://example.com و هم نسخه https://example.com باز میشوند و شايد هر دو محتوا را نشان بدهند.
نسخه www و non-www همزمان فعال هستند: مثلا هم http://www.example.com و هم http://example.com کار ميکنند و به صورت جداگانه در دسترسند.
صفحه هم با /index.php و هم بدون آن باز ميشود: يعنی دو آدرس مختلف در عمل يک محتوا را نشان میدهند.
IP سرور هم همان سايت را نشان ميدهد: مثلا با وارد کردن 123.45.67.89 هم به همان سايت ميرسی.

نتيجه اين آشفتگی اين است که:

لينک ها و سيگنال ها بين چند نسخه مختلف از يک صفحه پخش ميشوند، کانونيکال ها (Canonical ، تگی که نسخه اصلی را مشخص ميکند) قاطی ميشوند و گوگل نميفهمد کدام نسخه «نسخه اصلی» است و بعضی نسخه ها اصلا وارد ايندکس نميشوند يا به صورت تکراری Excluded میشوند.

چک ليست سريع برای پیکربندی صحيح:

فقط يک نسخه اصلی برای سايت انتخاب کن (مثلا https + non-www) و بقيه را فرعی در نظر بگير.
تمام نسخه های ديگر (http، www، IP و…) را با ريدایرکت 301 (Redirect 301 ، انتقال دائمی) به نسخه اصلی منتقل کن.
در تگ Canonical، هميشه آدرس همان نسخه اصلی را قرار بده تا برای گوگل واضح باشد کدام URL مرجع است.
در سرچ کنسول، هم نسخه https را ثبت کن و هم Domain Property (مالکيت دامنه) را، اما استراتژی سئو و لينک سازی را بر اساس همان نسخه اصلی بچين.

مثال ساده:
فرض کن يک کاربر با موبايل وارد http://www.example.com ميشود و کاربر ديگر وارد https://example.com. اگر همه اين مسيرها در نهايت به https://example.com ختم شوند، هم کاربر گيج نميشود، هم برای گوگل يک سيگنال شفاف وجود دارد.

وجود تگ noindex يا X-Robots-Tag

بعضی وقت ها ما خودمان به گوگل ميگوييم: «لطفا اين صفحه را ايندکس نکن!» و بعد يادمان ميرود اين دستور را برداريم. اين دستور يا از طريق متا تگ robots (Meta Robots Tag) در HTML يا از طريق X-Robots-Tag در هدر سرور اعمال ميشود.

متا robots (noindex / nofollow)

در بخش <head> صفحه اگر چيزی شبيه اين کد باشد: <meta name=”robots” content=”noindex, nofollow”>
معنایش اين است که ربات های جستجو (مثل گوگل) بايد صفحه را ايندکس نکنند و لينک های آن را هم دنبال نکنند. گوگل هم معمولا با احترام کامل به اين دستور عمل ميکند و صفحه را وارد ايندکس نميکند.

يک مشکل بسيار رایج اين است که:

توسعه دهنده در مرحله تست يا روی سايت استيج (نسخه آزمايشی) روی کل سايت يا برخی بخش ها noindex ميگذارد، بعد از لانچ، فراموش ميکند اين دستور را بردارد، و ماه ها يا سال ها سايت با noindex به حيات خود ادامه ميدهد بدون اينکه صاحب سايت بفهمد.

X-Robots-Tag برای PDF و فايل های غير HTML

علاوه بر متا تگ، سرور ميتواند از طريق هدر HTTP دستور noindex بدهد. مثلا: X-Robots-Tag: noindex

اين روش برای مديريت فايل های PDF، فايل های زيپ، و ساير فرمت های غير HTML رايج است. اگر اين هدر به اشتباه به پوشه يا فايل های زيادی اعمال شود، ممکن است تعداد زيادی URL به شکل ناخواسته از ايندکس خارج شوند.

دستورات ديگر (noarchive، nosnippet و …)

دستورات ديگری هم در Meta Robots يا X-Robots-Tag استفاده ميشود، مثل:

noarchive (عدم نمايش نسخه کش شده صفحه)
nosnippet (عدم نمايش خلاصه متن زير عنوان در نتايج)
noimageindex (عدم ايندکس شدن تصاوير)

اينها مستقيما جلوی ايندکس شدن صفحه را نميگيرند، اما اگر اشتباه استفاده شوند، ظاهر نتيجه را خراب ميکنند، CTR (Click Through Rate، نرخ کليک) را کم ميکنند و ميتوانند تجربه کاربر را بدتر کنند.

کار عملی برای پيدا کردن noindex های ناخواسته:

با Google Search Console يا ابزارهايی مثل Screaming Frog (اسکريمينگ فراگ ، ابزار کراول سايت) يک اسکن کامل انجام بده.
ببين چند صفحه Meta Robots با مقدار noindex دارند.
خيلی وقت ها مشکل عدم ايندکس از همين جا شروع ميشود و فقط با حذف يک دستور اشتباه حل ميشود.

بلاک شدن توسط robots.txt

فایل robots.txt مثل يک تابلو «ورود ممنوع» برای ربات هاست. اين فايل در ريشه سايت قرار دارد و به ربات ها ميگويد کدام مسيرها را ميتوانند Crawl کنند و کدام ها را نه.

اگر اشتباه بنويسی:
User-agent: *
Disallow: /

يعنی به تمام ربات ها گفته ای: «به هيچ صفحه ای از اين سايت سر نزنيد.» در نتيجه، کل سايت برای Crawl بلاک ميشود و هيچ صفحه جديدی وارد ايندکس نخواهد شد. يا مثلا: Disallow: /blog/

و بعد همه مقالات وبلاگت ايندکس نميشوند، چون ربات اصلا اجازه خزش آنها را ندارد.

نکته مهم اين است که: اگر يک صفحه در robots.txt بلاک شود، گوگل حق Crawl کردن آن را ندارد، اما اگر از قبل در ايندکس بوده، ممکن است همچنان در نتايج با عنوان نشان داده شود ولی بدون نمايش محتوا (حالت Indexed but blocked).

چطور تست کنی که robots.txt مشکل دارد يا نه؟

از ابزار Robots Tester در سرچ کنسول برای يک URL خاص استفاده کن.
ببين دستورهای Disallow (ممنوعيت) شامل مسير آن URL ميشوند يا نه.
اگر ببينی صفحه ای که بايد ترافيک بياورد توسط robots بلاک شده، بايد فوری دستور را اصلاح کنی.

خطاهای سرور (HTTP Status Errors)

هر بار که ربات گوگل برای Crawl کردن يک صفحه به سرور تو درخواست ميفرستد، يک کد وضعيت HTTP ( کد پاسخ سرور) دريافت ميکند. اگر اين کد به طور مداوم چيزی غير از 200 باشد، گوگل کم کم اعتمادش را به آن URL از دست ميدهد و احتمال ايندکس شدن آن به شدت کاهش پيدا ميکند.

کدهای مهم HTTP

200 ، OK (موفق): يعنی صفحه سالم است، محتوا لود شده و همه چيز برای ايندکس شدن آماده است.
301 / 302 ، Redirect (انتقال): يعنی اين URL به آدرس ديگری منتقل شده. 301 انتقال دائمی است و 302 موقت. اين کدها برای مديريت نسخه ها و URL های قديمی استفاده ميشوند.
404 ، Not Found (يافت نشد): يعنی صفحه وجود ندارد يا حذف شده. اگر طولانی مدت 404 بماند، گوگل آن را به مرور از ايندکس حذف ميکند.
410 ، Gone (حذف شده): يعنی صفحه عمدا و برای هميشه حذف شده است. اين کد به گوگل ميگويد سريع تر آن را از ايندکس حذف کند.
500 / 503 ، Server Error (خطای داخلی سرور يا سرويس موقت در دسترس نيست): اگر موقتی باشد، مشکلی نيست؛ اما تکرار اين کدها نشان ميدهد سرور قابل اعتماد نيست و ميتواند باعث کاهش Crawl و ايگنور شدن صفحه شود.

Timeout، هاست ضعيف، قطعی سرور

اگر سرور دير جواب بدهد (Timeout، تمام شدن زمان انتظار) يا در حين پاسخ دادن قطع شود، از ديد گوگل اين سايت برای خزش «گران» و کم ارزش است. برای سايت های بزرگ، استفاده از هاست ارزان و ضعيف واقعا ميتواند ايندکس را فلج کند، چون ربات ها هر بار با خطا يا تاخير مواجه ميشوند.

نبود CDN برای وبسايت های بين المللی

اگر مخاطب های سايتت از نقاط مختلف دنيا هستند و گوگل هم از ديتا سنترهای مختلف به سايت سر ميزند، استفاده از CDN (Content Delivery Network، شبکه توزيع محتوا) کمک ميکند محتوا از نزديک ترين سرور به ربات و کاربر ارائه شود. اين کار هم سرعت لود صفحه را بهتر ميکند، هم تجربه Crawl را بهبود ميدهد و در نتيجه روی احتمال ايندکس شدن اثر مثبت دارد.

جدول سريع وضعيت کدها و اثرشان روی ايندکس:

کد وضعيت اثر روی ايندکس
200 موفق امکان ايندکس کامل و سالم
301/302 ريدایرکت ايجاد کانونيک جديد يا انتقال به مقصد جديد
404 يافت نشد به مرور از ايندکس حذف ميشود
410 حذف شده حذف سريع تر از ايندکس
500/503 خطای سرور اگر تکرار شود، کاهش Crawl و ناديده گرفتن صفحه

ريدایرکت های اشتباه: ريدایرکت (Redirect، انتقال کاربر و ربات از يک URL به URL ديگر) اگر درست استفاده شود، ابزار فوق العاده مفيدی است؛ اما اگر اشتباه پياده سازی شود، ميتواند مستقيما روی ايندکس شدن تاثير منفی بگذارد.

Redirect Chain (زنجيره ريدایرکت): وقتی يک URL به دومی، دومی به سومی، سومی به چهارمی و… ريدایرکت شود، به اين حالت ميگوييم زنجيره ريدایرکت. در اين سناريو:

کاربر ممکن است تاخير زيادی در لود صفحه نهايی تجربه کند،
ربات گوگل هم ممکن است تصميم بگيرد اين زنجيره را تا انتها دنبال نکند.
معمولا گوگل زنجيره های طولانی را ناديده ميگيرد يا فقط بخشی از آنها را دنبال ميکند، که اين موضوع ميتواند باعث شود صفحه مقصد هرگز به شکل مطلوب ايندکس نشود.

Redirect Loop (حلقه ريدایرکت)

در حلقه ريدایرکت، URL ها به صورت دوری همديگر را به هم پاس ميدهند؛ مثلا: A به B ريدایرکت ميشود، B دوباره به A برميگردد.
نتيجه اين است که صفحه عملا هرگز لود نميشود و ربات گوگل هم بعد از چند بار تلاش تسليم ميشود. اين حالت برای ايندکس کاملا مخرب است.

ريدایرکت به صفحه غيرمرتبط

يک اشتباه رایج ديگر اين است که: همه خطاهای 404 را به صفحه اصلی سايت ريدایرکت ميکنند. يا هر URL بی ربطی را بدون منطق کاربری به يک صفحه مهم هدايت ميکنند. از ديد گوگل اين حرکت «کاربر محور» نيست؛ چون کاربری که دنبال صفحه X بوده، ناگهان سر از صفحه اصلی يا صفحه Y در مياورد و محتوا برايش بی ارتباط است. در اين حالت، گوگل ممکن است هم به URL مبدا و هم به مقصد بي اعتماد شود و در نهايت روی ايندکس و رتبه اثر منفی بگذارد.

مشکلات بودجه خزش (Crawl Budget)

برای سايت های کوچک، معمولا زياد نيازی نيست به Crawl Budget فکر کنی، اما برای سايت های متوسط و بزرگ (فروشگاه ها، پورتال ها، سايت های محتوايی حجيم)، موضوع بودجه خزش کاملا جدی است.

بودجه خزش يعنی چه؟ به زبان ساده، بودجه خزش يعنی: گوگل حاضر است در هر بازديد، چند تا صفحه از سايتت را Crawl کند و هر چند وقت يک بار به سراغت بيايد؟

اگر سايتت:

هزاران صفحه کم ارزش دارد (آرشيوهای زيادی، برچسب های تکراری، فيلترهای ساختگی و…)
لينک داخلی ضعيفی دارد و گوگل مدام در بن بست می افتد،
نقشه سايت درست تنظيم نشده،
و robots.txt روی بخش های مهم محدوديت اشتباه گذاشته،

نتيجه اين ميشود که:

صفحات مهم دير کشف ميشوند،
يا بارها Crawl به تعويق می افتد،
و در نهايت بعضی صفحات کليدی يا خيلی دير ايندکس میشوند يا اصلا نميشوند.

مديريت Crawl Budget يعنی تمیز کردن صفحات اضافی، تقويت لينک داخلی و کمک کردن به گوگل برای اينکه به جای وقت تلف کردن روی صفحات بی ارزش، روی صفحات مهم و استراتژيک تو تمرکز کند.

محتوای کم ارزش يا بی کيفيت (Thin Content)

يک قانون نانوشته در گوگل وجود دارد: «اگر صفحه برای کاربر ارزشی نداشته باشد، برای گوگل هم ارزشی ندارد.» صفحه ای که فقط دو خط متن دارد، تيترش کلی و مبهم است، هيچ پاسخی جدی به نيت جستجو نميدهد و فقط برای پر کردن سايت نوشته شده، چرا بايد ايندکس شود؟

نمونه های رایج Thin Content:

صفحه های دسته بندی که فقط يک جمله خیلی کوتاه دارند و توضيحی درباره محصولات يا ساختار دسته نميدهند.
صفحه محصولی که فقط يک عکس و يک قيمت دارد بدون هيچ اطلاعات فنی، ويژگی، راهنما یا مقايسه.
مقاله بلاگ که 200 کلمه نوشته شده و نه ساختار دارد، نه منبع، نه عمق و نه پاسخ واقعی به نياز کاربر.

گوگل در سال های اخير، مخصوصا بعد از آپديت Helpful Content Update (آپديت محتوای مفيد)، حساسيتش نسبت به صفحات کم ارزش چند برابر شده. اگر صفحه ات Thin باشد، معمولا با برچسب:

Crawled ، currently not indexed (کراول شده، اما گوگل ارزش ايندکس نديده) وارد بخش Excluded ميشود.

محتوای تکراری (Duplicate Content)

گوگل عاشق محتوايی است که «جدید» و «مفيد» باشد. اگر چند صفحه با محتوای تکراری يا شديدا مشابه داشته باشی، گوگل مجبور ميشود فقط يکی را انتخاب و بقيه را کنار بگذارد.

الف) تکرار داخلی (Internal Duplicate): اين حالت در بسياری از سايت های فروشگاهی اتفاق ميافتد:

چند URL مختلف که فقط ترتيب محصولاتشان فرق دارد
صفحه های فيلتر که محتوای يکسان دارند
کپی کردن متن يک محصول در چند دسته مختلف
ساختن چند لندينگ با محتوای يکسان برای کلمات مشابه

در اين حالت، گوگل دچار سردرگمی میشود: کدام صفحه واقعا بايد در ايندکس باشد؟

ب) تکرار خارجی (External Duplicate): اين زمانی اتفاق می افتد که:

يک محتوا را از سايت ديگری کپی کرده باشی
يک ترجمه صرفا ماشينی يا بدون ارزش افزوده ارائه داده باشی
محتوای لاغر و بدون تحليل نوشته باشی که قبلا هزار بار در سايت های ديگر تکرار شده

گوگل در اين حالت تشخيص ميدهد که صفحه چيز جديدی ارائه نميدهد و آن را کنار ميگذارد.

پ) Canonical اشتباه: تگ Canonical (کانونيکال یعنی اعلام نسخه اصلی صفحه) در واقع به گوگل ميگويد: «اگر اين صفحه شبيه صفحه ديگری است، آن يکی نسخه اصلی است.» اگر اشتباه تگ بگذاری، مثلا روی صفحه مهمی بنويسی که نسخه اصلی جاي ديگر است، در واقع داری به گوگل دستور ميدهی: «اين صفحه را در ايندکس نگه ندار!»

نتيجه چه ميشود؟ صفحه مهمت يا ايندکس نميشود، يا در Excluded قرار ميگيرد.

ج) صفحات يتيم (Orphan Pages): صفحه يتيم صفحه ای است که هيچ لينک داخلی از هيچ بخش سايت به آن داده نشده. در واقع برای گوگل اين صفحه مثل يک خانه در دل بيابان است؛ تا کسی آدرس ندهد، پيدا نميشود.

گوگل چطور ميتواند يک صفحه يتيم را کشف کند؟

از طريق نقشه سايت XML
از طريق بک لينک خارجی
از طريق آدرس های قبلا شناخته شده
اما اگر هيچ کدام نباشند، صفحه ممکن است هرگز کراول نشود.

روش عملی برای پيدا کردن صفحات يتيم: با ابزار کراول (مثل Screaming Frog يا Sitebulb)، ليست صفحه هايی را استخراج کن که فقط از طريق لينک داخلی کشف شده اند.

ليست URL های نقشه سايت XML را استخراج کن

اين دو ليست را با هم مقايسه کن.

هر URLی که در Sitemap باشد ولی در Crawl داخلی نباشد، احتمال زياد Orphan Page است.
صفحات يتيم معمولا يا اصلا ايندکس نمیشوند، يا خيلی دير و با ارزش بسيار کم.
مشکلات جاوااسکريپت و رندر (JavaScript Rendering Issues)
سايت های مدرن، مخصوصا سايت هايی که با فريم ورک های JavaScript مثل React، Vue، Next ساخته میشوند، محتوای صفحه را هنگام بارگذاری توليد ميکنند. اگر اين فرآيند درست پياده سازی نشود، گوگل فقط اسکلت خالی را میبيند، نه محتوای واقعی را.

نمونه مشکلات رایج:

محتوا بعد از Render يا بعد از اسکرول لود میشود ولی گوگل به مرحله رندر نميرسد.
جاوااسکريپت بلاک است و ربات نميتواند آن را اجرا کند.
عکس ها و متن ها Lazy Load شده اند ولی نسخه HTML جايگزين ندارند.
منوی اصلی فقط با JavaScript توليد میشود و برای گوگل لينک HTML استاندارد وجود ندارد.

ابزار ضروری:

در Search Console، روی URL Inspection برو، و بخش های:

View Crawled Page (مشاهده نسخه کراول شده)
Test Live URL (تست لحظه ای)

را بررسی کن تا ببينی گوگل واقعا چه چيزی را میبيند. اين ابزار در سايت های JavaScript محور نجات دهنده است.

مشکلات طراحی سايت و ناوبری ضعيف (Poor Site Architecture)

اگر معماری اطلاعات سايتت نامنظم باشد، گوگل هم مثل کاربر در آن گم میشود. طراحی ساختار سايت فقط برای UX نيست؛ بلکه يک ستون مهم برای ايندکس است.

علائم معماری ضعيف:

منوهای چند سطحی بی منطق و نامفهوم
وجود دسته بندی های تکراری، مبهم يا اضافه
نداشتن صفحات پيلار (Pillar Pages ، صفحات مادر برای موضوعات اصلي)
استفاده از JS برای ناوبری به جای لينک HTML استاندارد

سايتی که معماری خوبی دارد مثل يک کتابخانه منظم است؛ گوگل به راحتی ميفهمد:

هر موضوع کجا قرار دارد،
چه چيزی زيرمجموعه چيست،
و کدام صفحات مهم تر و مرکزی هستند.

مشکل بعد از مهاجرت به HTTPS

مهاجرت به HTTPS اگر درست انجام نشود، میتواند به کابوس ايندکس تبديل شود. خطاهای رایج:

لينک های داخلی هنوز به نسخه HTTP اشاره میکنند.
Sitemap هنوز نسخه HTTP را نشان ميدهد.
کانونيکال ها آپديت نشده اند و به صفحات قديمی اشاره دارند.

Mixed Content: وقتی سيگنال ها متناقض باشند، گوگل نميفهمد نسخه اصلی کدام است و بعضی صفحات ايندکس نميشوند يا مدام Excluded میشوند.

مناسب نبودن سايت برای موبايل (Mobile First Indexing): گوگل چند سالی است که به صورت Mobile First Indexing کار ميکند؛ يعنی نسخه موبايل صفحه شاخص اصلی برای تحليل و ايندکس است.

مشکلات رایج:

محتوا در دسکتاپ کامل است، ولی در نسخه موبایل نصفش مخفی يا حذف شده.
منوی موبایل لينک به بعضی صفحات مهم ندارد.
فونت ها يا دکمه ها آنقدر ريزند که کاربر نمیتواند تعامل خوبی داشته باشد.
ساختار صفحه در موبايل به هم ريخته و گوگل نميفهمد چه چيزی اولویت دارد.

ابزارهای مفيد:

Mobile Friendly Test
گزارش Experience (تجربه صفحه) در سرچ کنسول.
اگر نسخه موبایل ضعيف باشد، صفحه حتی اگر کامل و عالی باشد، ممکن است ايندکس نشود يا ارزشش کاهش پيدا کند.
صفحاتی که نبايد ايندکس شوند

يک نکته بسيار مهم و حرفه ای: هر صفحه ای که در سايت هست، لزوما نبايد در گوگل ايندکس شود.

نمونه صفحاتي که نبايد ايندکس شوند:

صفحه ورود، ثبت نام، يا پنل کاربری
سبد خريد و صفحه پرداخت
صفحه موفقيت خريد
صفحات فيلتر فروشگاهی
نسخه های تکراری که کانونيکال دارند
صفحات تست يا پيش نويس
اين صفحات اگر به درستی مديريت شوند (با noindex يا canonical)، کاملا سالم هستند و حتی کمک ميکنند بودجه خزش هدر نرود.

مشکل زمانی پيش مي آيد که:

صفحات مهم به اشتباه noindex شده باشند،
صفحات بی ارزش آزاد رها شده باشند و گوگل روی آنها وقت تلف کند.

راه حل های سريع و عملی برای رفع مشکل عدم ايندکس

بیاید باهم یکسری راه حل برای مشکل ایندکس نشدن را بررسی کنیم:

الف) اصلاح محتوا (تقويت صفحات Thin Content)

هر صفحه بايد يک نيت جستجوی مشخص را پوشش بدهد.
به جای ده صفحه ضعيف، دو صفحه قوی و کامل داشته باش.

مثال: به جای ۱۰ مقاله ۳۰۰ کلمه ای، دو مقاله ۲۰۰۰ کلمه ای که مفيد و ساختارمند باشند.

ب) بهينه سازی تکنیکال (سرور، سرعت، ريدایرکت ها)

هاست مطمئن تری انتخاب کن.
ريدایرکت های زنجيره ای را حذف کن.
از ابزار PageSpeed Insights برای پيدا کردن، استفاده کن.

پ) بهبود لينک سازی داخلی و معماری اطلاعات

برای هر موضوع اصلی، يک صفحه پيلار بساز.
از صفحات معتبر به صفحات جديد لينک بده.
Breadcrumb و منو را منطقی تنظيم کن.

ج) رفع مشکلات robots و noindex

robots.txt را خط به خط چک کن.
صفحات مهم نبايد noindex باشند.
صفحات سيستمی يا تکراری را با noindex مديريت کن.

چ) استفاده درست از نقشه سايت XML

فقط URL های 200 و کانونيکال را در Sitemap بگذار.
URL های noindex، ريدایرکت شده يا 404 را حذف کن.
بعد از تغييرات مهم، Sitemap را آپديت کن.

د) استفاده از Request Indexing و Validate Fix

برای صفحات تازه اصلاح شده، Request Indexing بزن.
برای خطاهای دسته جمعی، Validate Fix بزن تا گوگل سريع تر چک کند.

ه) سرويس های پينگ و ابزارهای خارجی: ابزارهايی مثل Pingomatic ممکن است کمک کنند صفحات جديد سريع تر ديده شوند، معجزه نمیکنند، ولی مکمل خوبی هستند.

ن) استفاده از شبکه های اجتماعی برای کشف سريع تر: هر زمان URL جديد را در شبکه های اجتماعی منتشر کنی و کاربران روی آن کليک کنند، احتمال کشف و Crawl سريع تر بالا ميرود.

م) انتشار منظم و مستمر محتوا: سايتی که ماهی يک بار آپديت میشود، برای گوگل جذاب نيست؛ انتشار منظم محتوا باعث میشود گوگل بيشتر سر بزند.

ی) تقويت سيگنال های اعتماد دامنه (Domain Trust Signals)

بک لينک طبيعی
برند منشن
رفتار خوب کاربران (Dwell Time و Engagement)
هر چه اعتماد دامنه بيشتر باشد، بودجه خزش بيشتر و سرعت ايندکس بالاتر ميرود.

دلايل دير ايندکس شدن

گاهی مشکل اين نيست که صفحه ايندکس نميشود، مشکل اين است که خيلی دير وارد ايندکس میشود. دلایل رایج:

سايت تازه تاسيس: هنوز برای گوگل مهم نيستی، زمان لازم داری.
آپديت کم: اگر ماهی يک بار محتوا عوض شود، گوگل هم کمتر سر ميزند.
Sitemap ناقص: اگر URL های جديد در Sitemap نباشند، کشفشان دير میشود.
URL های پيچيده: آدرس های طولانی و پر از پارامتر باعث سردرگمی ربات میشود.
هاست کند: Crawl را سخت و گران ميکند. در واقع هاست بسیار مهم است.
محتوای ضعيف: اگر صفحات قبلی مفيد نبوده اند، گوگل انگيزه ای برای عجله ندارد.

چک ليست کامل ايندکس گذاری قبل از انتشار صفحه

اين بخش مثل يک «چک ليست اضطراری» است؛ هر وقت خواستی صفحه جديدی منتشر کنی، کافی است اين موارد را مرور کنی تا مطمئن شوی گوگل از همان ابتدا مسير درستی برای ايندکس دارد. هر کدام از اين موارد يک مانع واقعی جلوی ايندکس را برمیدارد.

1. آيا URL خوانا و بدون پارامترهای اضافه است؟
آدرس های طولانی، پر از اعداد يا پارامترهای عجيب (?ref=123&sort=xyz) برای گوگل مثل يک آدرس نامنظم و نامطمئن هستند. URL بايد ساده، قابل خواندن و مرتبط با موضوع باشد.

2. آيا صفحه استاتوس 200 برمیگرداند؟
قبل از انتشار، صفحه را در مرورگر تست کن. اگر ارورهای عجيب يا لود ناپايدار ديدی، همانجا مشکل را رفع کن. گوگل برای ايندکس شدن، به پاسخ 200 نياز دارد.

3. متا robots روی index, follow است؟
اگر حتی اشتباهی کوچک در اين تگ باشد، صفحه اصلا وارد ايندکس نمیشود. عبارت noindex يا nofollow بايد فقط در صفحاتی باشد که نمیخواهی در نتايج ديده شوند.

4. کانونيکال درست است و به خود صفحه اشاره میکند؟
اگر canonical به URL ديگری اشاره کند، داری به گوگل میگويی: «اين صفحه نسخه اصلی نيست.» در اين صورت، گوگل آن را ايندکس نمیکند.

5. آيا صفحه حداقل يک لينک داخلی از بخش مهمی از سايت دارد؟
صفحه ای که صفر لينک داخلی دارد، برای گوگل تقريبا نامرئی است. يک لينک از منو، صفحه مادر، يا يک پيلار میتواند تفاوت بزرگ ايجاد کند.

6. آيا صفحه در ساختار دسته بندی جاي منطقی دارد؟
اگر صفحه در يک ساختار تمیز و منطقی قرار نگرفته باشد، گوگل نمیفهمد موضوعش چيست و به چه چيز مربوط است.

7. آيا محتوا کامل است يا نيمه کاره منتشر شده؟
صفحه نيمه کاره معمولا به عنوان Thin Content شناخته میشود و وارد ايندکس نمیشود. محتوا بايد حداقل يک پاسخ مشخص بدهد.

8. آيا صفحه برای يک نيت جستجوی مشخص نوشته شده؟
اگر صفحه نمیداند دقيقا برای چه جستجويی ساخته شده، گوگل هم نمیداند.

9. Heading ها (H1 ، H2 ، H3) منظم و قابل درک هستند؟
تيترهای نامنظم باعث میشود گوگل موضوع صفحه را اشتباه برداشت کند.

10. نسخه موبایل از نظر محتوا و ساختار کامل است؟
در Mobile First Indexing، نسخه موبایل مرجع اصلی است. اگر در موبایل محتوا حذف شده يا ساختار به هم ريخته باشد، ايندکس تحت تاثير قرار میگيرد.

11. آيا این صفحه از نوع صفحاتی است که باید در گوگل دیده شود؟
صفحات ورود، سبد خرید، صفحه پرداخت و… نباید ايندکس شوند. مطمئن شو اين صفحه، جزو صفحات «مفید برای جستجو» است.

12. در Sitemap قرار میگیرد یا گرفته؟
اگر صفحه در نقشه سايت نباشد، کشفش ديرتر اتفاق می افتد.

13. آيا ريدایرکت غيرضروری روی اين URL وجود ندارد؟
URL نبايد مسير پيچيده داشته باشد. يک ريدایرکت اشتباه میتواند خزش را قطع کند.

14. CSS و JS مورد نياز در robots بلاک نشده اند؟
اگر بلوک شده باشند، گوگل نمي تواند صفحه را درست رندر کند.

15. اگر اين صفحه جايگزين صفحه قديمی است، ريدایرکت 301 از نسخه قبلی انجام شده؟
اگر نه، سيگنال ها پخش میشوند و گوگل نمیفهمد نسخه اصلی کدام است. اگر بيشتر اين سوال ها پاسخ «بله» بگيرد، شانس ايندکس سريع و سالم صفحه بسيار بالا خواهد بود.

نتيجه گيری

عدم ايندکس شدن يک صفحه، هرگز يک اتفاق تصادفی نيست. هميشه پشت اين رفتار گوگل يک دليل فنی، ساختاری يا محتوایی وجود دارد. وقتی حرفه ای به مسئله نگاه کنی، میبينی اين مشکل معمولا از يکی از اين سه دسته بيرون می آيد:

مشکل فنی: سرور، ريدایرکت، robots.txt، noindex، خطاهای جاوااسکريپت، خطاهای 5xx
مشکل ساختاری: معماری اطلاعات، لينک داخلی کم، Crawl Budget کم، URL های پخش و پلا
مشکل محتوايی: محتوای کم عمق، تکراری، ناقص، بی ارزش، يا بی ربط به نيت کاربر

وقتی یاد بگیری، مسائل سایتت را حل کنی آن وقت «ايندکس نشدن» از يک موضوع مبهم و عصبی کننده، تبديل میشود به يک فرآيند قابل مديريت و حتی قابل پيش بينی، و اين، نقطه ای است که سئو از يک «حدس و گمان» تبديل میشود به يک «ماشين قابل اعتماد».

درصورت داشتن سوال یا بودن ابهام در مقاله در کامنت ها برام بنویسید؛ خیلی سریع به سوالات شما پاسخ میدهیم “ارادتمند شما ویکی دمی”

نرم‌افزار Adobe Photoshop

نرم‌افزار Adobe Photoshop

نرم‌افزار Adobe Photoshop

نرم‌افزار Adobe Photoshop

چرا صفحات سایت در گوگل ایندکس نمیشوند؟ دلایل عدم ایندکس

چرا عدم ايندکس بزرگ ترين تهديد سئو است؟

حالا اصلا ايندکس شدن يعنی چی؟

تفاوت خزش و ايندکس و رنکينگ

گوگل چطور صفحات را کشف، خزيده و ايندکس ميکند؟

مسير کامل ايندکس گذاری از ديد گوگل

چطور بفهميم صفحه ايندکس شده يا نه؟

تفاوت «ايندکس نشده» با «ايندکس شده ولی رتبه ندارد»

گزارش ايندکس در سرچ کنسول

گزارش Indexing: صفحات Valid، Excluded، Error

استفاده از Validate Fix برای ریکاوری صفحات مشکل دار

دلایل اصلی ايندکس نشدن صفحات

چک ليست سريع برای پیکربندی صحيح:

وجود تگ noindex يا X-Robots-Tag

متا robots (noindex / nofollow)

X-Robots-Tag برای PDF و فايل های غير HTML

دستورات ديگر (noarchive، nosnippet و …)

کار عملی برای پيدا کردن noindex های ناخواسته:

بلاک شدن توسط robots.txt

چطور تست کنی که robots.txt مشکل دارد يا نه؟

خطاهای سرور (HTTP Status Errors)

کدهای مهم HTTP

Timeout، هاست ضعيف، قطعی سرور

نبود CDN برای وبسايت های بين المللی

Redirect Loop (حلقه ريدایرکت)

ريدایرکت به صفحه غيرمرتبط

مشکلات بودجه خزش (Crawl Budget)

محتوای کم ارزش يا بی کيفيت (Thin Content)

محتوای تکراری (Duplicate Content)

گوگل چطور ميتواند يک صفحه يتيم را کشف کند؟

ليست URL های نقشه سايت XML را استخراج کن

نمونه مشکلات رایج:

ابزار ضروری:

مشکلات طراحی سايت و ناوبری ضعيف (Poor Site Architecture)

مشکل بعد از مهاجرت به HTTPS

راه حل های سريع و عملی برای رفع مشکل عدم ايندکس

دلايل دير ايندکس شدن

چک ليست کامل ايندکس گذاری قبل از انتشار صفحه

دسته بندی‌ها:

آنچه در این مقاله میخوانید

خبرنامه

دیدگاه شما

دیدگاهتان را بنویسید لغو پاسخ

آخرین وبلاگ‌ها

درباره بلاگینا

دوره های آموزشی

تلویزیون

خبرنامه