6 خطای رایج robots.txt، تأثیری که می‌ توانند بر وب‌سایت شما و جستجوی شما داشته باشند و نحوه رفع آن‌ ها را در این مقاله بیاموزید.

Robots.txt یک ابزار مفید و نسبتا قدرتمند برای آموزش خزنده های موتور های جستجو در مورد نحوه خزیدن وب سایت شما است.

این ابزار همه کاره نیست (به قول خود گوگل، “مکانیسمی برای دور نگه داشتن یک صفحه وب از گوگل نیست”) اما می تواند به جلوگیری از بارگیری بیش از حد سایت یا سرور شما توسط درخواست های خزنده کمک کند.

اگر این بلوک خزیدن را در سایت خود دارید، باید مطمئن شوید که به درستی از آن استفاده می شود.

اگر از URL های پویا یا روش های دیگری استفاده می کنید که از نظر تئوری تعداد بی نهایت صفحه تولید می کنند، این امر به ویژه مهم است.

در این مقاله، ما به برخی از رایج‌ ترین مشکلات مربوط به فایل robots.txt، تأثیری که می‌ توانند بر وب‌سایت و جستجوی شما داشته باشند و اگر فکر می‌ کنید این مشکلات رخ داده‌ اند و چگونه می‌ توان آن‌ها را برطرف کرد، می پردازیم.

اما ابتدا اجازه دهید نگاهی گذرا به robots.txt و جایگزین های آن بیندازیم.

Robots.txt چیست؟

Robots.txt از فرمت فایل متنی ساده استفاده می کند و در فهرست اصلی وب سایت قرار می گیرد.

باید در بالاترین دایرکتوری سایت شما باشد. اگر آن را در یک زیر شاخه قرار دهید، موتور های جستجو به سادگی آن را نادیده می گیرند.

با وجود قدرت زیاد، robots.txt اغلب یک سند نسبتاً ساده است و یک فایل robots.txt اساسی را می توان در عرض چند ثانیه با استفاده از ویرایشگری مانند Notepad ایجاد کرد.

راه های دیگری برای دستیابی به برخی از اهداف مشابهی وجود دارد که robots.txt معمولاً برای آن ها استفاده می شود.

صفحات منحصر به فرد می توانند یک ربات متا تگ در صفحات کد خود داشته باشند.

همچنین می توانید از X-Robots-Tag HTTP header برای تأثیر گذاری بر نحوه (و اینکه آیا) محتوا در نتایج جستجو نشان داده می شود استفاده کنید.

Robots.txt چه کاری می تواند انجام دهد؟

Robots.txt می تواند نتایج مختلفی را در طیفی از انواع مختلف محتوا به دست آورد:

  • صفحات وب را می توان از خزیدن مسدود کرد.

ممکن است همچنان در نتایج جستجو ظاهر شوند، اما شرح متنی نخواهند داشت. محتوای غیر HTML در صفحه نیز خزیده نخواهد شد.

  • فایل های رسانه ای را می توان از نمایش در نتایج جستجوی گوگل مسدود کرد.

این ها شامل تصاویر، ویدئو و فایل های صوتی است.

اگر فایلی عمومی باشد، همچنان به صورت آنلاین «وجود دارد» و می‌ توان آن را مشاهده کرد و به آن لینک داد، اما این محتوای خصوصی در جستجو های گوگل نشان داده نمی‌ شود.

  • سورس فایل هایی مانند اسکریپت های خارجی غیر مهم را می توان مسدود کرد.

اما این بدان معناست که اگر گوگل صفحه‌ای را بخزد که برای بارگیری آن سورس نیاز دارد، ربات Googlebot نسخه‌ای از صفحه را می‌ بیند که گویی آن منبع وجود ندارد، که ممکن است بر ایندکس سازی تأثیر بگذارد.

شما نمی توانید از robots.txt برای جلوگیری از نمایش کامل یک صفحه وب در نتایج جستجوی گوگل استفاده کنید.

برای رسیدن به آن، باید از یک روش جایگزین مانند افزودن متا تگ noindex به سر صفحه استفاده کنید.

خطای robots.txt چقدر خطرناک هستند؟

یک حطا در robots.txt می تواند عواقب ناخواسته ای داشته باشد، اما اغلب این پایان همه چیز نیست.

خبر خوب این است که با تعمیر فایل robots.txt خود، می توانید هر گونه خطا را به سرعت و (معمولا) به طور کامل بازیابی کنید.

راهنمای گوگل به توسعه دهندگان وب در مورد خطا های robots.txt چنین می گوید:

خزنده های وب معمولاً بسیار انعطاف پذیر هستند و معمولاً توسط اشتباهات جزئی در فایل robots.txt تحت تأثیر قرار نمی گیرند. به طور کلی، بدترین اتفاقی که می تواند بیفتد این است که دستورالعمل های نادرست [یا] پشتیبانی نشده نادیده گرفته شوند.

البته به خاطر داشته باشید که گوگل نمی تواند هنگام تفسیر فایل robots.txt ذهن را بخواند. ما باید فایل robots.txt را که بررسی کردیم تفسیر کنیم. با این حال، اگر از مشکلات موجود در فایل robots.txt خود آگاه هستید، معمولاً به راحتی قابل رفع هستند.

6 خطای رایج robots.txt

  • Robots.txt در دایرکتوری روت نیست
  • استفاده ضعیف از وایلدکارت ها
  • Noindex در Robots.txt
  • اسکریپت‌ ها و شیوه نامه ها مسدود شده
  • بدون URL سایت مپ
  • دسترسی به سایت های توسعه

اگر وب سایت شما در نتایج جستجو به طرز عجیبی رفتار می کند، فایل robots.txt شما مکان خوبی برای جستجوی اشتباهات، خطا های نحوی و قوانین بیش از حد است.

بیایید هر یک از اشتباهات بالا را با جزئیات بیشتری بررسی کنیم و ببینیم چگونه می توان از داشتن یک فایل robots.txt معتبر اطمینان حاصل کرد.

رایج ترین خطای robots.txt

1. Robots.txt در دایرکتوری روت نیست

ربات‌ های جستجوگر تنها زمانی می‌ توانند فایل را پیدا کنند که در پوشه روت شما باشد.

به همین دلیل است که باید فقط یک اسلش رو به جلو بین com. (یا دامنه معادل) وب سایت شما و نام فایل ‘robots.txt’ در URL فایل robots.txt شما وجود داشته باشد.

اگر یک زیرپوشه در آن وجود داشته باشد، فایل robots.txt شما احتمالاً برای روبات های جستجوگر قابل مشاهده نیست و احتمالاً وب سایت شما به گونه ای رفتار می کند که گویی اصلاً فایل robots.txt در آن وجود ندارد.

برای رفع این مشکل، فایل robots.txt خود را به دایرکتوری روت منتقل کنید. شایان ذکر است که برای این کار باید به پوشه روت سرور خود دسترسی داشته باشید.

برخی از سیستم‌ های مدیریت محتوا به‌ طور پیش‌ فرض فایل‌ ها را در یک زیرشاخه رسانه (یا چیزی مشابه) آپلود می‌ کنند، بنابراین ممکن است لازم باشد این مورد را دور بزنید تا فایل robots.txt خود را در مکان مناسب قرار دهید.

2. استفاده ضعیف از وایلد کارت ها

Robots.txt از دو کاراکتر wildcard پشتیبانی می کند:

  • ستاره *: که هر نمونه ای از یک کاراکتر معتبر را نشان می دهد، مانند یک جوکر در یک دسته کارت.
  • علامت دلار $: که پایان یک URL را نشان می دهد و به شما امکان می دهد قوانین را فقط در قسمت نهایی URL مانند پسوند نوع فایل اعمال کنید.

منطقی است که یک رویکرد مینیمالیستی برای استفاده از وایلدکارت ها اتخاذ کنید، زیرا آن ها پتانسیل اعمال محدودیت در بخش بسیار وسیع تری از وب سایت شما را دارند.

برای رفع مشکل wildcard، باید علامت نادرست را پیدا کنید و آن را جابجا یا حذف کنید تا فایل robots.txt شما مطابق با خواسته شما عمل کند.

3. Noindex در Robots.txt

این مورد در وب سایت هایی که بیش از چند سال قدمت دارند بیشتر دیده می شود.

گوگل از 1 سپتامبر 2019 از قوانین noindex در فایل های robots.txt پیروی نمی کند.

اگر فایل robots.txt شما قبل از آن تاریخ ایجاد شده باشد یا حاوی دستورالعمل‌ های noindex باشد، احتمالاً آن صفحات را در نتایج جستجوی گوگل ایندکس سازی می‌ کنید.

راه حل این مشکل پیاده سازی روش جایگزین ‘noindex‘ است.

یکی از گزینه ها، متا تگ robots است که می توانید آن را به قسمت هد هر صفحه وب که می خواهید اضافه کنید تا از ایندکس شدن گوگل جلوگیری کنید.

4. اسکریپت ها و شیوه نامه ها مسدود شده

ممکن است منطقی به نظر برسد که دسترسی خزنده به جاوا اسکریپت های خارجی و شیوه نامه های آبشاری (CSS) را مسدود کنید.

با این حال، به یاد داشته باشید که Googlebot برای اینکه صفحات HTML و PHP شما را به درستی «بررسی» کند، نیاز به دسترسی به فایل‌ های CSS و JS دارد.

اگر صفحات شما در نتایج Google به طرز عجیبی رفتار می کنند، یا به نظر می رسد گوگل آن ها را به درستی نمی بیند، بررسی کنید که آیا دسترسی خزنده به فایل های خارجی مورد نیاز را مسدود کرده اید یا خیر.

یک راه حل ساده برای این کار حذف خطی از فایل robots.txt است که دسترسی را مسدود می کند.

یا اگر فایل‌ هایی دارید که باید مسدود کنید، یک استثنا وارد کنید که دسترسی به CSS و جاوا اسکریپت‌ های ضروری را بازیابی می‌ کند.

5. بدون URL نقشه سایت

این بیشتر از هر چیز دیگری در مورد سئو است.

می توانید URL نقشه سایت خود را در فایل robots.txt خود قرار دهید.

از آنجا که این اولین جایی است که Googlebot هنگام خزیدن وب سایت شما به آن نگاه می کند، این به خزنده یک امتیاز در شناخت ساختار و صفحات اصلی سایت شما می دهد.

در حالی که این کاملاً یک خطا نیست، زیرا حذف نقشه سایت نباید بر عملکرد اصلی و ظاهر وب سایت شما در نتایج جستجو تأثیر منفی بگذارد، اگر می‌ خواهید به تلاش‌ های سئوی خود کمک کنید، همچنان ارزش آن را دارد که URL نقشه سایت خود را به robots.txt اضافه کنید.

6. دسترسی به سایت های در حال توسعه

مسدود کردن خزنده‌ ها از وب‌سایت فعال شما یک کار اشتباه است، اما اجازه دادن به آن ها برای خزیدن و فهرست‌ بندی صفحات شما که هنوز در حال توسعه هستند نیز وجود دارد.

بهترین کار این است که یک دستورالعمل غیر مجاز را به فایل robots.txt یک وب سایت در حال ساخت اضافه کنید تا عموم مردم آن را تا زمانی که تمام نشده نبینند.

به همین ترتیب، حذف دستورالعمل عدم اجازه هنگام راه‌ اندازی یک وب‌ سایت کامل، بسیار مهم است.

فراموش کردن حذف این خط از robots.txt یکی از رایج ترین اشتباهات در بین توسعه دهندگان وب است و می تواند کل وب سایت شما را از خزیدن و ایندکس صحیح جلوگیری کند.

اگر به نظر می‌ رسد که سایت توسعه‌ یافته شما ترافیک واقعی دریافت نمی‌ کند، یا وب‌ سایتی که اخیراً راه‌ اندازی کرده‌ اید در جستجو اصلاً خوب عمل نمی‌کند، در فایل robots.txt خود به دنبال user agent disallow بگردید:

User-Agent: *

Disallow: /

اگر این را در زمانی که نباید می‌ بینید (یا زمانی که باید آن را نمی‌ بینید)، تغییرات لازم را در فایل robots.txt خود اعمال کنید و بررسی کنید که ظاهر جستجوی وب‌سایت شما مطابق با آن به‌ روزرسانی شود.

چگونه خطای robots.txt را بازیابی کنیم؟

اگر اشتباهی در robots.txt تأثیرات ناخواسته ای بر ظاهر جستجوی وب سایت شما داشته باشد، اولین قدم مهم این است که robots.txt را تصحیح کنید و تأیید کنید که قوانین جدید تأثیر مطلوب را دارند.

برخی از ابزار های خزیدن سئو می توانند به این امر کمک کنند، بنابراین لازم نیست منتظر بمانید تا موتور های جستجو در سایت شما خزیدن بعدی را انجام دهند.

وقتی مطمئن هستید که robots.txt مطابق دلخواه رفتار می کند، می توانید سعی کنید سایت خود را در اسرع وقت re-crawled کنید. پلتفرم هایی مانند Google Search Console و Bing Webmaster Tools می توانند کمک کنند.

یک نقشه سایت به روز شده ارسال کنید و درخواست خزیدن مجدد هر صفحه ای را که به طور نامناسبی از لیست حذف شده اند، کنید.

متأسفانه شما در انتظار Googlebot باید باشید، هیچ تضمینی وجود ندارد که چقدر طول می کشد تا صفحات مفقود شده دوباره در فهرست جستجوی گوگل ظاهر شوند.

تنها کاری که می توانید انجام دهید این است که اقدامات صحیح را انجام دهید تا آن زمان را تا حد امکان به حداقل برسانید و به بررسی ادامه دهید تا robots.txt ثابت شده توسط Googlebot پیاده سازی شود.

جمع بندی

در مورد خطا های robots.txt قطعاً پیشگیری بهتر از درمان است.

در یک وب‌سایت بزرگ درآمد زا، یک وایلدکارت گمراه کننده که کل وب‌سایت شما را از گوگل حذف می‌ کند، می‌ تواند تأثیر فوری بر درآمدتان داشته باشد.

ویرایش‌ های robots.txt باید با دقت توسط توسعه‌ دهندگان باتجربه انجام شود، دوباره بررسی شود، و – در صورت لزوم – مشروط به نظر دوم باشد.