خطاهای کرال یا Crawl Errors زمانی اتفاق می افتند که موتور جستجو سعی می کند تا به صفحات وب سایت تان دسترسی پیدا کند اما موفق نمی شود. ابتدا بیایید نگاهی به مفهوم کرال کردن (crawling) بیاندازیم. کرال کردن فرآیندی است که موتور جستجو سعی می کند تا صفحات یک وب سایت را توسط یک ربات ببیند. ربات موتور جستجو ابتدا لینکی به وب سایت شما پیدا و سپس شروع به پیدا کردن صفحات عمومی سایت تان می کند. ربات صفحات را کرال می کند و تمام محتوا ها را برای استفاده در گوگل ایندکس می کند، به علاوه تمام لینک های این صفحات را به صفحاتی که هنوز برای کرال کردن وجود دارد، اضافه می کند. هدف اصلی شما به عنوان دارنده سایت این است که مطمئن شوید ربات موتور جستجو بتواند به تمام صفحات سایت شما دسترسی پیدا کند. عدم دسترسی ربات ها به صفحات را خطای کرال می نامیم.

هدف تان باید این باشد که هر لینک مستقیما به یک صفحه در سایت تان وارد شود. ممکن است به وسیله یک دایرکتوری 301 انجام شود اما صفحه در انتهای آن لینک باید همیشه پاسخ OK 200 سرور را برگرداند.

گوگل Crawl Errors ها را به دو دست تقسیم می کند:

  1. Site errors. بدترین اتفاق ممکن، کل سایت تان قابل کرال شدن نیست.
  2. URL errors. همچنین دوست ندارید این اتفاق بیافتد، اما تنها مربوط به یک URL خاص برای هر خطاست، رفع کردن این خطاها آسان تر است.

Site errors یا خطاهای سایت

خطاهای سایت یا خطاهای کرال، مانع ربات های موتور جستجو برای دسترسی به سایت شما می شوند. که می تواند دلایل مختلفی داشته باشد، رایج ترین آن ها:

  • DNS Errors. به این معنی است که موتور جستجو قادر نیست تا با سرور شما ارتباط برقرار کند. ممکن است قطع شده باشد، برای مثال، به این معنی که سایت شما قابل دیدن نیست. این یک مشکل موقتی است. گوگل بعدا به وب سایت شما بر می گردد و دوباره آن را crawl می کند. اگر در Google Search Console در قسمت خطاهای کرال این اخطار را دیدید، احتمالا به این معنی است که گوگل چندین بار سعی کرده است اما موفق نشده است.
  • Server errors. اگر سرچ کنسول شما خطا های سرور را نشان دهد، به این معنی است که ربات نتوانسته است به وب سایت شما دسترسی پیدا کند. ممکن است زمان درخواست منقضی شده است. موتور جستجو سعی کرده است تا سایت شما را ببیند اما بارگیری صفحه آنقدر طول کشیده است که خطای سرور مشاهده شده است. Server errors همچنین زمان هایی اتفاق می افتند که در کد های تان خطاهایی باشد که مانع از لود شدن صفحه می شوند. همینطور به این معنی است که سایت شما بازدید کننده های بسیاری دارد و سرور در آن واحد نمی تواند پاسخ گوی همه آن ها باشد. بیشتر این خطاها به عنوان کد های وضعیت 5XX بازگردانده می شوند، مانند خطای 500 و 503.
  • Robots failure. قبل از کرال کردن، گوگل بات سعی می کند تا فایل robots.txt تان را کرال کند، تا ببیند آیا قسمتی در سایت تان وجود دارد که ایندکس نشده باشد. اگر آن ربات نتواند به فایل robots.txt دسترسی پیدا کند، گوگل کرال کردن را تا زمانی که به فایل robots.txt دسترسی پیدا کند به تاخیر می اندازد. پس همیشه مطمئن شوید که در دسترس است.

این ها بیان کننده قسمت کمی از خطاهای کرال مربوط به کل سایت تان است. حالا بیایید بررسی کنیم چه خطاهایی ممکن است برای صفحات ایجاد شود.

خطای کرال 404

URL errors

همانطور که در بالا گفته شد، خطاهای URL مربوط به خطاهای کرال هستند و زمانی اتفاق می افتند که ربات موتور جستجو سعی می کند تا صفحه خاصی از سایت را کرال کند.

زمانی که درمورد خطاهای URL حرف می زنیم، هدف در ابتدا crawl error هایی مانند 404 Not Found errors هستند. باید به طور مداوم این خطاها را با استفاده از Google Search Console or Bing webmaster tools چک کنید و آن ها را بر طرف کنید.

اگر صفحه یا موضوعی از آن صفحه دیگر وجود ندارد، یک صفحه 410 تنظیم کنید. اگر محتوای یکسانی در صفحه دیگری دارید از دایرکتوری 301 استفاده کنید. مطمئن شوید که نقشه سایت و لینک های داخلی تان به روز هستند.

بسیاری از خطاهای URL به دلیل لینک های داخلی اتفاق می افتند. بنابراین بسیاری از این خطاها تقصیر خودتان هستند. اگر صفحه ای را از سایت تان حذف کنید، لینک های ورودی به آن را تنظیم یا حذف کنید.

این لینک ها استفاده دیگری ندارند. اگر لینک ها باقی بمانند، ربات آن را پیدا و دنبال (follow) می کند، در نهایت به یک بن بست می رسد (404 Not found error). پس باید بر روی لینک های داخلی خود تغییراتی ایجاد کنید.

یکی دیگر از خطاهای رایج “URL ارسال شده” در عنوان است. این خطاها زمانی ظاهر می شوند که گوگل رفتارهای متناقضی را تشخیص دهد. از یک طرف URL را برای ایندکس شدن تایید کرده اید، یعنی به گوگل می گویید:”آره، می خوام این صفحه را برام ایندکس کنی” و از طرف دیگر، چیزدیگری به گوگل گفته می شود:”نه، این صفحه را ایندکس نکن”.

یکی از دلایل محتمل می تواند این باشد که صفحه شما توسط فایل robots.txt تان بلاک شده است یا برای آن صفحه “noindex” به وسیله متا تگ یا عنوان HTTP تنظیم شده است. اگر این خطا های مکرر را رفع نکنید، گوگل دیگر URL شما را ایندکس نمی کند.

در میان این خطا های رایج ممکن است یک خطای DNS یا خطای سرور موقعیتی مربوط به آن URL را ببینید. آن URL را بعدا دوباره چک کنید اگر خطا رفع شده است. مطمئن شوید که با استفاده از Google Search Console، رفع شدن خطاها را علامت گذاری کنید اگر سرچ کنسول تنها ابزار نظارتی شماست.

خطاهای URL بسیار خاص

برخی از خطاهای URL وجود دارند که فقط در سایت های خاص اعمال می شوند. مانند:

  • خطاهای URL خاص موبایل. این مربوط به خطاهای کرالی است که در گوشی های هوشنمد اتفاق می افتد. اگر یک سایت در دسترس دارید، بعید است که چنین خطاهایی اتفاق بیافتد. شاید ممکن است این خطا در اثر جا به جایی تکه ای از محتوا ایجاد شده باشد. یا اگر یک زیر دامنه موبایل متفاوت داشته باشید مانند m.example.com، این خطاها بیشتر ممکن است اتفاق بیافتد. در اثر دایرکتوری های معیوب از حالت دکستاپ به موبایل. حتی ممکن است بعضی از سایت های موبایلی را در فایل robots.txt خود بلاک کرده باشید.
  • خطاهای بدافزاری. اگر با خطاهای بدافزاری (malware) در ابزار مدیریت وب خود روبرو شدید، به این معنی که Bing یا Google نرم افزارهای مخربی را در آن URL پیدا کرده اند. این ممکن است به این معنی باشد که نرم افزاری یافت شده است که مثلاً، در حالا جمع آوری اطلاعات محافظت شده است یا به طور کلی عملکرد آن ها را مختل می کند.
  • خطاهای Google News. خطاهای خاصی در Google News وجود دارد. لیست کاملی از این خطاها در مستندات گوگل وجود دارد، پس اگر سایت شما در Google News قرار دارد، ممکن است با خطاهای کرال مواجه شوید. این ها می توانند شامل نبود عنوان یا نبود هیچگونه محتوای خبری در صفحه باشد. برای خودتان این خطاها را در سایت بررسی کنید.

خطاهای کرال را رفع کنید

اگر با خطاهای کرال موجه شدید، آن ها را بر طرف کنید. این کار باید یکی از برنامه های نگهداری از سایت تان باشد که crawl error ها را به طور مرتب بررسی کنید.