Robots.txt و نحوه استفاده از آن

0 Comments

فایل Robots.txt چیه؟

وظیفه فایل robots.txt محدود کردن دسترسی روباتای گوگل و بقیه موتورهای جستجو به محتویات سایت شماس. این روباتا به شکل به طور کامل خودکار عمل کرده و قبل از ورود به هر سایت یا صفحه ای از وجود فایل robots.txt روی اون و محدود نبودن دسترسی محتوا مطمئن می شن. همه روباتای استاندارد در اینترنت به این قوانین و محدودیتا احترام گذاشته و صفحات شما رو بازدید و ایندکس نمی کنن ولی روباتای اسپم توجهی به این فایل ندارن. اگه تمایل به حفظ امنیت محتوایی خاص و مخفی کردن اون از دید روباتای اینترنتی دارین بهتره از پسورد گذاری صفحات استفاده کنین.

در عمل به کار گیری فایل robots.txt به شما این امکان رو می ده که صفحات سایت رو تنها مختص کاربران اینترنتی طراحی کرده و ترسی از محتوای تکراری، وجود لینکای بسیار در اون صفحه و تاثیر منفی بر سئو سایت نداشته باشین. هم اینکه به شما این امکان رو می ده که صفحات بی ارزش و کم محتوا رو از دید موتورهای جستجو مخفی کنین تا زمان روباتا در سایت شما واسه ایندکس کردن این صفحات هدر نره.

شما تنها زمانیکه قصد محدود کردن روباتای گوگل رو داشته باشین از فایل robots.txt استفاده میکنین و اگه از نظر شما تموم صفحات سایت توانایی و ارزش ایندکس شدن بوسیله گوگل رو داشته باشن احتیاجی به این فایل دارید. حتی قرار دادن یه فایل خالی با همین نام هم لزومی نداره.

واسه قرار دادن یه فایل robots.txt شما باید به هاست دسترسی داشته و اون رو در ریشه اصلی کپی کنین. اگه به هر دلیل دسترسی شما به سرور محدود شده باشه می تونین با قرار دادن تگای متا در هدر صفحه دسترسی روبات به اون رو محدود کنین.

واسه جلوگیری از ورود همه روباتای اینترنتی به صفحه از تگ:

<meta name=”robots” content=”noindex” />

و واسه محدود کردن روباتای گوگل از تگ:

<meta name=”googlebot” content=”noindex” />

استفاده کنین. با مشاهده این تگ در هدر یه صفحه گوگل کلا اون رو از یافته های جستجوی خود خارج می کنه.

آموزش ساخت فایل robots.txt

یه فایل ساده واسه مدیریت روباتای اینترنتی از دو قانون اصلی استفاده میکنه :

User-agent: نشون دهنده نوع روباتیه که نباید به صفحه دسترسی داشته باشه.

Disallow: نشون دهنده نشانی صفحه ایه که می خواید از دید روباتا مخفی بمونه.

با ترکیب این دو دستور شما می تونین قوانین مختلفی رو واسه دسترسی به صفحات داخلی سایت تعریف کنین. مثلا واسه یه user-agent مشخص میشه چندین نشانی رو معرفی کرد و یا برعکس.

لیست همه روباتای اینترنتی معتبر در دیتابیس Web Robots Database هست و شما می تونین با قرار دادن نام هریک به عنوان User-agent قوانین مشخصی واسه اونا تعریف کنین و یا با به کار گیری کاراکتر * به جای نام در فایل robots.txt یه قانون رو واسه همه روباتا اعمال کنین. مانند:

User-agent: *

Disallow: /folder1/

موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود داره که معروفترین اونا با نام Googlebot شناخته میشه و وظیفه بررسی و ایندکس صفحات وب رو برعهده داره. روبات Gogglebot-image هم مسئول بررسی تصاویر سایتا و ایندکس کردن اوناس.

User-Agent: Googlebot

Disallow: /folder2/

شما می تونین به روشای مختلفی قوانین خود رو اعمال کنین، میشه یه صفحه مشخص و یا یه دسته از صفحات رو واسه یه قانون تعریف کرد. مثالای زیر روشای جور واجور به کار گیری این قوانین هستن:

واسه نبود دسترسی روباتا به تموم محتویات سایت از کاراکتر / استفاده میکنیم

Disallow: /

واسه نبود دسترسی به یه فولدر یا دسته از سایت نام اون رو وارد کنین

Disallow: /blog/

واسه اعمال محدودیت روی یه صفحه خاص نشانی دقیق اون رو بدون نام سایت وارد کنین

Disallow: /blog/keyword-planner/

واسه محدود کردن یه تصویر روی سایت نشانی اون رو بهمراه User-agent مربوط به اون وارد کنین

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

و واسه مخفی کردن تموم تصاویر موجود روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنین

User-agent: Googlebot-Image

Disallow: /

هم اینکه شما می تونین یه نوع فایل مشخص رو از دید موتورهای جستجو مخفی نگه دارین، مثلا واسه تصاویری با فرمت gif

User-agent: Googlebot

Disallow: /*.gif$

به این موضوع دقت لازم رو به عمل بیارین که فایل robots.txt نسبت به بزرگ و کوچیک بودن حروف انگلیسی حساس بوده و نشانی صفحات باید به دقت وارد شن. پس از ساخت فایل مورد نظر خود و ذخیره اون در فرمت txt اون رو روی سرور و در ریشه اصلی کپی کنین. قوانین اعمال شده واسه روباتایی هستن که از این پس به سایت شما وارد می شن حذف صفحاتی که در گذشته ایندکس شدن از دیتابیس گوگل نیازمند گذشت زمان هستش.

آزمایش Robots.txt  در بخش Blocked URLs وبمستر

وبمستر گوگل قسمت مشخصی رو واسه نمایش صفحاتی از سایت شما که بوسیله robots.txt دسترسی روبات به اونا محدود شده، در نظر گرفته. این صفحه با نام Blocked URLs و به عنوان زیر یه سری از بخش Crawl تعریف شده.

واسه اطمینان از کارکرد درست فایل robots.txt به بخش Blocked URLs در حساب وبمستر خود مراجعه کرده و مانند تصویر زیر در بخش اول محتویات فایل رو کپی کنین. در بخش دوم نشانی صفحاتی که می خواید اندازه محدودیت روباتای گوگل در دسترسی به اونا رو سبک سنگین کنین وارد کنین. (در هر خط یه نشانی)

در بخش انتهایی شما می تونین یه نوع از روباتای گوگل رو علاوه بر روبات اصلی که وظیفه ایندکس صفحات رو برعهده داره انتخاب کنین.

Blocked urls

نمایی از صفحه Blocked urls در وبمستر گوگل

با فشردن دکمه Test یافته های آزمون و اندازه دسترسی روباتا به هر کدوم از این آدرسا به شما نشون داده می شه.

robots txt test

نمونه ای از یافته های آزمایش فایل Robots.txt

چگونگی انتخاب صفحاتی که در فایل robots.txt معرفی می شن و مخفی کردن اونا از دید موتورهای جستجو وابستگی مستقیم با سیاستاتون در انتشار محتوا و سئو سایت داره. قبل از انجام تغییرات اساسی در این فایل حتما با کارشناسان سئو مشورت کرده و کدهای وارد شده رو چندین بار آزمون و بازنویسی کنین. اگر در مورد هر کدوم از موارد عنوان شده در این مقاله سوال یا ابهامی دارین می تونین در بخش نظرات مطرح کرده و تا حد توان کارشناسان وبسیما جواب گوی شما هستن.

امتحان اندازه یادگیریواسه این مقاله ۳ سوال دیگه هم تعریف شده. واسه مشاهده همه پرسشا به حساب کاربری خود وارد شید.

ورود
ثبت نام
  • نام فایل حتما باید robots.txt باشه؟

    • بله، گوگل فقط این نام رو قبول میکنه

    • خیر، میشه هر نامی گذاشت

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *