ايران ويج

نسخه‌ی کامل: استفاده درست از فایل robots.txt
شما در حال مشاهده‌ی نسخه‌ی متنی این صفحه می‌باشید. مشاهده‌ی نسخه‌ی کامل با قالب بندی مناسب.
محتوای فایل robots.txt به اسپایدرهای موتورهای جستجو می گوید که از کدام قسمت های سایت شما نباید بازدید کنند. اگر فایل ها یا دایرکتوری هایی دارید که مایل نیستید در گوگل ایندکس شوند کافیست از فایل robots.txt استفاده کنید تا به اسپایدر موتورهای جستجو بفهمانید که از کدامین قسمت های سایت نباید بازدید کند. فایل robots.txt یک فایل متن بسیار ساده است که باید در ریشه سایت شما قرار بگیرد. به این شکل:
نقل قول: www.example.com/robots.txt
اگر می خواهید فایل robots.txt هر سایتی را مشاهده کنید کافیست به انتهای آدرس دامنه یک “robots.txt/” اضافه کنید.
مثلاً این فایل robots.txt ایست که من استفاده می کنم:
نقل قول: http://basics.ir/robots.txt
کار این فایل دقیقاً چیست؟

فایل robots.txt شامل دستورهایی است که شما به اسپایدرهای موتورهای جستجو می دهید. اولین چیزی که اسپایدرهای موتورهای جستجو در بازدید از هر صفحه ایی بررسی می کنند فایل robots.txt است تا از دستوراتی که شما در فایل robots.txt نوشته اید آگاه شود سپس به ایندکس سایت بپردازد.

چگونه از فایل robots.txt باید استفاده کرد؟

این بستگی به شما دارد، اکثر صاحبان سایت ها مایل هستند تا اسپایدرها تمامی صفحات آنها ایندکس کنند. اگر شما هم جزء این افراد هستید سه راه پیش روی شماست:

1. از فایل robots.txt استفاده نکنید

اگر سایت شما دارای فایل robots.txt نباشد اسپایدرها وارد سایت شما می شوند و به دنبال فایل robots.txt می گردند. فایل را پیدا نمی کنند چون وجود ندارد! سپس با خیال راحت تمام صفحات و محتوای سایت شما را ایندکس می کنند چون اینطور برای این موقعیت برنامه ریزی شده اند.

2. یک فایل خالی از دستورات به نام robots.txt

اگر سایت شما دارای یک فایل robots.txt باشد و هیچ دستوری در آن ننویسید مانند مثال قبلی اسپایدرها مجاز به ایندکس و ثبت تمامی صفحات و محتوای سایت شما می شوند.

3. یک فایل robots.txt با استفاده از دستورات زیر بسازید
کد:
User-agent: *
Disallow:
اگر سایت شما دارای یک فایل robots.txt با این دستورات باشد، اسپایدرها وارد سایت شما می شوند. به دنبال فایل robots.txt می گردند. فایل پیدا و خوانده می شود. ابتدا خط اول سپس خط دوم و در انتها با خیال راحت به ایندکس و ثبت کل سایت شما می پردازد.

اما این دستورات چه معنایی دارند؟
کد:
User-agent:
از این دستور اگر لازم باشد برای مدیریت نوع اسپایدرها استفاده می کنند، به عنوان مثال اگر مایل باشید تمامی موتورهای جستجو از دستورات یکسان استفاده کنند از ” * ” بعد از “:User-agent” استفاده می کنید به این شکل:
کد:
User-agent: *
یا اگر مایل باشید دستور خاصی برای یکی از موتورهای جستجو بنویسید از این دستور استفاده میکنید:
کد:
User-agent: Googlebot

Disallow:
از این دستور برای مشخص کردن صفحاتی که مایل نیستید در موتورهای جستجو ایندکس شوند استفاده می شود. به عنوان مثال شما در دایرکتوری سایت خود فولدری به نام “image” دارید که مایل نیستید محتوای آن ایندکس شود، پس ار دستور زیر استفاده می کنیم:
کد:
User-agent: *
Disallow: /image

Allow:
از این دستور برای مواقعی استفاده می شود که شما از ایندکس و ثبت یک دایرکتوری جلوگیری کردید ولی می خواهید که فقط قسمت مشخصی از دایرکتوری ایندکس شود پس از دستور زیر استفاده میکنیم:
کد:
User-agent: *
Disallow: /photos
Allow: /image/google.jpg
در این مثال ما از ایندکس شدن دایرکتوری “image” جلوگیری کردیم اما به اسپایدر ها اجازه دادیم فقط فایل “google.jpg” را از این دایرکتوری ثبت و ایندکس کند.

بررسی صحیح بودن دستورات موجود در فایل robots.txt:

دقت کنید اگر دستوری اشتباه در این فایل قرار داده باشید کل سایت یا بخش مهمی از سایت شما بلوکه شده و ایندکس نخواهد شد!

توسط این سایت ها می توانید از صحیح بودن فایل robots.txt خود آگاهی پیدا کنید:
1. Robots.txt checker
2. Robots.txt checker

3. Robots.txt checke


منبع