مخفی کردن صفحات سری از دید موتور جستجو
به موتورهای جستجوگر نه بگویید!
دو پروتكل عمده براي منع كردن موتورهاي جستجوگر از بايگاني منابع وب وجود دارد:
• پروتكل robots
• پروتكل robots meta tag
پروتكل robots
می توان با يک فايل متنی و بسيار ساده، ميزان دسترسی موتورهای جستجوگر به محتوای سايت ها را کنترل کرد. اين فايل robots.txt نام دارد و پروتکل حاکم بر آن پروتکل robots نام دارد.
موتور جستجوگر قبل از آنکه وارد سايتی شود، ابتدا فايل ياد شده را درخواست می کند و تمام محدوديت های پيش روی خود در آن سايت را می خواند. نبود اين فايل در يک سايت به معنای نبودن هيچ گونه محدوديتی برای تمام اسپايدرها است (حالت پيش فرض).
موتور جستجوگر بعد از آنکه تمام فايل ها و مسيرهای ممنوع را دانست. شروع به خواندن مطالب سايت می کند و البته به محدوديت های موجود نيز احترام می گذارد (اگر يک اسپايدر مودب باشد!).
نوشتن robots.txt
پروتکل روبوتز تنها دو دستور دارد که به کمک آنها محدوديت های زير مشخص می شوند:
• کدام اسپايدرها محدود شوند.
• کدام مسيرها محدود شوند.
user-agent:
با اين دستور، روبوت ها مشخص می شوند. روبوت (اسپايدر) هر موتور جستجوگر نام مشخصی دارد و برای محدود کردن موتورهای جستجوگر کافی است که نام روبوت های مورد نظر را به همراه اين دستور به کار گيريم. اي دستور به صورت زير به کار می رود:
به عنوان مثال وقتی که روبوت مورد نظر مربوط به گوگل است خواهيم داشت:
و همين طور اگر روبوت NorthernLight مورد نظر باشد،آنگاه:
با اين دستور مسيرهای ممنوع مشخص می شوند که به صورتهای زير به کار می رود:
کد:
disallow:/path/
disallow:/sales/
disallow:/shopping_card/
برای محدود کردن هر روبوت ابتدا آنرا مشخص کرده و سپس تمام مسيرهای محدود شده برای آنرا ذکر می کنيم:
کد:
user-agent: googlebot
disallow:/test/
disallow:/sales/
و با دستور زير همه روبوت ها می توانند محتوای تمام مسيرها را بخوانند:
کد:
user-agent:*
disallow:
کاربرد * به همراه user-agent به معنای تمام روبوت ها است.
در مثال زير به تمام روبوت ها گفته می شود که خوش آمديد، اينجا خبری نيست، لطفا دور شويد (با زبان خوش!).
کد:
user-agent:*
disallow:/
کاربرد / به همراه disallow به معنای تمام مسيرها است. همچنين برای نوشتن توضيحات در فايل robots.txt از # به صورت زير استفاده می شود:
کد:
# all robots are allowed
user-agent:*
disallow:
شما اگر گاليور بوديد و قصد سفر به سايت آدم كوچولوها را داشتيد با ديدن دستورات زير چه مي كرديد؟
کد:
User-agent:*
Disallow:/
User-agent:Gulliver
Disallow:
فايل robots.txt را کجا بايد قرار داد؟
از مثالهای زیر کمک گرفته و فایل را در محل مناسب آن قرار دهید.
کد:
http://www.iranseo.com/robots.txt
http://www.iranseo.com:6446/robots.txt
http://iranseo.com/robots.txt
و نكات ديگر:
• حتی اگر سايت شما هيچ گونه محدوديتی ندارد توصيه می شود که اين فايل را بر روی سرور خود قرار دهيد. در اين صورت کافيست که به صورت زير عمل کنيد:
کد:
user-agent:*
diallow:
بودن اين فايل به صورت ذکر شده و نبودن آن در هر دو صورت برای موتورهای جستجوگر يک معنا دارد:
آزادی در دسترسی به محتوای سايت
اما وجود robots.txt می تواند نشان از حرفه ای بودن سايت باشد و شايد در رتبه بندی سايت هم مورد لحاظ قرار گيرد.
آزادی در پرتو يک قانون بدون محدوديت بهتر است از آزادی ناشی از بی قانونی!
• همواره يک مسير را ممنوع کنيد و نه يک فايل را.
گيريم که شما فايل rtg.html را برای گوگل به صورت زير محدود کرده باشيد:
کد:
user-agent:googlebot
diallow:/project/html-resources/rtg.html
user-agent:*
disallow:
همانطور كه مي دانيد تنها موتورهاي جستجوگر فايل robots.txt را نمي خوانند و در واقع همه کاربران با خواندن اين فايل می توانند بفهمند که شما چه فايلی را محدود کرده ايد و به راحتی می توانند به آن مراجعه کنند. مثلا آدرس آن مي تواند آدرس زير باشد:
کد:
http://www.your-site-name.com/project/html-resources/rtg.html
• تمام مسيرهای درون اين فايل را با حروف کوچک انگليسی بنويسيد. وب سرورهاي نصب شده بر روي سيستم هاي عامل يونيكس به بزرگي و كوچكي حروف در URL حساس هستند.
• هر سايت تنها می تواند يک فايل robots.txt داشته باشد.
• بعد از آنکه فايل robots.txt را بر روی سرور سايت خود قرار داديد با بررسی Server Logs سايت خود می توانيد بفهميد که آيا موتورهای جستجوگر به محدوديت هايي که تعريف کرده ايد وفادار بوده اند يا خير.
اگر يک موتور جستجوگر به محتوای آن توجه نکرده باشد، می توانيد با آنها مکاتبه کرده و علت را جويا شويد و از آنها بخواهيد که فايل های مسير مورد نظر را از بايگانی خود حذف کنند.
• در ابتدا و انتهای تمام مسيرهای قرار گرفته در Disallow از / استقاده کنيد.
پروتکل robots meta tag
با استفاده از robots.txt توانستيم بعضی از مسيرهای سايت خود را برای همه و يا تنی چند از موتورهای جستجوگر محدود کنيم. می توان با استفاده از يکی از شناسه های HTML هم محدوديت هايي را برای يک صفحه تعريف کرد.
اين شناسه ميزان دسترسی به يک صفحه را معين می کند و به يکی از چهار صورت زير به کار می رود:
کد:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
Index
به معنای اين است که موتور جستجوگر می تواند محتوای صفحه را بايگانی کند. آوردن no بر سر آن به معنای اين است که موتور جستجوگر نمی تواند محتوای صفحه را بايگانی کند.
Follow
به اين معناست که موتور جستجوگر می تواند لينک های موجود در صفحه را دنبال کند. آوردن no بر سر آن به اين معنا است که موتور جستجوگر نبايد لينک های صفحه را دنبال کند.
با استفاده از اين شناسه محدوديت ها به تمام موتورهای جستجوگر اعمال می شود و نمی توان محدوديت های موردی اعمال کرد: همه يا هيچ کدام!
اگر در صفحه ای از اين شناسه استفاده نشده باشد، به معنای index, follow است. يعنی محتوای صفحه خوانده شود و لينک های آن دنبال گردد (حالت پيش فرض).
می دانيد هر يک از چهار ترکيب ياد شده برای چه صفحاتی مناسب می باشند؟
برخی از موتورهای جستجوگر نيز META robots مخصوص به خود دارند ( نظير گوگل) که می توانيد از آنها نيز استفاده کنيد. برای اطلاع از چگونگی استفاده از آنها می توانيد از Help همان موتور جستجوگر کمک بگيريد.
منبع:ایران سئو