مورد علاقه ها 0
مشاوره و تماس سریع : 09120532653

فایل robots.txt و کاربرد آن

اگر مقاله های قبلی که در خصوص مبحث سئوی سایت و ایندکس کردن صفحات توسط روبات های موتور جستجوی گوگل و رتبه بندی صفحات را مطالعه کرده باشید و همچنین در تمامی مقالات به نحوه درج مطالب در سایت برای بهبود رتبه سایت در گوگل اشاره شده است میدانید که برای موفقیت در مورد سئوی سایت خود باید مطالب و محتوایی که روی سایت خود درج می کنید جذاب و ناب باشد و درج مطالب تکراری و کپی باعث افت کیفیت سایت و سئو میشود همچنین گفته شد که از درج تعداد زیادی لینک و کلمات کلیدی در طول متن باعث افت کیفیت سئو میشود اما در گاهی اوقات در بعضی از صفحات سایت تعداد زیادی لینک و یا کلمات کلیدی درج میشود و یا مطالب تکراری ثبت می گردد در این هنگام وب مسترها توضیحاتی را برای روبات ها در هنگام ایندکس کردن در قسمت روت سایت قرار می دهند که این توضیحات Robots Exclusion Protocol نامیده میشود و میتوان با استفاده از فایل robots.txt صفحاتی را که قوانین سئو در ان ها رعایت نشده است را از ایندکس کردن و دسترس روبات های گوگل به دور نگاه داشت و با این ابزار میتوان دسترسی روبات های گوگل را به تمامی قسمتهای سایت محدود کرد و از ایندکس کردن صفحات بی ارزش سایت و افت سئو جلوگیری کرد .زمانی که روبات های گوگل وارد سایت میشوند اول برای یافتن این فایل جستجو میکنند تا بدانند دسترسی به چه قسمتهایی برایشان مجاز است این فایل را باید در فایل root وب سایت خود قرار دهید . (فولدر public_html ، wwwroot و یا httpdocs) و باید به هاست سایت دسترسی داشته باشید اگر در ادرس زیر به جای domain آدرس سایت خود را وارد کنید میتوانید فایل روت سایت خود را ببینید :
www.domain.com/robots.txt





اگر به کنترل پنل هاست خود دسترسی ندارید میتوانید بادرج متا تگ در هدر صفحات مورد نظر سایت خود از ورود روبات های گوگل به ان جلوگیری کنید .
نمونه استفاده از متا تگ :


جزئیات فایل robots.txt

فایل robots.txt از تعدادی زیر شاخه تشکیل شده است که جزئیات این فایل به صورت زیر است :
Disallow: صفحات ممنوع رو مشخص میکند
Allow : صفحات مجاز را برای ایندکس مشخص می کند .
User-agent : گاهی اوقات قسمتهایی از یک سایت برای یک سری از روبات ها و یا روبات های برخی از موتور های جستجو ممنوع است و برای دیگران باز است که این محدودیت را برای افراد متفاوت در این قسمت مشخص میشود .
Crawl-delay: در این قسمت سرعت جستجوی روبات ها را تعیین می کند که بستگی به سرعت سایت و حجم سرور دارد .
Sitemap : در این قسمت میتوانید نقشه سایت را برای روبات ها دسترسی بدهید و معرفی کنید .

بعضی از روباتها ی مخرب میتوانند این فایل را نادیده بگیرند مانند روباتهای ایمیل و بدانید که این فایل حالت نمایش عمومی دارد پس در نظر داشته باشید که از این فایل برای درج اطلاعات مخفی استفاده نکنید .
نحوه ساخت فایل robots.txt
در هنگام ساخت فایل robots.txt دقت داشته باشید نام فایل را به درستی و با حروف کوچک تایپ کنید .در ابتدای درج آدرس صفحات استفاده از اسلش / ضروری است .حتما به حروف کوچک و بزرگ در آدرس صفحات دقت کنیدو عینا" مثل همان را در فایل وارد کنید .هر ساب دامین به عنوان یک سایت جداگانه برای روبات ها تلقی میشود که فایل جداگانه برای خود دارند .

در دستور Disallow هر صفحه را باید در سطری جداگانه درج کرد مانند :
Disallow: /cgi-bin/
در قسمت
علامت ستاره به معنی محدودیت تمامی روبات ها و تمامی موتور های جستجو میباشد و اگر چند صفحه داشته باشید که با یک عبارت آغاز ش
ده باشد قبل از علامت ستاره باید ان عبارت را قید کنید تا دسترسی به تمامی ان صفحات ممنوع شود مانند :
User-agent: *
Disallow: /book*/


برای رفع این ممنوعیت ها میتوانید فایل robots.txt خالی ایجاد کنید و یا اصلا فایلی ایجاد نکنید که صرفا ایجاد نکردن فایل robots.txt بهتر است چون ممکن است اگر محدودیت هایی برای روبات ها ایجاد کنید دیگر صفحات سایت شما را ایندکس نکنند و سایت شما در نتایج جستجوی موتور های جستجو نمایش داده نشود .
برای خارج نمودن صفحات سایت از محدودیت دسترسی روبات ها میتوانید مانند مثال زیر عمل کنید
User-agent: *  

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /junk/

و اگر خواستید روباتی را ممنوع کنید مانند مثال زیر عمل کنید :
User-agent: BadBot

Disallow: /
برای اینکه دسترسی تمامی صفحات را به روبات بدهید از دستور زیر استفاده کنید :
* :User-agent
Allow: /

و برای دسترسی دادن به روبات مانند مثال زیر انجام دهید :
User-agent: Google

Disallow
برخی از روبات های موتور های جستجو از قوانین و علامت های خاصی برای فایل robots.txt استفاده می کنند که طبق قواعد خود از علامتهای خاصی باید در فایل robots.txt استفاده کنید .میتوانید لیست کاملی از قواعد و علامتها را در آدرس زیر مشاهده کنید :
support.google.com
برای محدود کردن لینک های داینامیک و یا ساب دایرکتوری ها از علامت سوال استفاده میشود مانند :
Disallow: /*?
اگر میخواهید تعدادی پوشه با پسوند خاصی را مسدود کنید میتوان از علامت $ استفاده کرد به عنوان مثال :
Disallow: /*.png$

در بعضی مواقع بعضی از آدرس های URL به طور پیش فرض دارای علامت ؟ هستند در این هنگام اگر میخواهیم به روبات ها بفهمانیم که به عبارات بعد از علامت سوال توجه نکنند ولی اگر علامت سوال به عنوان کاراکتر اخر درج شده است ان صفحه را ایندکس کنند مانند دستور زیر را وارد کنید :
User-agent: *
Allow: /*?$
Disallow: /*?

برای معرفی کردن نقشه سایت به روبات ها هم میتوان از این فایل استفاده کرد که به طور مثال مانند دستور زیر میتوان عمل کرد :
User-agent: *
Disallow: /articles/22.html
Sitemap: https://webgoo.ir/sitemap.xml


همچنین میتوانید با استفاده از ابزار robots.txt tester که توسط گوگل طراحی شده است از صحت عملکرد فایل robots.txt خود اطمینان داشته باشید زیرا اگر فایل شما به درستی عمل نکند امکان این وجود دارد که کلا روبات های موتور جستجو سایت شما را ایندکس نکند و دسترسی کل سایت برای روباتها بسته شود که باعث افت رتبه شما میشود .

نویسنده : فرحناز وحید

برای مشاهده سایر مقالات فرحناز وحید کلیک کنید.

دیدگاه ها
پربازدیدترین ها