loading...
قالب وبلاگ
برای کاربران
تست منو وسط بالا 2
تستس منو وسط بالا
تست منو وسط بالا 1
آخرین ارسال های انجمن
امیر بازدید : 454 جمعه 27 بهمن 1391 نظرات (0)

فایل robot.txt چیست و چرا باید از آن استفاده کرد ؟
 

 

 

موتورهای جستجو همانند گوگل ، یاهو و بینگ مایکروسافت برای برای یافتن و ایندکس کردن صفحات مختلف وب و سایت های موجود از روبات های جستجو که به spider , robot و یا crawler معروف هستنداستفاده می کننید . این روبوت ها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات رو بدست میارند و اونها رو به موتور جستجوی مربوطه ارسال میکنند . معمولا بر اساس اینکه یک سایت چند مدت به چند مدت آپدیت میشه تعداد دفعاتی که این روبات های جستجوگر در روز به سایت مراجعه می کنند متفاوته .
صفحات موجود در سایتهای مختلف از لحاظ امنیتی و درجه حساسیت متفاوت هستند و شاید شما دوست نداشته باشید بعضی از صفحات (مثل صفحات مدیریتی و ادمین سایت) در موتورهای جستجو ایندکس بشه و آدرسش در این موتورها در اختیار عموم باشه . برای اینکه به موتورهای جستجو بگید چه صفحات یا فولدرهایی در سایت رو پیمایش و ایندکس کنه و اینکه چه صفحاتی رو ایندکس نکنه می تونید از یک فایل با نام robot.txt در ایندکس هاستینگ سایتتون و یا در پوشه ای خاص استفاده کنید تا به موتورهای جستجو بگید جا مجازید پیمایش کنید و کجا مجاز نیستید :

ادامه در ادامه مطلب...

 

 

 

 

 

علامت * میگه که همه ی ربات های پیمایشگر ، این دستورات براشون اعمال بشه . مثلا اگه بخواید بگید فقط روبات های گوگل این محدودیت ها رو داشته باشند ، این دستور رو به این شکل داریم :

 

 

در اینجا میتونید لیست همه ی روبوت های موجود و معروف رو ببینید . اگر فایل فقط حاوی این خط باشه همچنان پیمایشگران محترم موتورهای جستجو بدون محدودیت به ایندکس کردن همه صفحات ادامه می دن . Disallow برای جلوگیری از ایندکس شدن ادرس خاصی از سایت از دستور Disallow استفاده میشه . بزارید چندتا مثال بزنیم :

 

 


این دوخط فوق باعث میشه که جلوی ایندکس شدن همه ی صفحات توسط روبوت های گوگل گرفته بشه:

 

 

در مثال فوق همه ی روبوت ها رو محدود میکنید که اجازه ایندکس کردن صفحه admin.php رو نداشته باشند .

 

 


در این مثال هم همه ی روبوت ها رو محدود میکنید که اجازه ایندکس کردن صفحه private.html و پوشه های cgi-bin و images رو نداشته باشند . البته میتونید برای روبوت های مختلف محدودیت های مختلف تعیین کنید.

 

 


Allow از دستور Allow هم معمولا برای اجازه دادن ایندکسینگ به زیرپوشه ای که درون یک پوشه Dissallow شده قرار داده استفاده میشه . مثال زیر رو ببینید :

 

 


در اینجا ما می گیم که روبات ها اجازه ایندکس کردن محتویات درون پوشه files رو ندارند به جز پوشه public که در پوشه files قرار داره ! robot.txt برای سایت های وردپرسی ! در زیر یک فایل مناسب برای استفاده وب سایت هایی که با وردپرس ساخته شدند آوردم . می تونید ازش استفاده کنید . میبینید که به پوشه های مدیریتی و حاوی فایل ها قالب و پلاگین ها و … اجازه دسترسی داده نشده.

 

 

 


همونطور که در مثال بالا می بینید می تونید به این طریق Sitemap سایت خودتون رو هم در این فایل قرار بدید تا در معرض دید روبات ها باشه . انشاءالله در آینده در مورد فایل sitemap و دلایل استفاده از اون هم صحبت خواهیم کرد . robot.txt برای سایت های پیاده سازی شده با جوملا !

 

 

در آخر هم بد نیست یه نگاهی به فایل robot.txt خود سایت گوگل بکنید !

http://www.google.com/robots.txt

 

در رزبلاگ هم سایت ها اینطوری هستند:

http://www.loxabzar.ir/robots.txt

ارسال نظر برای این مطلب

کد امنیتی رفرش
منوی اول پایین
تست منو وسط پایین 2
منوی دوم پایین
تست منو وسط پایین 1
درباره ما
Profile Pic
درباره
اطلاعات کاربری
  • فراموشی رمز عبور؟
  • نظرسنجی
    نمره شما به رعایت کپی رایت در رزبلاگ!!!
    منوی اول راست
    تست منو سمت راست 4
    منوی دوم راست
    تست منو سمت راست 3
    محل تبلیغات شما
    تست منو سمت راست 2
    برای کاربران
    تست منو سمت راست 1
    آمار سایت
  • کل مطالب : 1518
  • کل نظرات : 757
  • افراد آنلاین : 32
  • تعداد اعضا : 6292
  • کاربران آنلاين
  • 01.gabrielsnage
  • آی پی امروز : 437
  • آی پی دیروز : 523
  • بازدید امروز : 3,608
  • باردید دیروز : 5,911
  • گوگل امروز : 0
  • گوگل دیروز : 2
  • بازدید هفته : 35,434
  • بازدید ماه : 80,080
  • بازدید سال : 422,273
  • بازدید کلی : 5,163,934
  • کدهای اختصاصی
    اسکریپت های اختصاصی :
    تست
    تست منو سمت چپ 3
    منوی اول چپ
    تست منو سمت چپ 2
    منوی دوم چپ
    تست منو سمت چپ 1