من الأمور الرائعة أن تزور عناكب البحث صفحات موقعك بشكل مستمر لتقوم بفهرستها، لكن المشكل المطروح يظهر عندما تقوم هذه العناكب بفهرسة ما لا ترغب أنت بفهرسته. فعلى سبيل المثال لو كان لديك نسختين من صفحة معينة على موقعك، إحداهما أصلية للعرض و الأخرى للطباعة، فمن المهم جدا أن تستثني إحدى النسختين من الفهرسة حتى لا تنطبق عليك سياسة المحتوى المكرر.
كما أنه في بعض الحالات قد ترغب في ترك بعض الصفحات مخفية عن عيون عناكب البحث، و غالبا ما تكون صفحات لها علاقة بإدارة موقعك، كلوحة التحكم و غيرها، كل ذلك ممكن عن طريق إخبار محركات البحث بما ليس هناك داعي لفهرسته، لكن كيف يتم ذلك ؟
هناك طريقة وحيدة تستطيع من خلالها التواصل مع محركات البحث و إخبارها بما يجب فهرسته، و ما لا يجب فهرسته، باستخدام ملف robots.txt، فما حقيقة هذا الملف يا ترى ؟
ما هو ملف Robots.txt ؟
ملف robots.txt هو ملف مهم جدا بالنسبة للمواقع، فهو عبارة عن ملف نصي يمكن تحريره بأي محرر للنصوص (Notepad) مثلا، يتمثل دوره الأساسي في حجب موقع معين أو صفحة معينة عن محركات البحث، و بالتالي استبعادها من عملية الفهرسة بحيث تصبح و كأنها غير موجودة (يمكن تشبيهه بدور حارس المتحف، يسمح بالدخول لأروقة معينة و يمنع الدخول لأخرى).
إشارة : قبل دخول عناكب البحث لموقعك، تتحقق أولا من وجود ملف robots.txt الذي يمنعها من الوصول لصفحات معينة.
فوائد ملف Robots.txt :
من المفيد جدا استخدام ملف robots.txt و ذالك راجع للأسباب التالية :
منع محركات البحث من فهرسة المواقع أو الصفحات التي لا تزال تحت الإنشاء؛
حجب الصفحات المتشابهة تفاديا لمشاكل المحتوى المكرر؛
حماية بعض المعلومات الحساسة، من خلال منع فهرستها من قبل عناكب البحث…
أضرار ملف Robots.txt :
لا أحد ينكر الفوائد الجمة التي يوفرها ملف robots.txt للمواقع، لكن مع ذلك هناك بعض السلبيات من رواء استخدام هذا الملف، فلو كانت لديك بعض الملفات الخاصة لا تريد استعراضها أو فهرستها من قبل محركات البحث، فلا تعتمد على الملف المذكور في الأمر، لأنه من السهل جدا معرفة هذه الملفات الخاصة من خلال استعراض ملف، خصوصا و أن عنوانه معروف، واحد لا يتغير، كما سنرى في الفقرة القادمة إن شاء الله.
مكان تواجد ملف Robots.txt :
يتم رفع ملف robots.txt داخل المجلد الرئيسي لموقعك، root أو www أو home أو public_html حسب سيرفر موقعك، بحيث يكون رابط الملف على الشكل التالي :
1
http://www.sitename.com/robots.txt
حيث أن sitename تمثل اسم موقعك.
إشارة : إذا تم وضع ملف robots.txt داخل مجلد فرعي، و ليس بالمجلد الرئيسي كما سبقت الإشارة إلى ذالك، فإن محركات البحث ستفترض أن هذا الملف غير موجود.
إنشاء ملف Robots.txt :
إن إنشاء ملف robots.txt أمر سهل و بسيط للغاية، فيمكنك إنشاء هذا الملف بواسطة أي محرر للنصوص لديك، على أن يكون اسم الملف robots (حروف صغيرة)، و بالامتداد txt. ثم ضع بداخله الأكواد التالية حسب حاجتك :
1
User-agent: *
هذا الكود مفاده توجيه محركات البحث إلى موقعك، يكون دائما في بداية الملف، و قد وضعت النجمة (*) بعده للدلالة على أن كل محركات البحث معنية كمحرك جوجل، بينج، ياهو…، أما إذا أردت تخصيص محرك بحث معين فضع مكان النجمة اسم المحرك، كمثال على ذلك :
1
User-agent: Googlebot
مفاد هذا الكود أن المعلومات الموجودة بملف robots.txt مخصصة لمحرك البحث جوجل فقط.
1
Disallow:
يقوم هذا الكود بمنع محركات البحث من فهرسة بعض أو كل الملفات داخل موقعك، فلو أردت مثلا حجب كل الملفات فالكود سيكون بهذا الشكل :
1
Disallow : /
أما إذا أردت مثلا حجب قسم معين عن محركات البحث، فالأمر سيختلف ليكون الكود بهذا الشكل :
1
Disallow: /admin/
الآن لن يسمح لمحركات البحث بالزحف إلى المجلد admin وهكذا.
يمكنك أيضا منع محركات البحث من الزحف إلى ملف معين داخل قسم محدد، على الشكل التالي :
1
Disallow: /world/login.html
المثال السابق معناه، أنه مسموح لمحركات البحث فهرسة جميع محتويات المجلد world، باستثناء الملف login.html.
تنبيه : يجب الحذر عند كتابة هذه الأسطر فمثلا إذا نسيت كتابة / فسيتحول الأمر الى ترحيب بمحركات البحث ودعوة لزيارة المواقع بدلا من حجبها.
كذلك الأمر بالنسبة للصور، يمكنك منع فهرستها من قبل محركات البحث، على سبيل المثال لو أردنا منع فهرسة الصور ذات الامتداد png. فالأمر سيكون بهذا الشكل :
1
Disallow: /*.png$
لاحظ وجود النقطة قبل الامتداد و علامة الدولار بعده، أما النجمة فتعني أي شيء.
1
Allow:
هذا الكود يسمح لنا بتحديد المجلدات أو الملفات المسموح بزيارتها من قبل المحركات، فمثلا لو أردنا حجب جميع محتويات الموقع عن جميع محركات البحث، فلا شك أن الكود سيكون هكذا :
1
use-agent : *
2
Disallow : /
لكن لو أردنا استثناء بعض الملفات أو المجلدات من المنع، و السماح لمحركات البحث بأرشفتها نضع الأمر التالي أسفل السطرين السابقين :
1
Allow: /vb
2
Allow: /wp
و بالتالي فإن المجلدين vb و wp ستتم فهرستهما من قبل محركات البحث.
1
Sitemap:
- ملحق :
- أشهر العناكب والروبوتات :
- googlebot لجوجل؛
- msnbot لمحرك ام اس ان؛
- yahoo-slurp لمحرك ياهو؛
- teoma لمحرك بحث أسك/تيوما؛
- gigabot لجيجا بلاست؛
- scruby لسكرب ذا ويب؛
- robozilla لدليل دموز؛
- nutch لـ ناتش؛
- ia_archiver لأليكسا؛
- baiduspider لـ بايدو؛
- googlebot-image لجوجل صور؛
- googlebot-mobile لجوجل موبايل؛
- psbot لمحرك بحث ام اس ان / بينج للصور؛
- asterias لمحرك بحث سينغ انغ فيش؛
- yahoo-blogs لمحرك بحث ياهو للمدونات…
- ملفات robots.txt لأشهر المواقع العالمية :
- https://www.facebook.com/robots.txt
- http://www.vbulletin.org/robots.txt
- http://www.google.com/robots.txt
- http://www.yahoo.com/robots.txt
- http://www.msn.com/robots.txt
- http://www.alexa.com/robots.txt
- http://www.adobe.com/robots.txt
- http://www.cpanel.com/robots.txt
- http://www.alarabiya.net/robots.txt
- http://www.aljazeera.net/robots.txt
- http://www.cnn.com/robots.txt
المصدرالموضوع مدونة دالتا كلك
0 التعليقات :
إرسال تعليق