شروحات تقنية

ما هو ملف robots.txt دليل شامل

ما هو ملف robots.txt؟

robots.txt هو ملف نصي لتكوين روبوتات الويب (عادة روبوتات محركات البحث) كيفية الزحف إلى صفحات على موقع الويب الخاص بهم.

كما يعد جزءًا من بروتوكول استبعاد برامج الروبوت (REP) ، وهو عبارة عن مجموعة من معايير الويب التي تنظم كيفية قيام برامج الروبوت بالزحف إلى الويب والوصول إلى وفهرسة المحتوى

وعرض ذلك المحتوى للمستخدمين. يتضمن التقرير أيضًا توجيهات مثل الروبوتات الفوقية ، بالإضافة إلى تعليمات صفحة ، أو دليل فرعي ، أو على مستوى الموقع لكيفية معالجة محركات البحث للارتباطات (مثل “متابعة” أو “nofollow”).

في الواقع ، يشير ملف robots.txt إلى ما إذا كان بإمكان بعض وكلاء المستخدم (برامج الزحف على الويب) الزحف إلى أجزاء من موقع الويب أم لا.

من اوامر ملف robots.txt

يتم تحديد تعليمات الزحف هذه بـ “عدم السماح” أو “السماح” بسلوك وكلاء مستخدم معينين (أو جميعهم).

Basic format:
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

يعتبر هذان السطران معًا ملف robots.txt كاملًا – على الرغم من أن ملف robots واحدًا

يمكن أن يحتوي على عدة أسطر من وكلاء المستخدم والتوجيهات (على سبيل المثال ، عدم السماح ، ويسمح بالتتبع الزحف ، وما إلى ذلك).

داخل ملف robots.txt ، تظهر كل مجموعة من أوامر وكيل المستخدم كمجموعة منفصلة ، مفصولة بفاصل سطر:

ملف robots.txt

في ملف robots.txt مع العديد من توجيهات وكيل المستخدم ، ينطبق كل من عدم السماح أو السماح بالقاعدة فقط على المستخدم (المستخدمين) المحددين في ذلك الخط المعين المنفصل.

إذا احتوى الملف على قاعدة تنطبق على أكثر من وكيل مستخدم واحد ، فلن يهتم الزاحف إلا بـ (واتباع التوجيهات) لمجموعة الإرشادات الأكثر تحديدًا.

إليك مثال على ذلك:

ملف robots.txt

يتم استدعاء كل من Msnbot و discobot و Slurp على وجه التحديد ، لذا سيولي وكلاء المستخدم هذا الاهتمام فقط في التوجيهات الموجودة في أقسام ملف robots.txt.

سيتبع جميع وكلاء المستخدم الآخرين التوجيهات في وكيل المستخدم: * المجموعة.

بعض الأمثلة على استخدام ملف robots.txt لموقع www.example.com

Robots.txt file URL: www.example.com/robots.txt
لحظر جميع برامج زحف الويب من جميع المحتويات

user-agent: *

disallow: /

سيؤدي استخدام هذه الصيغة إلى إخبار جميع برامج زحف الويب بعدم الزحف إلى أي صفحة على www.example.com

السماح لجميع برامج زحف الويب بالوصول إلى جميع المحتويات

user-agent: *

disallow:

يؤدي استخدام هذه الصيغة إلى مطالبة برامج زحف الويب بالزحف إلى جميع الصفحات على www.example.com ، بما في ذلك الصفحة الرئيسية.

حظر زاحف ويب محدد من مجلد معين

user-agent: Bingbot

disallow: /example-subfolder/blocked-page.html

يخبر هذا النحو الزاحف Bing فقط (اسم وكيل المستخدم Bing) لتجنب الزحف إلى صفحة معينة في www.example.com/example-subfolder/blocked-page

كيف ملف يعمل robots.txt؟

لدى محركات البحث وظيفتان رئيسيتان:

الزحف على الويب لاكتشاف المحتوى
فهرسة هذا المحتوى بحيث يمكن تقديمه إلى الباحثين الذين يبحثون عن معلومات.

لتتبع ارتباطات المواقع ، تتبع محركات البحث الروابط للانتقال من موقع إلى آخر – وفي النهاية ،

الزحف عبر العديد من مليارات الروابط ومواقع الويب. يُعرف سلوك الزحف هذا أحيانًا باسم “spidering”.

بعد الوصول إلى أحد مواقع الويب ، ولكن قبل أن تتم كتابته ،

سيبحث زاحف البحث عن ملف robots.txt. إذا عثر على واحد ،

فسيقرأ الزاحف هذا الملف أولاً قبل المتابعة من خلال الصفحة. نظرًا لأن ملف robots.txt يحتوي على معلومات حول الكيفية التي يجب أن يزحف بها محرك البحث

فإن المعلومات الموجودة هناك ستوجه المزيد من إجراءات الزحف على هذا الموقع بالتحديد.

إذا كان ملف robots.txt لا يحتوي على أي توجيهات لا تسمح لنشاط وكيل المستخدم (أو إذا كان الموقع لا يحتوي على ملف robots.txt) ، فسيستمر في الزحف إلى معلومات أخرى على الموقع.

يجب أن يعرف robots.txt سريع آخر:

  • لكي يتم العثور عليك ، يجب وضع ملف robots.txt في دليل المستوى الأعلى لموقع الويب.
  • إن ملف Robots.txt حساس لحالة الأحرف: يجب تسمية الملف باسم “robots.txt” (وليس ملف robots.txt أو robots.TXT أو غير ذلك).
  • قد يختار بعض وكلاء المستخدم (الروبوتات) تجاهل ملف robots.txt الخاص بك.
    هذا أمر شائع خاصة مع برامج الزحف الشريرة مثل الروبوتات الخبيثة أو كاشطات عناوين البريد الإلكتروني.
  • يعد ملف /robots.txt متاحًا للجميع: ما عليك سوى إضافة /robots.txt إلى نهاية أي مجال جذر لرؤية توجيهات موقع الويب هذا
    (إذا كان هذا الموقع يحتوي على ملف robots.txt!). وهذا يعني أنه يمكن لأي شخص الاطلاع على الصفحات التي تفعلها
    أو لا تريد الزحف إليها ، لذلك لا تستخدمها لإخفاء معلومات المستخدم الخاصة.
  • يستخدم كل نطاق فرعي على مجال جذر ملفات robots.txt منفصلة. وهذا يعني أنه يجب أن يكون لكل من blog.example.com و example.com ملفات robots.txt الخاصة بهم (في blog.example.com/robots.txt و example.com/robots.txt).

من الأفضل عمومًا الإشارة إلى موقع أي ملفات sitemap مرتبطة بهذا النطاق في أسفل ملف robots.txt. إليك مثال على ذلك:

ملف robots.txt

بنية ملف robots.txt

يمكن اعتبار بنية Robots.txt بمثابة “لغة” لملفات robots.txt. هناك خمسة مصطلحات شائعة من المرجح أن تصادفك في ملف robots. يشملوا:

User-agent زاحف الويب المحدد الذي تقدم إليه إرشادات الزحف (عادةً ما يكون محرك البحث).
يمكن العثور على قائمة بأكثر وكلاء المستخدمين هنا.

Disallow تم استخدام الأمر لإخبار وكيل المستخدم بعدم الزحف إلى عنوان URL معين.
يُسمح بخط “Disallow:” واحد فقط لكل عنوان URL.

Allow (يسري فقط على Googlebot): الأمر الذي يسمح لـ Googlebot بالوصول إلى صفحة أو مجلد فرعي على الرغم من أنه قد لا يتم السماح بالصفحة الأم أو المجلد الفرعي.

Crawl-delay عدد الثواني التي ينبغي أن ينتظرها الزاحف قبل تحميل محتوى الصفحة والزحف إليه.
لاحظ أن Googlebot لا يقر بهذا الأمر ، ولكن يمكن تعيين معدل الزحف في Google Search Console.

ملف Sitemap: يُستخدم لاستدعاء موقع أي ملف (ملفات) خريطة XML مقترن بعنوان URL هذا.
ملاحظة هذا الأمر معتمد فقط من قبل Google و Ask و Bing و Yahoo.

Sitemap

تستخدم لاستدعاء موقع أي خريطة (ملفات) XML مرتبطة بعنوان URL هذا. ملاحظة هذا الأمر معتمد فقط من قبل Google و Ask و Bing و Yahoo.

نمط المطابقة

عندما يتعلق الأمر بعناوين URL الفعلية المراد حظرها أو السماح بها ،
يمكن أن تصبح ملفات robots.txt معقدة إلى حد ما حيث تسمح باستخدام مطابقة الأنماط لتغطية مجموعة من خيارات عناوين URL الممكنة.

يكرّم كل من Google و Bing تعبيرين عاديين يمكن استخدامهما
لتحديد الصفحات أو المجلدات الفرعية التي تريد SEO استبعادها. هذان الحرفان هما العلامة النجمية (*) وعلامة الدولار ($).

* عبارة عن حرف بدل يمثل أي تسلسل من الأحرف
$ يطابق نهاية عنوان URL
تقدم Google قائمة كبيرة من بناء جملة ومطابقة نمط محتملة هنا.

اين يذهب ملف robots.txt على موقع؟

عندما يأتون إلى موقع ، فإن محركات البحث وغيرها من روبوتات الزحف على الويب
(مثل زاحف Facebook ، Facebot) ستعرف عن ملف robots.txt.

ولكن ، سيبحثون فقط عن هذا الملف في مكان واحد محدد: الدليل الرئيسي (عادةً ما يكون نطاق الجذر أو الصفحة الرئيسية).
إذا قام أحد وكلاء المستخدم بزيارة www.example.com/robots.txt ولم يعثر على ملف robots هناك

فسوف يفترض أن الموقع لا يحتوي على أحد ويتابع عملية الزحف إلى كل شيء على الصفحة
(وربما حتى على الموقع بأكمله). حتى إذا كانت صفحة robots.txt موجودة في ،

على سبيل المثال ، example.com/index/robots.txt أو www.example.com/homepage/robots.txt ،
فلن يتم اكتشافها بواسطة وكلاء المستخدم وبالتالي سيتم التعامل مع الموقع كما لو أنه ليس لديه ملف روبوتات على الإطلاق.

لضمان العثور على ملف robots.txt ، أدرجه دائمًا في الدليل الرئيسي أو النطاق الجذر.

لماذا تحتاج إلى ملف robots.txt؟

تتحكم ملفات Robots.txt في دخول الزاحف إلى مناطق معينة من موقعك.
في حين أن هذا يمكن أن يكون خطيراً للغاية إذا قمت بطريق الخطأ بمنع Googlebot من الزحف إلى موقعك بالكامل (!!)

فهناك بعض الحالات التي يكون فيها ملف robots.txt مفيدًا للغاية.

بعض حالات الاستخدام الشائعة تشمل:

منع ظهور المحتوى المكرر في SERPs (لاحظ أن الروبوتات الوصفية غالباً ما تكون خياراً أفضل لهذا)
الحفاظ على أقسام كاملة من موقع الويب الخاص (على سبيل المثال ، موقع التدرج الخاص بفريق الهندسة الخاص بك)
حفظ صفحات نتائج البحث الداخلية من الظهور على SERP عام
تحديد موقع خريطة (ملفات) Sitemap
منع محركات البحث من فهرسة ملفات معينة على موقع الويب الخاص بك (الصور ، ملفات PDF ، إلخ.)
تحديد تأخير في الزحف لمنع تحميل خوادمك بشكل زائد عند تحميل برامج الزحف عدة أجزاء من المحتوى في وقت واحد
إذا لم تكن هناك مناطق على موقعك تريد التحكم في دخول وكيل المستخدم إليها ،
فقد لا تحتاج إلى ملف robots.txt على الإطلاق.

التحقق مما إذا كان لديك ملف robots.txt

ألست متأكدًا مما إذا كان لديك ملف robots.txt؟
ما عليك سوى الكتابة في نطاق الجذر ، ثم إضافة /robots.txt إلى نهاية عنوان URL

إذا لم تظهر صفحة .txt ، فأنت لا تملك حاليًا صفحة robots.txt (مباشرة).

كيفية إنشاء ملف robots.txt

إذا وجدت أنك لم يكن لديك ملف robots.txt أو تريد تغيير ملفك ، فإن إنشاء واحد هو عملية بسيطة.

تقدم هذه المقالة من Google عملية إنشاء ملف robots.txt ،
وتتيح لك هذه الأداة اختبار ما إذا كان قد تم إعداد ملفك بشكل صحيح أم لا.

تبحث عن بعض الممارسة إنشاء ملفات الروبوتات؟ هذا بلوق وظيفة يمشي من خلال بعض الأمثلة التفاعلية.

أفضل ممارسات تحسين محركات البحث

تأكد من أنك لا تحظر أي محتوى أو أقسام في موقعك على الويب تريد الزحف إليها.

لن يتم اتباع الارتباطات الموجودة على الصفحات المحظورة بواسطة robots.txt. وهذا يعني
1.) ما لم يتم ربطها أيضًا من الصفحات الأخرى التي يمكن الوصول إليها بواسطة محرك البحث
(بمعنى ، الصفحات التي لم يتم حظرها عبر robots.txt ، أو برامج meta robot ، أو غير ذلك)
فلن يتم الزحف إلى الموارد المرتبطة ولا يمكن فهرستها.
2.) لا يمكن تمرير حقوق ملكية الارتباط من الصفحة المحظورة إلى وجهة الوصلة. إذا كان لديك صفحات تريد تمريرها إلى الأسهم ، فاستخدم آلية حظر أخرى غير ملف robots.txt.

لا تستخدم ملف robots .txt لمنع البيانات الحساسة (مثل معلومات المستخدم الخاصة) من الظهور في نتائج برنامج SERP.

نظرًا لأن الصفحات الأخرى قد ترتبط مباشرةً بالصفحة التي تحتوي على معلومات خاصة (وبالتالي تتجاوز توجيهات robots.txt في نطاق الجذر أو الصفحة الرئيسية)
فربما لا يزال يتم فهرستها. إذا كنت تريد حظر صفحتك من نتائج البحث ، فاستخدم طريقة مختلفة مثل الحماية بكلمة المرور أو التوجيه الفوقية noindex.

تحتوي بعض محركات البحث على عدة وكلاء مستخدم. على سبيل المثال
تستخدم Google Googlebot للبحث المجاني و Googlebot-Image للبحث عن الصور.

يتبع معظم وكلاء المستخدمين من نفس محرك البحث القواعد نفسها ، لذا لا حاجة إلى تحديد توجيهات لكل من برامج الزحف المتعددة في محرك البحث
ولكن امتلاكك القدرة على القيام بذلك يسمح لك بضبط كيفية الزحف إلى محتوى موقعك.

سيعمل محرك البحث على تخزين محتويات ملف robots.txt مؤقتًا ،
ولكن عادةً ما يقوم بتحديث المحتويات المخزنة مؤقتًا مرة واحدة على الأقل يوميًا.

إذا قمت بتغيير الملف وترغب في تحديثه بسرعة أكبر من الحدوث ، يمكنك إرسال رابط robots.txt الخاص بك إلى Google.

نتمنى ان تكون التدوينة قد اعجبتك 

اذا كان لديك اي استفسار اترك تعليقك في الاسفل وسنقوم بالرد عليك باسرع وقت ممكن .

إقرأ ايضا : 

ما هو الباك لينك Backlink ؟ – وما فائدتها لموقعك

السابق
انشاء حساب هوتميل Hotmail بالصور
التالي
فوائد البرتقال للجسم

اترك تعليقاً