التسويق الاليكتروني

كيف تعمل محركات البحث

الزحف والفهرسة والترتيب

كيف تعمل محركات البحث؟
محركات البحث لها ثلاث وظائف أساسية:

1- الزحف Crawl: التجول في الإنترنت بحثًا عن المحتوى ، والبحث عن اكواد / محتوى لكل عنوان URL يجدونه.
2- الفهرسة Index: يتم تخزين وتنظيم المحتوى الموجود أثناء عملية الزحف. وبمجرد أن تظهر الصفحة في الفهرس ، يتم عرضها مباشرة لعمليات البحث ذات الصلة.
3- الترتيب Rank: عرض أجزاء من المحتوى التي من شأنها أن تجيب بشكل أفضل على عملية البحث ، مما يعني أن النتائج مرتبة حسب الأكثر صلة بأقل صلة.

1- ما هو زحف محرك البحث؟
الزحف هو عملية الاكتشاف التي ترسل فيها محركات البحث فريقًا من الروبوتات (يُعرف باسم برامج الزحف أو العناكب) للعثور على محتوى جديد ومحدث. يمكن أن يختلف المحتوى – قد يكون صفحة ويب أو صورة أو فيديو أو PDF ، إلخ – ولكن بغض النظر عن التنسيق ، يتم اكتشاف المحتوى بواسطة الروابط.

ما هو زحف محركات البحث

روبوتات زحف محركات البحث
يبدأ Googlebot بجلب بعض صفحات الويب ، ثم يتتبع الروابط الموجودة على صفحات الويب هذه للعثور على عناوين URL جديدة. عن طريق التنقل على طول هذا الطريق من الروابط الموجودة بداخل تلك الصفحات ، بحيث يكون الزاحف قادرًا على العثور على محتوى جديد وإضافته إلى فهرس يسمى Caffeine– وهو عبارة عن قاعدة بيانات ضخمة لعناوين URLs التي تم اكتشافها وفهرستها – ليتم استعادتها لاحقًا في نتائج البحث عندما يبحث شخص ما عن معلومات تتوافق بحد كبير مع المحتوى الموجود على عنواين URL هذه او تتوافق مع عبارات البحث التي يريدها الباحث.

2- ما هو فهرس محرك البحث؟
تقوم محركات البحث بمعالجة المعلومات التي يعثرون عليها وتخزينها في الفهرس ، وقاعدة البيانات الضخمة التي تحتوي على جميع المحتويات التي اكتشفوها اثناء عملية الزحف والتي تعتبر جيدة بما يكفي لخدمة الباحثين.

عندما يقوم شخص ما بعملية بحث ، تقوم محركات البحث بفحص فهرسها بحثًا عن محتوى ذو صلة عالية بعبارة البحث المستخدمة ، ثم تعرض ذلك المحتوى للباحث على أمل ان يجيب هذا المحتوي علي عبارة البحث المستخدمة. يُعرف هذا الترتيب لنتائج البحث حسب الصلة بـ ranking. بشكل عام ، يمكنك افتراض أنه كلما تصدر موقع ويب اعلي نتائج البحث كلما كان هذا الموقع اكثر صلة بعبارة البحث المستخدمة حسب مايعتقده خوارزميات محرك البحث.

من الممكن حظر برامج زحف محركات البحث من جزء ما من موقعك أو كل الموقع بشكل عام ، أو منع محركات البحث من تخزين صفحات معينة في فهرسها. بينما قد يكون هناك أسباب للقيام بذلك ، إذا كنت تريد العثور على المحتوى الخاص بك من قبل الباحثين ، عليك أولاً التأكد من أنه يمكن الوصول إليه من قِبل برامج الزحف وقابل للفهرسة. وإلا ، فهي جيدة ولكن ما اهميتها وهي غير مرئية لبرامج البحث او للمستخدمين؟.

في السيو، ليست كل محركات البحث متساوية
يتساءل العديد من المبتدئين عن الأهمية النسبية لمحركات البحث الخاصة. يعرف معظم الناس أن Google تمتلك أكبر حصة في السوق ، ولكن ما مدى أهمية تحسين Bing و Yahoo وغيرهم؟ الحقيقة هي أنه على الرغم من وجود أكثر من 30 محرك بحث رئيسي على شبكة الإنترنت ، فإن متخصصين SEO لا يهتمون إلا بـ Google. لماذا؟

الإجابة المختصرة هي أن Google هو المكان الذي تبحث فيه الغالبية العظمى من الناس على الويب. إذا قمنا بتضمين صور Google وخرائط Google و YouTube ، فإن أكثر من 90٪ من عمليات البحث على الويب تحدث على Google – أي ما يقرب من 20 مرة مقارنة بمحرك بحث Bing و Yahoo.

الزحف: هل يمكن لمحركات البحث العثور على موقعك؟
كما تعلمت للتو ، فإن التأكد من الزحف الي موقعك وفهرسته هو شرط أساسي للظهور في نتائج البحث SERPs.

إذا كان لديك موقع ويب بالفعل ، فقد يكون من الضروري أن تبدأ في معرفة عدد صفحاتك الموجودة في الفهرس. سيساعدك ذلك في الحصول على بعض الأفكار المهمة حول ما إذا كانت Google تقوم بالزحف والبحث عن جميع الصفحات المهمة في موقعك والتي تريد تضمينها بنتائج البحث ، وليس أي شيء اخر غير مهم.

إحدى طرق التحقق من صفحاتك المفهرسة هي “site:yourdomain.com” ، وهو مشغل بحث متقدم Search Operator.

توجه إلى Google واكتب “site:yourdomain.com” في شريط البحث واستبدل yourdomain.com برابط موقعك. سيعرض هذا الامر الروابط التي تم فهرستها علي محرك بحث Google:

تحسين محركات البحث

عدد الصفحات التي تم فهرستها علي Google هو 61,700 صفحة ، هذا الرقم ليس بالتحديد ولكنه يمنحك فكرة تقريبية عن عدد الصفحات التي تم فهرستها من موقعك وكيف يتم عرضها حاليًا في نتائج البحث.

للحصول على نتائج أكثر دقة ، راقب واستخدم تقرير تغطية الفهرس في Google Search Console.

يمكنك الاشتراك للحصول على حساب مجاني على Google Search Console إذا لم يكن لديك حساب حاليًا. باستخدام هذه الأداة ، يمكنك إرسال ملفات Sitemap لموقعك ومراقبة عدد الصفحات المرسلة التي تمت إضافتها بالفعل إلى فهرس Google ، والعديد من الاشياء الاخرى.

اسباب تؤدي إلي عدم ظهور موقعك في محركات البحث:
1- موقعك جديد ولكن لم يتم الزحف إليه بعد.
2- موقعك جديد ولايحصل علي اي روابط خلفية باك لينك من اي مواقع اخري.
3- يجعل التنقل في موقعك من الصعب على الروبوت الزحف إليه بفعالية.
4- يحتوي موقعك على بعض الاكواد البرمجية الأساسية التي تحظر عناكب محركات البحث من الدخوال اليه وفهرسته.
5- تمت معاقبة موقعك من قِبل Google بسبب تكتيكات الاسبام “Spam”.

أخبر محركات البحث عن كيفية الزحف إلى موقعك
إذا استخدمت Google Search Console أو “site:domain.com” advanced search operator ووجدت أن بعض صفحاتك المهمة مفقودة من الفهرس و / أو تمت فهرسة بعض صفحاتك غير المهمة ، فهناك بعض التحسينات التي يمكنك تنفيذها لتوجيه Googlebot بشكل أفضل لكيف تريد الزحف الي محتوى الويب الخاص بك. حيث ان إخبار محركات البحث بكيفية الزحف إلى موقعك يمكن أن يمنحك سيطرة أفضل على ما يعرض في فهرس جوجل.

يفكر معظم الأشخاص في التأكد من قدرة Google على العثور على صفحاتهم المهمة ، ولكن من السهل أن تنسى أن هناك صفحات محتملة لا تريد أن يجدها Googlebot. قد تتضمن هذه أشياء مثل عناوين URL القديمة التي تحتوي على محتوى رفيع ، وعناوين URL مكررة (مثل معلمات الفرز والتصفية للتجارة الإلكترونية) ، وصفحات شفرة الترويجي الخاصة ، وصفحات التدريج أو الاختبار ، وما إلى ذلك.

لتوجيه Googlebot بعيدًا عن صفحات وأقسام معينة من موقعك ، استخدم ملف robots.txt.

ملف robots.txt
توجد ملفات Robots.txt في الدليل الجذري لمواقع الويب (على سبيل المثال ، yourdomain.com/robots.txt) وتخبر محركات البحث بالاجزاء التي يجب الزحف اليها في موقعك والتي لا يجب الزحف إليها ، وكذلك السرعة التي يزحفون بها إلى موقعك.

كيف يتعامل Googlebot مع ملفات robots.txt
1- إذا تعذر على Googlebot العثور على ملف robots.txt لأحد المواقع ، فسيتم الانتقال إلى الزحف إلى الموقع.
2- إذا عثر Googlebot على ملف robots.txt لأحد المواقع ، فسوف يلتزم عادة بالاقتراحات ويستمر في الزحف إلى الموقع.
3- إذا واجه برنامج Googlebot خطأً أثناء محاولة الوصول إلى ملف robots.txt لأحد المواقع ولا يمكنه تحديد ما إذا كان أحده موجودًا أم لا ، فلن يزحف إلى الموقع.

تكلفة الزحف Crawl Budget
ميزانية او تكلفة الزحف هي متوسط عدد عناوين URL التي سيقوم برنامج Googlebot بالزحف إليها على موقعك قبل مغادرته ، وبالتالي تضمن ميزانية تحسين الزحف أن برنامج Googlebot لا يضيع الوقت في الزحف عبر صفحاتك غير المهمة المعرضة لخطر تجاهل صفحاتك المهمة. تعد ميزانية الزحف أكثر أهمية في المواقع الكبيرة جدًا التي تحتوي على عشرات الآلاف من عناوين الروابط URL ، ولكن ليس من الجيد أبدًا منع الزواحف من الوصول إلى المحتوى الذي لا يهمك بالتأكيد. فقط تأكد من عدم حظر وصول الزاحف إلى الصفحات التي تحتوي علي توجيهات برامج الزحف ، عن طريق اضافة canonical او noindex tags. حيث انه إذا تم حظر Googlebot من إحدى الصفحات التي بداخلها تلك الارشادات الموجهه لبرامج الزحف ، فلن تتمكن تلك البرامج من رؤية الإرشادات الموجودة على هذه الصفحات.

لاتتبع كل روبوتات الويب ملف robots.txt. حيث ينشئ الأشخاص ذوو النوايا السيئة بعض برامج الروبوت التي لا تتبع هذا البروتوكول. في الواقع ، يستخدم بعض الهاكرز ملفات robots.txt للعثور على المكان الذي توجد فيه محتويات موقعك المهمة القابلة للسرقة. على الرغم من أنه قد يكون من المنطقي حظر برامج الزحف من الصفحات الخاصة مثل صفحات تسجيل الدخول والإدارة admin حتى لا تظهر في الفهرس ، فإن وضع عناوين URL هذه الصفحات المهمة في ملف robots.txt يُمكن عناكب البحث من الوصول إليه بشكل عام مما يعني أيضًا أن الأشخاص ذوي النوايا الخبيثة يمكنهم العثور علي هذه الصفحات بسهولة. لذا من الأفضل وضع علامة NoIndex علي هذه الصفحات واخفائها خلف نموذج تسجيل الدخول بدلاً من وضعها في ملف robots.txt الخاص بك.

الوسوم
اظهر المزيد

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

إغلاق