קובץ Robots.txt

זהו קובץ של האתר, אשר בעזרתו מנועי החיפוש מבינים אילו חלקים של האתר עליהם לסרוק ולאנדקס ואילו חלקים צריכים להישאר גלויים רק לעיניו של מנהל האתר: תיקיות ניהול, סקריפטים שונים, עמודים ישנים שאינם מעודכנים או עמודים שנמצאים בתהליך כלשהו של חידוש, כגון בשלב מעבר מ-http ל-https (במסגרתו קיימים למעשה שני עותקים של אותו אתר עד לסיום התהליך).

שימוש נפוץ אחר בקובץ robots.txt הוא חסימה של אתר הנמצא בתהליך בנייה, על מנת שלא יאונדקס ויתחיל להופיע בין תוצאות החיפוש בגוגל בטרם הושלמה האופטימיזציה שלו. במקרה כזה, לאחר שבניית האתר הושלמה יש לעדכן את הקובץ על מנת שהוא יתחיל להיסרק.

חשוב לציין שאין חובה ליצור קובץ robots.txt לכל אתר, בהחלט ניתן להסתדר בלעדיו. למעשה, אם באין חלקים שצריך למנוע מגוגל לסרוק אותם, אין בו צורך כלל.

מניעת רובוטים באתרי אינטרנט, מתי צריך את זה?

למעשה במקרים רבים ניתן להישתמש למעשה בתג – no-index meta שלמעשה מונעת ממנוע החיפוש לסרוק את האתר.

במקרים רבים אני נוהג להישתמש בפקודה זו בעמודי אתר כפולים, באתר אינטרנט שטרם עלה לאוויר, למנועה הגעה של לקוחות או בכלל שלא.

איך להטמיע  no-index ולמנוע סריקה של זחלן

הפקודה למעשה נראת כך:

להטמיע את הקוד הבא באתר אינטרנט שלכם באיזור ה-head

<head> בעמוד הרלוונטי שלכם.

meta name="robots" content="noindex">

למנוע מגוגל בלבד לסרוק את האתר >>

<meta name="googlebot" content="noindex">

הערה חשובה:

בדרך כלל מתכנתים רבים שוכחים להסיר את המטה תג הזה בעת העלאת אתר חדש שימו לב זה עשוי לפגוע בסריקה של האתר ובדירוג שלו בגוגל.

אך בודקים?

די פשוט – עומדים על איזור טקסט, לוחצים על לחצן ימני ופשוט מאוד קונטרול +f5 לאחר מכן פשוט תרשמו את הצמד no-index במידה ומצאתם פשוט להסיר מהקוד.

no index