אחת מן הבעיות הטכניות הנפוצות בהן נתקלים אנשי קידום אתרים היא שחלקים מסוימים מן האתרים, אשר אינם מיועדים להיסרק, להתאנדקס או להופיע כתוצאות חיפוש, בכל זאת נסרקים על ידי הרובוטים של גוגל, מתאנדקסים ויכולים להופיע בתוצאות החיפוש. חלקים כאלה יכולים להיות שרתי פיתוח, תת אתרים בהקמה, שרתי הפקה וכדומה.
קיימות מספר סיבות לתופעה הזו, ורבים טועים לחשוב שזה לא כל כך נורא – אלא שאם זה קורה באזורים רגישים באתר, הופעתם בתוצאות החיפוש עשויה לחשוף בין היתר קמפיינים מתוכננים, מידע עסקי סודי או נתונים פרטיים. במילים אחרות – סריקה ואינדוקס לא מכוונים של חלקים מסוימים באתר עלולים לגרום נזק ממשי לבעלים, ללקוחות וכדומה.
מה עושים כדי להרחיק את הרובוטים של גוגל מחלקים רגישים באתר?
קיימות מספר אפשרויות בהן ניתן לנקוט על מנת למנוע מן הרובוטים של גוגל לסרוק ולאנדקס את האתר, כלומר למנוע מגולשים להיתקל בין תוצאות החיפוש שלהם בקישורים לחלקים מסוימים באתר. להלן נסקור כמה מהן על פי רמת האפקטיביות שלהן, מן הגבוהה אל הנמוכה:
- אימות HTTP
כל מה שאתם רוצים להשאיר מחוץ לחלק המאונדקס של האתר שלכם צריך לכלול אימות צד שרת. דרישת אימות לשם כניסה היא השיטה המועדפת על מנת למנוע ממשתמשים ו/או מנועי חיפוש להיכנס לאזורים שהם אינם מורשים להיות בהם.
- זיהוי IP
הרשאת גישה אך ורק לכתובות IP ידועות, כגון כאלה ששייכות לרשת שלכם, ללקוחות וכן הלאה, היא דרך מצוינת לאבטח את האתר ולוודא שרק מי שבאמת צריך לצפות באיזורים הללו אכן יוכל לעשות כן.
- תיוג Noindex
שיטה זו עשויה לעבוד בחלק מן המקרים על מנת למנוע את האינדוקס של חלקים באתר, אולם היא נושאת עימה בעיה: היא למעשה גורמת לרובוטים של גוגל לסרוק דווקא יותר עמודים באתר, מה שמהווה בזבוז של תקציב הזחילה.
אם קובץ ה-robots.txt שלכם אינו פעיל (כלומר במצב Disallow), אזי אין צורך בהטמעת תגי Noindex – שהרי אתם למעשה אומרים לגוגל לא לסרוק את העמוד, ולכן הרובוטים ממילא לא רואים את התג.
בעיה נפוצה אחרת היא שמשתמשים רבים פשוט שוכחים את תגי ה-Noindex בקובץ ה-html שלהם גם כאשר האתר מוכן ועולה לאוויר – מה שמונע את סריקתו וצירופו לאינדקס כאשר הם סוף סוף רצויים.
- קנוניקליזציה
אם האתר שלכם פועל עם קנוניקליזציה אשר מפנה באופן אוטומטי מן האזורים הרגישים אל העמוד הראשי, עליכם לפעול במשנה זהירות: יתכנו אי התאמת בתוכן שיגרמו לבעיות מסוימות, ובאשר לתגי noindex – הרובוטים של גוגל יצטרכו לסרוק עמודים נוספים.
מנהלי אתרים מסוימים נוטים גם לבטל את פעילותו של קובץ robots.txt, כך ששוב אין לגוגל אפשרות לסרוק את העמוד וכך הוספת תגי הקנוניקל מיותרת משום שהרובוטים פשוט לא רואים אותם.
גם במקרה הזה שימו לב שכאשר האתר יעלה לאוויר עליכם לשנות או להסיר את תגי הקנוניקל, אחרת אף אחד לא יצליח להגיע אל העמודים המסוימים הללו.
מה לא לעשות?
- אל תשבו בחוסר מעש
אי נקיטת פעולה למניעת סריקה ואינדוקס של חלק רגיש באתר נובעת לעיתים קרובות מן המחשבה שאף אחד לא יגיע לאתר, או יגיע ולא יבין מה הוא רואה וכדומה, ולכן מה זה בעצם משנה אז למה לטרוח. אלא שההיפך הוא הנכון: כאמור, חשיפה של איזורים רגישים באתר יכולה לגרום לנזק ממשי, ולכן מוטב לא לקחת סיכון אלא לעשות מאמץ להגן עליהם.
- אל תבטלו את קובץ txt
זו אולי אחת הדרכים הנפוצות ביותר בהן אנשים מנסים למנוע מחלק מסוים באתר להתאנדקס. כאשר מבטלים את קובץ robots.txt באמצעות פקודת disallow, הסורקים של מנועי החיפוש אמנם לא סורקים את החלקים הרגישים – אולם שום דבר לא מונע מהם לאנדקס אותם בכל זאת. כלומר, הם יודעים שקיים עמוד כלשהו במיקום המסוים הזה, מסיקים פחות או יותר במה עוסק התוכן שבו (על סמך קישורים, למשל) ולכן הם עשויים להציג אותו בתוצאות החיפוש על אף שאינם יודעים מהו התוכן המדויק שבו.
בנוסף, כפי שצוין לעיל, הפעלת פקודת disallow מונעת מן הסורקים של גוגל לקרוא תגיות אחרות בעמודים שלא נסרקים, כגון noindex או תגי קנוניקל, פשוט משום שהם לא רואים שום דבר בעמוד. בנוסף, מי שהפעיל את פקודת ה-disallow עלול לשכוח לבטל אותה כאשר האתר עולה לאוויר, מה שעשוי למנוע את סריקתו.
ומה אם משהו כבר התאנדקס בגוגל?
אם התאנדקס בגוגל חלק מסוים באתר שלא היה אמור להתאנדקס, הדרך הטובה ביותר להסירו היא לשלוח בקשה להסרת כתובת URL באמצעות Google Search Console. באופן כזה הקישור יוסר בתוך 90 יום.
בכל מקרה כדאי לזכור כי עשויים לארוך חודשים ארוכים בטרם כתובת URL כלשהי תיסרק פעם נוספת, כך שההשפעה של כל תיקון או טיפול בבעיה עשויה להיות נראית לעין רק לאחר זמן רב מרגע הביצוע עצמו.