אתר זה עושה שימוש בעוגיות על מנת להבטיח לך את חוויית הגלישה הטובה ביותר.
גוגל מנסה להגיע ל"רשת העמוקה" צילום: shutterstock

גוגל מנסה להגיע ל"רשת העמוקה"

חלק ניכר מהמידע שקיים ברשת איננו מאונדקס ואיננו נגיש למשתמש, משום שהוא מאורגן כמאגר מידע ואינו מגיב כמקובל לרובוטי-החיפוש. גוגל וחברות אחרות מנסות לפצח את הגישה אליו

23.02.2009, 13:22 | יוסי גורביץ
במהלך הקיץ של 2008, הכריזה גוגל שאינדקסה עד כה כטריליון דפי רשת, הישג ניכר; אך על פי הערכות שונות, הרשת "הפתוחה" – זו שניתנת לגישה על ידי הרובוטים (crawlers) של גוגל – מהווה רק חלק קטן מסך המסמכים הקיימים ברשת. אם הרשת "הפתוחה" מכילה כ-167 טרהבייטים של מידע, מדענים בברקלי מעריכים שהרשת "העמוקה", זו שאין אליה גישה ישירה, מכילה לא פחות מ-91,000 טרהבייטים.

כעת, מדווח הניו יורק טיימס, מנסה גוגל – וכן חברות אחרות – למפות בכל זאת את המידע הבלתי נגיש. הבעיה העומדת בפני המפתחים היא שחלק ניכר מהרשת "העמוקה" איננו בקבצי HTML ואיננו מקושר באופן ישיר לעמודי רשת; המדובר בעיקר במאגרי מידע.

שיטתה של גוגל היא לחפש אחר מאגרי מידע, ומשזוהה כזה לנסות לברר את זהותו; לאחר מכן, היא מטיחה בו מילות חיפוש שעשויות להתאים למאגר המידע. למשל, אם המאגר עוסק באמנות, תוכנת החיפוש תנסה למצוא בו מילים כגון "רמברנדט", "סזאן", וכו'; אם תתקבל תוצאה חיובית, היא תירשם.

התהליך ארוך מאד בהשוואה לחיפוש בעמודי רשת רגילים ודורש משאבים ניכרים יותר. עם זאת, יש עניין מסחרי רב בשילוב של מאגרי המידע הללו, רבים מהם של גופים מסחריים, עם שאר הרשת; הוא עשוי לאפשר למנועי חיפוש לענות על שאלות כגון "מה הטיסה הזולה ביותר מנקודה א' לנקודה ב'", או לאפשר לאתרי-בריאות לקשר, במהלך כתבה על תרופה מסוימת, לתוצאות הניסויים האחרונים בה.

תגיות