צילום: shutterstock

גוגל מנסה להגיע ל"רשת העמוקה"

חלק ניכר מהמידע שקיים ברשת איננו מאונדקס ואיננו נגיש למשתמש, משום שהוא מאורגן כמאגר מידע ואינו מגיב כמקובל לרובוטי-החיפוש. גוגל וחברות אחרות מנסות לפצח את הגישה אליו

23.02.2009, 13:22 | יוסי גורביץ

במהלך הקיץ של 2008, הכריזה גוגל שאינדקסה עד כה כטריליון דפי רשת, הישג ניכר; אך על פי הערכות שונות, הרשת "הפתוחה" – זו שניתנת לגישה על ידי הרובוטים (crawlers) של גוגל – מהווה רק חלק קטן מסך המסמכים הקיימים ברשת. אם הרשת "הפתוחה" מכילה כ-167 טרהבייטים של מידע, מדענים בברקלי מעריכים שהרשת "העמוקה", זו שאין אליה גישה ישירה, מכילה לא פחות מ-91,000 טרהבייטים.

כעת, מדווח הניו יורק טיימס, מנסה גוגל – וכן חברות אחרות – למפות בכל זאת את המידע הבלתי נגיש. הבעיה העומדת בפני המפתחים היא שחלק ניכר מהרשת "העמוקה" איננו בקבצי HTML ואיננו מקושר באופן ישיר לעמודי רשת; המדובר בעיקר במאגרי מידע.

שיטתה של גוגל היא לחפש אחר מאגרי מידע, ומשזוהה כזה לנסות לברר את זהותו; לאחר מכן, היא מטיחה בו מילות חיפוש שעשויות להתאים למאגר המידע. למשל, אם המאגר עוסק באמנות, תוכנת החיפוש תנסה למצוא בו מילים כגון "רמברנדט", "סזאן", וכו'; אם תתקבל תוצאה חיובית, היא תירשם.

התהליך ארוך מאד בהשוואה לחיפוש בעמודי רשת רגילים ודורש משאבים ניכרים יותר. עם זאת, יש עניין מסחרי רב בשילוב של מאגרי המידע הללו, רבים מהם של גופים מסחריים, עם שאר הרשת; הוא עשוי לאפשר למנועי חיפוש לענות על שאלות כגון "מה הטיסה הזולה ביותר מנקודה א' לנקודה ב'", או לאפשר לאתרי-בריאות לקשר, במהלך כתבה על תרופה מסוימת, לתוצאות הניסויים האחרונים בה.

לתגובות על הכתבה ליחצו כאן

תגיות

גוגל Deep Web חיפוש רשת עמוקה

הרשת העמוקה היא תוכן שמסתתר מאחורי טפסים. לדוגמא טופס מאגר מכוניות: יצרן: ___ צבע: ___ [חפש] גוגל פיתחו לאחרונה שיטה להציף דפי תוצאות חיפוש בעזרת טפסים. כשרובוט הסריקה מגיע לטופס הוא מנסה למלא את הטופס ע"י צירופי ערכים שמפיקים דפים שונים ככל הניתן. הדפים שמוצפים הם דפי HTML של תוצאות חיפוש עם לינקים, ומהווים נקודת פתיחה להמשך חיפוש רגיל (כמו כל דף HTML).

חגי , מודיעין | 09.03.09

מטיחה בו מילות חיפוש...

25.02.09

הם יכנסו למאגרי מידע שהם לא אמורים להיכנס אליהם.

23.02.09

גוגל מנסה להגיע ל"רשת העמוקה"

תגיות

3 תגובות לכתיבת תגובה