חברות הבינה המלאכותית מציגות: פתיחות שמכסה על אטימות

חברות שעוסקות בבינה מלאכותית, כמו OpenAI מתהדרות בקידום פתיחות ושקיפות, אך המילים הללו מהוות בעיקר אמצעי להסוואת המנגנון שמאחוריהן והסיכונים שבו

03.03.2024, 06:40 | ויקי אוסלנדר

בשבוע שעבר יצא מאגר המידע האקדמי JSTOR בהודעה חריגה: הוא יעניק גישה בחינם למעל אלף בתי סוהר ברחבי העולם וינגיש מיליוני מאמרים אקדמיים עבור כחצי מיליון אסירים. "לומדים אסירים נותרו מאחור עשורים", כתבו בהודעה רשמית, "גישה מוגבלת לאינטרנט, מימון ותמיכה מועטים להשכלה גבוהה בבתי הכלא הפכו את הגישה לספריות דיגיטליות כמו JSTOR לכמעט בלתי אפשרית".

ההודעה בבסיסה מרגשת — גישה פתוחה למידע יקר ערך למי שנמצא בתחתית הסולם החברתי. מאגר המידע הוותיק, שמכיל כמעט כל כתב עת אקדמי נחשק, ציפה כנראה שיזכה למילה טובה בתקשורת. אבל לא כך היה, מעט הסיקור התקשורתי שהידיעה זכתה לו נסב לא סביב מה JSTOR עשה, אלא סביב מה שהוא מסמל עבור חלקים גדולים בציבור הרחב בעשור האחרון — המזבח שעליו מת אהרון שוורץ.

רק מה שמעניין - הצטרפו לערוץ כלכליסט בטלגרם

שוורץ, מתכנת והאקר־טיביסט, נלחם כל חייו הקצרים להנגיש ידע באמצעות האינטרנט. במעשה אחרון של התנגדות הדליף ב־2011, כשהיה רק בן 26, את מאגר המידע של JSTOR משרתי אוניברסיטת MIT. הוא נתפס, נעצר וטיפולו עבר לידיים פדרליות נלהבות במיוחד שהגישו נגדו כתבי אישום חמורים שנשאו את האפשרות לגזר דין של עד 35 שנות מאסר. הלחץ הכניע אותו ובתוך זמן קצר הוא התאבד.

הראשון להספיד את שוורץ היה טים ברנרס־לי, מי שב־1991 פיתח את יסודות ה"רשת" ומוכר היום כאבי האינטרנט. בזמנו ברנרס־לי ביקש להקל את הפצתו של המחקר המדעי בעולם ולשם כך פיתח את מרחב דפי האינטרנט (ה־www — World Wide Web). את קוד המקור הוא שחרר בשקיפות וללא עלות כדי שנשמת המצאתו תהיה דמוקרטית, ביזורית ופתוחה, כולם היו יסודות האינטרנט. ההמצאה המופלאה, שתכליתה להנגיש מידע, חומשה על ידי ארגונים כמו JSTOR כדי ליצור "גנים סגורים" של ידע בתשלום. על אחת מחומות הגנים מת שוורץ. יותר מעשור אחרי ששוורץ מת, JSTOR שוב בוחר בפתיחות. מדוע דווקא כעת? לא במקרה, אלא כחלק מעדנה מחודשת של הערך "פתוח" במגזר הטכנולוגיה, סביב משבר של מידע ואמת, שמובל על ידי תחום אחד ספציפי — בינה מלאכותית, וחברה אחת שמחויבותה לפתיחות כה גדולה שהיא טבעה זאת בשמה — OpenAI.

1. רוח התקופה

מאז החלה להשיק מוצרים לשימוש הציבור הרחב עושה זאת OpenAI תחת קידום תפיסות של "פתיחות". הטיעון הוא שפעילותה כה קריטית לחיים כפי שאנו מכירים אותם, לטוב או לרע, חובה מוסרית לעשות זאת בשקיפות. השקיפות נועדה לאותת על אחריות, והאחריות שוב מאותתת לחשיבות, והכל ביחד משמשים כלי להבנות את רוח התקופה. אבל כמו אצל JSTOR, גם אצל OpenAI ויתר חברות הבינה המלאכותית — פתיחות, שקיפות ואחריות הן רק "איתות סגולה" (הבעת דעה מוסרית במטרה לסמן שאתה טוב), חלק מהפאזל שהכרחי לתעשייה רעבה למזומנים. בפועל מדובר באטימות כל הדרך למטה.

מחקר שנערך לאחרונה על ידי המרכז למחקר על מודלים בסיסיים של אוניברסיטת סטנפורד, העניק ל־OpenAI ציון של 48 מתוך 100 לגבי שקיפות מודל השפה שלה. הציון ניתן במסגרת מדד חדש שתכליתו לדרג את השקיפות של החברות הגדולות שפועלות בתחום הבינה המלאכותית, ובהן מטא, גוגל, אמזון, OpenAI, אנתרופיק וגם AI21 הישראלית. המדד כולל ערכים כמו על אילו נתונים הוכשר המודל (וגם האם ידוע על הגנת זכויות יוצרים עליהם), מה השכר ששולם לממייני ומתייגי הנתונים (האם ידוע אם עובדים בשכר נמוך והיכן), איך משתמשים במודל, סיכונים והשפעה (למשל כמה משתמשים במודלים, אילו וכמה יישומים נבנים על גבם). את הניקוד הגבוה ביותר קיבל המודל Llama2 של מטא, אבל גם הוא הסתכם בציון לא מרשים של 54 בלבד מתוך 100. את הציון הנמוך ביותר קיבלה אמזון (12), וקצת אחר כך AI21 (25), ובסך הכל ממוצע לא מרשים של 37. בבית הספר קוראים לציון הזה נכשל.

ציונים נמוכים אלה ניתנו לאותן חברות שמתגאות ב"פתיחות", "שקיפות" ו"אחריות". אבל לא רק על הקרביים של המוצרים אנחנו לא יודעים, אלא גם על המעטפת התומכת בקיומם. מה שאנחנו כן יודעים הם רק נתונים כלליים והערכות שמבוססים על מחקרים חיצוניים, דו"חות של החברות עצמן ונתונים שמתפרסמים על ידי רשויות מקומיות. הנה כמה לדוגמה: הערכה אחת מצביעה על כך ש־ChatGPT, הצ'אטבוט של OpenAI, צורך אנרגיה שוות ערך ל־33 אלף בתים, או שחיפוש אחד ב־ChatGPT צורך עד פי חמישה כמות אנרגיה לעומת חיפוש אינטרנט רגיל; בעיר ווסט דה מוין שבמדינת איווה, היכן שמצוי מרכז הנתונים של מודל GPT4 המתקדם של OpenAI, דווח כי חודש לפני שהחברה סיימה לאמן את המודל הוא צרך 6% מכל המים של המחוז; לפי דו"חות גוגל, אימון המודל ג'ימני (אז בארד) שלה הזניק את צריכת המים בחברה ב־20%; ובמחקר מינואר 2022 כינה צוות חוקרים במטא את העלויות הסביבתיות של התחום "הפיל שבחדר".

אנחנו גם לא ממש מבינים כמה יעילים, שמישים או רווחיים המוצרים. אפשר רק לנסות לאסוף מידע. דו"ח חברת הייעוץ מקינזי מאוגוסט 2023, למשל, מצא ש־55% מהארגונים אימצו בינה מלאכותית, אך רק 23% ציינו שיותר מ־5% מהרווחים שלהם נובעים מהשימוש בבינה מלאכותית, ממש אותו נתון מ־2022. האתר Big Technology מצא כי השימוש בנייד ובדפדפן ב־ChatGPT לא רק קפא, אלא ירד ב־11% לעומת שיא כל הזמנים.

2. עוד מיתוס

בזמן שמיתוס השקיפות נקבר בים של עמימות נתונים, ומתובל בהערכות של מגבלות אנרגטיות, ממשיכות חברות בינה מלאכותית גנרטיבית לזרוע עוד מיתוס — של טרנספורמציה, גם היא עטופה ברטוריקה של פתיחות אך שקועה בעמימות כללית. ב־OpenAI הציגו לאחרונה לעולם את Sora — מודל טקסט לווידיאו. הם שחררו דוגמאות באופן סלקטיבי ובנו מערך ציפיות עצום, כאילו עוד רגע הכלי יוכל לייצר סרט שלם באיכות גבוהה. גוגל עשתה דבר דומה עם הצגת "ג'ימני 1.5". אבל גוגל ו־OpenAI הציגו את המודל בלי לתת לאדם חיצוני אחד להתנסות במוצר, ולא צירפו לפרזנטציה כל חומר מחקרי מעמיק. את כל זאת הן עשו בזמן שהמוצרים שלהן סובלים מבעיות קריטיות שהחברות עצמן מודות שהן לא יודעות לתקן.

כך בכנס של "הוול סטריט ג'ורנל" הודו OpenAI ואנתרופיק כי הן דוהרות להמשיך לשחרר מוצרים אף שהן מכירות בכך שהמערכות שפיתחו "פולטות בסמכותיות הצהרות שגויות לחלוטין", וכי אין להן פתרונות ברורים לאתגרים כולל "שיפור יעילות האימון או הוראת המודלים, כמו גם הסרת זכויות יוצרים או נתונים רגישים מהאימון".

ככל הנראה בעיות קריטיות בטלות כשיש צורך לייצר עניין ולגייס הון. כך פתיחות הפכה למילה ריקה מלאת הוד, אולי כדי שלא נשים לב שהיא עוטפת טכנולוגיה לא אמינה לגמרי, בלי יישומים חיוניים עדיין, בתעשייה ששורפת הרבה יותר כסף משהיא מרוויחה ושמזהמת את הסביבה הרבה יותר ממה שהיא מוצאת פתרונות למשבר האקלים. בעולם האמיתי קוראים לזה מיתוסים, ולמרבה הצער — בגלל מיתוסים אנשים מתים.

תגיות

ג'מיני בינה מלאכותית OpenAI AI ChatGPT אנתרופיק Sora