טוויטר מודה: האלגוריתם כשל ונוטה לגזענות

הלילה פרסמה החברה את ממצאי הבדיקה החשובה שערכה, לפיהם אלגוריתם חיתוך התמונות שלה, מבוסס הבינה המלאכותית, אכן נוטה לגזענות. אולם במקום לצלול לעומק הבעיה כדי לפתור אותה, טוויטר החליטה להפסיק את השימוש בו

20.05.2021, 09:14 | עומר כביר

בספטמבר האחרון, משתמשים בטוויטר החלו לשים לב למשהו מוזר. כאשר הם העלו תמונות של אדם לבן לצד אדם שחור, אלגוריתם חיתוך התמונות של הרשת החברתית, שמתאים את התמונה לתצוגה המקדימה בפיד, העדיף באופן מוזר לחתוך החוצה את האדם השחור ולהשאיר רק את האדם הלבן. זה קרה עם אנשים רנדומליים, עם פוליטיקאים מוכרים, עם דמויות מאוירות, אפילו עם כלבים. משהו היה רקוב בממלכת טוויטר. אלגוריתם גזעני, לחשו ברשתות.

לעמוד כלכליסט-טק לחצו כאן

קראו עוד בכלכליסט:

טוויטר היתה יכולה להגיב לזה בכמה דרכים. היא היתה יכולה להתעלם או להכחיש, להגיד שהממצאים האקראיים של משתמשים לא מלמדים על כלום ולהוסיף כמה מלים ריקות על המחויבות שלה לגיוון ושוויון – תגובה חביבה על תאגידים במצבים כאלו. היא היתה יכולה פשוט להתנצל על הטעויות שעשתה, ולהבטיח שהיא לומדת מהן ומנסה להשתפר (זו התגובה שחביבה במיוחד על מייסד ומנכ"ל פייסבוק, מארק צוקרברג). היא היתה יכולה גם לעצור בהבטחה שלה לשינויים באלגוריתם, ולקוות שתשומת הלב המוגבלת שלנו תעביר את הרשת לסערה הבאה בתוך זמן קצר.

אבל היא בחרה בדרך אחרת, אחראית יותר וראויה לשבח – לבדוק לעומק מה באמת קורה, האם אכן יש בעיה. הלילה פרסמה החברה את ממצאי הבדיקה שלה, והשורה התחתונה שלהם מבהירה: אתם לא מדמיינים, באמת יש בעיה באלגוריתם חיתוך התמונות מבוסס למידת מכונה. היא רק אולי לא כזו חריפה כמו שאפשר היה לחשוב.

טוויטר בדקה את האלגוריתם כחלק מניסוי כמותי שערכה, במסגרתו זיווגה באופן רנדומלי תמונות של פרטים מגזרים ומגדרים שונים, ואז בדקה איך האלגוריתם חותך אותן. החברה ביקשה לבדוק שני משתנים: האם האלגוריתם מעדיף מגדר מסוים והאם הוא מעדיף צבע עור מסוים.

אלגוריתם גזעני קצת

הממצאים מובהקים, גם אם לא מכריעים. בהשוואה בין גברים לנשים, בלי תלות בצבע עור, היתה הטיה של 8% לטובת נשים (כלומר, במקום שלאשה יהיה סיכוי של 50% להבחר, היה לה סיכוי של 58%, ולגבר 42%). בהשוואה בין לבנים לשחורים, בלי תלות במגדר, היתה הטיה של 4% לטובת לבנים. בהשוואה של נשים לבנות לנשים שחורות היתה הטיה של 7% לנשים לבנות. בהשוואה של גברים לבנים לגברים שחורים, היתה הטיה של 2% לגברים לבנים. כלומר, האלגוריתם גזעני, אבל רק קצת, בחלק מהמקרים מתחת לרף המובהקות הסטטיסטית. וסקסיסטי, אבל לא ברמה קיצוני.

בחלק אחר של הניסוי בחרה טוויטר 100 תמונות גברים ו-100 תמונות נשים שכללו לא רק פנים, על מנת לבחון האם, בעת חיתוך תמונות הנשים, האלגוריתם מעדיף חלקי גוף שאינם הפנים, דוגמת שדיים. כלומר, האם האלגוריתם מתנהג כמו גבר סקסיסטי ומחפיץ נשים. במקרה זה, דיווחה החברה, רק ב-3% מהתמונות החיתוך לא כלל את הראש. וכשהחיתוך לא כלל את הראש, הוא כלל חלקים לא-פיסיים בתמונה, כמו מספר על חולצת ספורט.

לאור ממצאים אלו, החליטה החברה להפסיק את השימוש באלגוריתם. "שקלנו את היתרונות של המהירות והעקביות של חיתוך אוטומטי, לעומת הסיכונים האפשריים שראינו במחקר שלנו", הסבירה החברה. "אחת המסקנות שלנו היא שלא כל דבר בטוויטר הוא מועמד טוב לאלגוריתם. במקרה הזה, איך לחתוך תמונה היא החלטה שעדיף להשאיר לבני אדם". במקום זאת, טוויטר בוחנת אפשרות להציג תמונה בפיד ביחסי גודל משתנים, מבלי לחתוך אותה, כך שמשתמשים יוכלו לראות את את התמונה המלאה מבלי להקליק עליה – פתרון שעדיף בכל מקרה, גם אם האלגוריתם תקין.

טוויטר לא הלכה עד הסוף

הבדיקה שערכה טוויטר ראויה לשבח, וכך גם הפרסום השקוף של הממצאים. ואולם, הבדיקה של החברה אינה מלאה וטוויטר לא הלכה עם זה עד הסוף. כי הרשת החברתית לא ענתה על כמה שאלות מהותיות. זה חשוב לדעת שיש בעיה ולהכיר בה, אך התגובה של החברה לא צריכה להעצר ב"אלגוריתם בעייתי, אז נזרוק אותו לזבל". טוויטר צריכה גם לבדוק למה האלגוריתם גילה הטיה לטובת נשים ולבנים, מה המנגנונים הפנימיים באלגוריתם שיצרו את ההעדפה הזו, והאם אפשר לתקן את ההטיה שלו או לצמצם אותה משמעותית.

ואז טוויטר צריכה לבדוק האם האשם ליצירת ההטיה קשור במידה מסוימת בהליך הפיתוח של האלגוריתם, האם יש דברים שהיא יכלה לעשות כדי לתקן את הליך הפיתוח כך שבעיות כאלו לא ייווצרו בעתיד, והאם ניתן ליצור מנגנונים פיקוח ובקרה שיאפשרו לזהות בעיות כאלו לפני שאלגוריתם בינה מלאכותית חדש משוחרר לשימוש בקרב המשתמשים שלה. היא נדרשת לענות על שאלות חשובות כמו האם מדובר במעיד חד-פעמית, או שמא יש כאן בעיית עומק בטוויטר שנובעת ממשתנים אפשריים כמו מיעוט של עובדים שחורים בצוותי הבינה המלאכותית שלה.

אלו לא סוגיות בעלות השלכות תיאורטיות. טוויטר, כמו כל שירות מקוון מודרני, מפעילה מאות אם לא אלפי מערכות ואלגוריתמים של בינה מלאכותית שמנהלים הבטים שונים של הפעילות המקוונת שלה – הצגת פרסומות, ניטור וסינון תכנים פוגעניים, זיהוי טרנדים חמים ועוד. אם אחד מהם סבל מהטיה, אולי גם אחרים סובלים ממנה. ייתכן, למשל, שאלגוריתם שאמון על זיהוי אוטומטי של תכני הסתה מתקשה עם סלנג ייחודי של קבוצות מיעוט מסוימות ומסמן תכנים פוגעניים גם כשזה לא המצב. או לא מזהה שיח חם סביב נושא מסוים ולכן לא מעלה אותו לרשימת הטרנדים החמים.

אלו סוגיות שזיהויים מצריך בדיקת עומק רחבה יותר מהתפקוד של אלגוריתם אחד, ומחויבות לברור לא רק את הכשלים אלא גם את הסיבות הנקודתיות והמערכתיות שלהם, ולפעול לשינויים ארגוניים רחבים במקרה הצורך. הכל, תוך שקיפות מלאה ועדכון הציבור בממצאים, בתובנות ובתהליכים שנוצרים. כל זה מתחבר לתחום הרחב יותר של אתיקה בבינה מלאכותית, שבו כבר עסקתי כאן בעבר. טוויטר, וחברות טכנולוגיה אחרות, צריכות לקבל אחריות מוסרית על מוצרי ה-AI שהן מפתחות, במיוחד לאור ההשפעה העמוקה שיכולה להיות להם על חיי משתמשים. הבדיקה שערכה טוויטר ופרסום הממצאים שלה הם צעד ראשון בכיוון זה, אך צעד קטן מאוד. היא ואחרות צריכות לעשות יותר, הרבה יותר.

לתגובות על הכתבה ליחצו כאן