ניתוח

השלב הבא במהפכה של OpenAI כבר כאן - ואיתו גם הסכנות

חברת הבינה המלאכותית חשפה את סורה - שמאפשר יצירת סרטונים מרהיבים באמצעות פקודת טקסט פשוטה; החשש: הטכנולוגיה החדשה תשמש ליצירת סרטונים מזויפים בהשתתפות אנשים אמיתיים; אילו תעשיות צפויות להיפגע מהפיתוח החדש?

17.02.2024, 11:26 | עומר כביר

המראות על המסך מהממים. בסרטון אחד, אישה צועדת להנאתה ברחובות שטופי הגשם של טוקיו, שלטי ניאון צבעוניים זוהרים ברקע. באחר, עדר ממותות שעירות מסתער לכיוון המצלמה, השלג שצעידתן מייצרת עולה השמימה כמו ענן לבן וסמיך. הנה טריילר לסרט מדע בדיוני שבו אדם נאה אך מסתורי צועד לעבר חללית. וכאן, קרב של ספינות פיראטים בתוך כוס קפה, איש צעיר נרגע על ענן בעודו קורא ספר, צילום היסטורי של עיירה בתקופת הבהלה לזהב בקליפורניה, קנגורו מאויר רוקד דיסקו במה שנראה כמו סצנה מסרט של פיקסאר ועוד ועוד.

המשותף לכל סרטוני הווידיאו האלו? ראשית, אף אחד מהם לא אמיתי, גם אלו שכוללים דמויות אנוש שנראות אמיתיות ביותר. אבל זה לא חדש, כולנו כבר מכירים את היכולות של אמני האפקטים המיוחדים של הוליווד. האלמנט המשותף השני הוא המשמעותי יותר: כולם נוצרו באמצעות פקודת טקסט פשוטה, משפט קצר ותמציתי ("טריילר לסרט בכיכוב איש חלל הרפתקן בן 30 שחובש קסדת אופנוע מכוסה בסריג אדום, שמיים כחולים, מדבר מלח, סגנון סינמטי, צולם בפילם 35 מ"מ, צבעים חיים"), לעתים כמה מילים ("קנגורו מצויר רוקד דיסקו"). וכולם מבשרים את השלב הבא במהפכת הבינה המלאכותית הגנרטיבית (GenAI), את השיבוש האפשרי שהיא תייצר לתעשיות שונות, ואת הסכנה שהיא עלולה לטמון בחובה.

רק מה שמעניין - הצטרפו לערוץ כלכליסט בטלגרם

OpenAI, האמא (הלא-רשמית) של מהפכת ה-GenAI, אחראית לאחד השינויים המשמעותיים שעוברים על עולם הטכנולוגיה בשנים האחרונות, הודות לשני מודלים חלוציים שהשיקה – מודל הטקסט לתמונה Dall-E ומודל השפה הגדול (LLM) שרבים פוגשים בדמות הצ'טבוט ChatGPT. אבל לחברה אין שום כוונה לעצור, וביום חמישי היא חשפה את השלב הבא במהפכה שלה: סורה (Sora, שמיים ביפנית), מודל טקסט לווידיאו שיאפשר למשתמשים ליצור סרטונים מלהיבים ושובי לב באמצעות פקודת טקסט פשוטה.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024

החברה אינה הראשונה שחושפת מודל טקסט לווידיאו. סטארט-אפ מניו יורק בשם Runway AI הציג מודל כזה כבר באפריל שעבר, והדגים איך באמצעות פקודות טקסט ניתן לייצר סרטונים כמו כלב מדבר בסמארטפון או פרה חוגגת יום הולדת. סרטונים אלו היו קצרים, בני כ-4 שניות בלבד, מטושטשים ומעוותים, אבל הדגימו את יכולות הטכנולוגיה. מטא חשפה מודל משלה בספטמבר, וגוגל באפריל. גם אלו סיפקו תוצאות מוגבלות באיכויותיהן: סרטונים בני שניות ספורות, עם פריימים קופצים ודמויות מעוותות ולא משכנעות. הם היו תצוגת תכלית יפה, אבל אף אחד לא היה חושד שמדובר בדבר האמיתי.

התוצאות של סורה שחשפה OpenAI בשבוע שעבר הן כבר קפיצת מדרגה משמעותית. חלקם נראים כמו לקוחים מתוך סרט הוליוודי עתיר תקציב. אחרים, כמו נוצרו על ידי אולפני אנימציה מן הדרגה הראשונה. רק מומחה אמיתי יצליח לזהות שמדובר בסרטון שנוצר כולו על ידי מכונה באמצעות פקודת טקסט קצרה, וגם זה לא בהכרח. אפשר להעריך שהמתחרות יצמצמו את הפערים בתוך זמן לא רב.

החשש המיידי הוא שהטכנולוגיה החדשה תשמש ליצירת סרטונים מזויפים בהשתתפות אנשים אמיתיים, שיכולים להוביל לשיבוש תהליכים דמוקרטיים. "אני פשוט מבועת שדבר כזה יביא להטייה של מערכת בחירות קרובה", אמר לניו יורק טיימס פרופ' אורן עציוני מאוניברסיטת וושינגטון, שמתמחה בבינה מלאכותית. חשש אפשרי הוא שגורם כלשהו ינצל את המערכת על מנת לייצר סרטון מרשיע של אחד המועמדים במערכת הבחירות לנשיאות בארה"ב שנערכת השנה, ולהפיץ אותו בזמן מכריע בקרב בוחרים במדינה או מחוז שהבדל של כמה קולות בהם יכול להטות את תוצאות הבחירות לכאן או לכאן.

ב-OpenAI מודעים היטב ליכולות הניצול לרעה, וזו הסיבה העיקרית שבשלב זה המודל פתוח לגישה רק לרשימה מצומצמת של נסיינים, בעיקר אקדמאים וחוקרים עצמאים, שנבחרו על ידי החברה. המשימה שלהם: לזהות דרכים בהן ניתן לנצל לרעה את היכולות החדשות. "המטרה היא לתת קדימון למה שנמצא באופק, כדי שאנשים יוכלו לראות את היכולות של הטכנולוגיה הזו, ושאנחנו נקבל משוב", אמר ד"ר טים ברוקס, חבר בצוות הפיתוח של סורה, לניו יורק טיימס.

OpenAI's Sora is going to change marketing forever, enabling anyone to unleash his inner creativity.

Check this 100% AI-generated video of Mammoth generated with the new "text-to-video" OpenAI model: pic.twitter.com/DcDGPjpBXC
— William Briot (@WilliamBriot) February 15, 2024

החברה לא מסרה כמה זמן בכוונתה לבחון את סורה לפני שתספק גישה רחבה למודל. את GPT-4 בחנה החברה במשך שישה חודשים לפני שפתחה אותו לציבור. לוח זמנים דומה משמעו שסורה תהיה נגישה באוגוסט, בדיוק בזמן לרגעי השיא של מערכת הבחירות בארה"ב. אפשר לקוות שבחברה יבחרו לא לקחת סיכון שכלי עצמתי ולא מוכר שכזה ישמש ליצירת סרטונים שיכולים להשפיע על תוצאות הבחירות, וימתינו עם הנגשת המודל לפחות עד אחרי יום הבחירות.

חשש אחר קשור למידע ששימש לאימון המודל. ב-OpenAI לא חושפים את מספר הסרטונים ששימש לאימון שלו, או את מקורם, ומציינים רק שנעשה שימוש בסרטונים שזמינים פומבית ברשת וכן בסרטונים שהחברה קיבלה רישיון להשתמש בהם מבעלי זכויות יוצרים. המידע שבאמצעותו מאומן המודל יכול להשפיע על התוצאות שהוא מייצר, ולקדם למשל סטריאוטיפים נגד מיעוטים או יצירה של תכנים שקריים. לכן, יש חשיבות רבה לדעת על אילו מקורות התבססה OpenAI, ולו רק על מנת שאפשר יהיה לוודא שמדובר במקורות מידע מגוונים ומייצגים.

27 hours(?) since the historic dropping of text-to-video model Sora by OpenAI...

Many people are baffled with the quality and don't know what to think. (Many hate it.)

7 of the more impressive videos and comments here:
— Borriss (@_Borriss_) February 16, 2024

מעבר לחששות אלו, יש גם את השאלה אילו תעשיות עתידה הטכנולוגיה החדשה לשבש. הוליווד נמצאת על הכוונת, ובעיקר מקצועות כמו צלמים, אנשים אפקטים מיוחדים, שחקנים והצוות המיידי שמקיף אותם (מלבישים, מאפרים, מעצבי שיער וכו'). סורה מסוגלת בינתיים לייצר רק סרטונים קצרים, בני כמה עשרות שניות לכל היותר, ונטולי קול. אבל לאור ההתקדמות האדירה של הטכנולוגיה בתקופת זמן קצרה כל כך, היכולת לייצר סרטונים מורכבים יותר בתוספת קול, אולי אפילו דיאלוג, לא נראית כמו תרחיש מופרך. זה אולי לא יקרה השנה או בשנה הבאה, אבל בתוך חמש שנים? לא נראה שכדאי להמר נגד זה.

וברגע שזה יקרה, כל מה שיידרש ליצירת סרט זה תסריטאי טוב, ואולי גם במאי פרומפטים שיודע לפרוט את התסריט לסצנות כתובות שניתן להזין למודל ולקבל בסיום התהליך סרט מלא. לאור ההתקדמות ביכולות של מודלי שפה גדולים, ייתכן שבתוך חמש שנים אפילו בשני תפקידים אלו לא יהיה צורך, ובאמצעות כמה משפטים מנוסחים היטב ניתן יהיה להורות לצאצא של ChatGPT לייצר תסריט מלא מוכן להזנה למודל טקסט לווידיאו.

תרחיש כזה נמצא עוד כמה שנים בעתיד. אבל תעשייה שנמצאת על הכוונת כבר בהווה, או לפחות ברגע שסורה תיפתח לגישה רחבה, היא תעשיית צילום הפרסומות. פעמים רבות, פרסומת היא לא יותר מקונספט של אווירה, סגנון ולייפסטייל. זה בדיוק סוג הסרטונים שסורה כבר עכשיו מצטיין ביצירתם. קופירייטר מוכשר, בשעה של עבודה וכמה משחקי ניסוי וטעייה, יכול למצוא את הפרומפט שיגרום למודל לייצר את 30 השניות שדרושות לו לצורך סרטון פרסומת. עכשיו צריך להוסיף קצת מוסיקה (יש מודל לזה), ואולי כמה דברי קריינות (גם לזה יש), ויש פרסומת מלאה ומקורית, בהפקה בלעדית של אדם אחד.

אין שום סיבה שאלו יהיו שתי התעשיות היחידות. כל תחום שעושה שימוש בווידיאו - משדרי חדשות באולפנים, סרטוני הסבר והדרכה, תוכניות בישול ועוד – הכל יכול להשתנות ברגע שסורה ומודלים דומים יגיעו לבשלות ולשימוש רחב. הרבה אנשים לא יאהבו את התוצאה. ספק אם זה מה שיעצור את הטכנולוגיה.

תגיות

בינה מלאכותית OpenAI AI