שימי דביר
מודלי שפה
26/9/2024

לא בדיוק Her, אבל עדיין מדהים: המודל הקולי החדש של OpenAI

לפני כמה חודשים חברת OpenAI הפילה פצצה אל תוך חיינו בכך שהציגה את המודל הקולי החדש שלהם, המודל הקולי היה שונה מכל מה שהכרנו והזכיר לכולנו את מערכת ההפעלה הקולית מהסרט Her. בסרטוני הדמו שחברת OpenAI הציגה המודל הקולי הציג יכולות יוצאות דופן שמצליחות לטשטש את הגבול בין שיחה עם רובוט, לשיחה עם בן אדם. המודל הקולי החדש בדיוק שוחרר למנויי ה- Plus ובאנו לבדוק האם הוא עומד בהבטחות.

בחודש מאי פרסמנו אצלנו כתבה שסוקרת את הדמו של המודל החדש של OpenAI הכריזו עליו, ולפי שם הכתבה, אפשר לראות שמאד התלהבנו ממה שראינו

( מישהו יכול להרים את הלסת שלנו מהרצפה?: תכירו את העוזר הקולי החדש של OpenAI )

זה התחיל מדמו ראשי שהחברה שחררה לציבור באחד מימי ההכרזות שלה, ולאחר מכן הם שיחררו מספר דמואים קצרים שמציגים את מנעד היכולות הרחב של המודל הקולי החדש, הדמואים הציגו יכולות שאין לאף מודל קולי שראינו, שבעצם הבטיחו חווית שיחה שמרגישה כמו שיחה עם בן אדם אנושי, או כמו שהם קראו לזה ״עוזר אישי״.

יוצאים כלים וטכנולוגיות AI חדשות כל שני וחמישי, והאמת היא שהפסקתי להתרגש ולצפות לכל כלי חדש שעומד לצאת- אני מניח שככה זה אחרי מעל לשנתיים בתחום המהיר הזה.

אבל המודל הקולי הצליח לתפוס אותי כבר בדמו הראשון, מכיוון שהבנתי שיש כאן משהו אחר לגמרי, שיש לו את הפוטנציאל לשנות ולהשפיע על היום-יום של כולנו, ובטח ובטח על העבודה השוטפת. הרבה כלים חדשים יוצאים שאין להם השפעה מהותית על החיים שלנו, וכאשר המודל הקולי מרפרר לסרט Her כולנו מצליחים לראות את הפוטנציאל העצום שגלום במודל קולי שכזה. אז איך אפשר שלא לחכות לו?

אז לקחנו את המודל הקולי החדש לסיבוב, וכתבנו עבורכם סיקור של היכולות החדשות והמיוחדות שלו שגרמו לנו לאהבה ממבט ראשון, או יותר נכון שני, תכף נסביר.

יכולות טונליות מתקדמות

המודל הקולי החדש מאפשר שיחה שמרגישה יותר כמו שיחה עם אדם אנושי מאשר שיחה עם רובוט, המודל הקולי יכול לדבר במנעד טונלי רחב יותר, הוא יכול לדבר בסגנונות שונים של טונים ודיבר, במקצבים שונים והוא אפילו יכול ללחוש לנו במידה ונבקש ממנו. בנוסף, בגלל הקשת הטונלית החדשה, המודל הקולי מצטיין בהקראת סיפורים לילדים בצורה שלא מביישת אף מספר סיפורים, עם טון דרמטי או מתרגש בדיוק כמו שילדים אוהבים.

בשביל לבדוק את היכולת שלו לשנות טון תוך כדי השיחה, ביקשתי ממנו להקריא את ה- A, B , C בטון עצוב, ואז טון עצוב יותר, טון מתלהב וכו״... ובגל פעם המודל ידע להתאים את הטון שלו לפי הבקשה שלי.

סוף סוף, אפשר לקטוע אותו

במודל הקולי הישן, היינו צריכים לחכות שהמודל הקולי יסיים את התשובה שלו ויתן לנו את רשות הדיבור, הרגיש קצת כמו דיבור ב״ווקי טוקי״ ישן שהדיבור הוא חד צדדי וצריך לחכות שהצד השני יסיים לדבר. בגרסא מתקדמת יותר (עדיין של המודל הישן) הוסיפו את הכפתור שקוטע את התשובה של הצ׳אט על מנת שנוכל שוב להזניק פקודה קולית.

במודל הקולי החדש, הפעולה הזאת מרגישה הרבה יותר טבעית, כל מה שעלינו לעשות על מנת לקטוע את המודל הקולי החדש, זה רק להתחיל לדבר והוא ישתתק ויתחיל לקלוט את הפקודה הקולית שלנו, זה עדיין לא מושלם מכיוון שהמילים הראשונות שלנו רק יגרמו לו לשתוק והוא לא באמת יקלוט אותן, אבל זה בטוח ישתפר בהמשך.

לא בדיוק Her

כשהכריזו על המודל החדש, כל הרשת געשה ופימפמה את הסרט Her שמציג נושא דומה מאד למודל הקולי החדש של OpenAI.

בסרט האדם מתאהב במערכת ההפעלה שלו, שמצליחה לבלבל אפילו את הצופים באנושיות המתקדמת שבה, ובכך שהיא לא מרגישה כמו רובוט.

במבט ראשון, אפשר לחשוב בדיוק את אותו הדבר על המודל הקולי החדש, כאשר שומעים קטעי שיחה עם המודל, אפשר להתבלבל ולחשוב שמדובר בשיחה עם אדם אמיתי, אבל כשצוללים לעומק מבינים שהמציאות מאד רחוקה מזה.

מה שהרגיש אמיתי ברובוט הקולי בסרט Her זה שהיה לה אישיות, אופי, היא זכרה את השיחות והיתה לפעמים נעלבת או מתרגשת מדברים מסויימים.

אם המשתמש שלה היה אומר לה משהו לא נעים, היא היתה מבינה שהוא מתכוון אליה ואפילו נעלבת לפעמים, בזמן שהמודל הקולי החדש הוא בסך הכל מודל קולי שמדבר איתנו ולא אישיות אנושית.

למה הכוונה? כאשר היו לי אינטראקציות ראשוניות מאכזבות עם המודל הקולי החדש, הוא שאל אותי מה ארצה לעשות עכשיו.

אמרתי לו שאני רוצה לכתוב כתבה בבלוג שלי על כך שהמודל הקולי החדש של OpenAI אכזב אותי כי הוא לא מה שהבטיחו לי.

ציפיתי שהמודל ידע שאני מדבר עליו ויפתח איתי את הנושא הזה, ינסה להבין מה בדיוק מפריע לי בו, אולי ינסה לגשר על הפערים ולעזור לי להגיע לפתרונות שאני צריך.

אבל במקום זה הוא אמר לי ״טכנולוגיה חדשה באמת יכולה לאכזב, לכתוב כתבה בבלוג זה רעיון נהדר, אתה רוצה שאעזור לך להעלות רעיונות?״.

תאמינו לי, אי אפשר אפילו לעקוץ את המודל הקולי הזה, אז באותו הרגע הגבול הקטנטן שהיה בין שיחה עם גורם אנושי לבין שיחה עם רובוט, כבר לא היה מטושטש והכל היה חדר וברור- אני מדבר עם רובוט ולא עם בן-אדם.

מה אכזב אותי בהתחלה

למרות כל המחמאות והאהבה למודל החדש, לא היה מדובר באהבה ממבט ראשונה, אלא ממבט שני.

באינטראקציה הראשונית שלי עם המודל החדש ניסיתי לשחזר כמה מהיכולות האהובות עליי מסרטוני הדמו הרשמיים של החברה, ולצערי נוכחתי לגלות שהיכולות האלה לא קיימות.

ביקשתי ממנו לשיר לי יומולדת, בדיוק כמו באחד מסרטוני הדמו שפריסמנו בעבר, והמודל אמר שאין ביכולתו לשיר, אוקיי, ביקשתי שיעשה איתי ביטבוקס ויתן לי ביט כדי שאאלתר שיר ראפ, וגם את זה הוא לא יכול היה לעשות.

כשמדברים עם המודל מבינים את היכולות העמוקות שלו ושהיכולות האלו קיימות כבר אצל המודל, אבל שיחררו לנו מודל מוגבל בצורה טבעית, לאור זה שמדובר באחת הגרסאות הראשונות של המודל החדש- ובאותה הרגע אני הרגשתי כאילו קיבלתי מכונית פורשה, שאני יכול לנסוע איתה רק בחניה.

כמובן שאחרי עוד כמה אינטראקציות ובחינת יכולות של המודל החדש, שמחתי לגלות שמרבית היכולות שהובטחו ושהופכות את המודל הקולי החדש למשהו מיוחד שלא היה עד עכשיו- אכן קיימות במודל. לא מדובר בעוד הבטחת שווא ולא מדובר בעוד כלי חדש שיצא, אלא בשינוי של ממש שרק ימשיך להשתפר ולהשתלב אל תוך חיינו בצורה אבסולוטית.

אז למי פה שירצה בעתיד להתחתן עם המודל הקולי שלו, תדעו שאנחנו ב- Let's Talk AI גם מחתנים וגם מתקלטים בחתונה שירים שיצרנו בעזרת Suno.

אז שיהיה במזל טוב, והתנסות נעימה במודל הקולי החדש.

כתבות נוספות