שימי דביר
מודלי שפה
16/5/2024

מישהו יכול להרים את הלסת שלנו מהרצפה?: תכירו את העוזר הקולי החדש של OpenAI

OpenAI הציגה פריצת דרך משמעותית עם העוזר הקולי החדש שלהם. מדובר בטכנולוגיה חדשה שמאפשרת לנהל שיחה טבעית ואינטראקטיבית עם מודלי שפה, כולל יכולות כמו התאמה של טונציה בהתאם לשיחה, תגובות רגשיות ושילוב של תקשורת ויזואלית בזמן אמת. האם מדובר בתחילתה של מהפכה בממשק בין אדם לבינה מלאכותית?

לפני מספר ימים, OpenAI הכריזו על מספר הכרזות מעניינות שצפויות לשנות את האופן בו אנו מתקשרים עם מודלי שפה. בהכרזה הציגו לנו מודל חדש ומתקדם בשם Chat GPT 4o (Omni) , מודל מולטימודאלי אמיתי ומשוכלל שפתוח גם לקהל הרחב, ולא רק למי שמשלם על מנוי הפרו. בנוסף למודל החדש, מה שהצליח להפיל לנו את הלסת לרצפה היה העוזר הקולי והמתקדם שהם הציגו, שמאפשר צורת תקשורת טבעית וחלקה שלרגעים יכולה לגרום לנו להרגיש כאילו אנחנו מדברים עם בן אדם אמיתי.

רגע, אבל כבר היום אפשר לדבר עם הצ׳אט, אז מה שונה?

האפשרות לנהל שיחה קולית עם הצ׳אט קיימת כבר זמן מה בתוך האפליקציה של הצ׳אט (בלחיצה על אייקון האוזניות), אבל השיחה הקולית הנוכחית שהכרנו עד עכשיו, מעט רחוקה מלהרגיש כשיחה טבעית ומתגלגלת, אלא מרגישה יותר כמו לשלוח הקלטת וואטסאפ קולית, ולקבל הקלטת וואטסאפ קולית בחזרה.

לעומת זאת, העוזר החדש של OpenAI מציע חוויית שיחה חדשה והרבה יותר טבעית ואנושית. העוזר הקולי מסוגל להתאים את הטון והרגש שלו לפי נושא השיחה, להוסיף תגובות ספונטניות כמו צחוק, להגיב בצורה הרבה יותר טבעית לדברי המשתמש ואפילו אפשר לקטוע אותו באמצע הדברים שלו (שמצחיק להודות בזה, אבל זה הכי התבקש).

כולם להגיד צ׳יזזזזזז

החידוש הכי מעניין הוא האפשרות לתקשר עם העוזר הקולי דרך המצלמה בזמן אמת. בדומה לשיחת וידאו, המשתמש יכול לחשוף בפני ה-AI את הסביבה, את עצמו ואת האובייקטים שסביבו, ולקבל תגובות רלוונטיות בצורה מיידית. כבר לא מדובר במודל שאלה תשובה, אלא בתור עוזר קולי נוכח שמעורב בזמן אמת במה שאנחנו עושים.

עם היכולות המתקדמות של העוזר הקולי החדש, נראה שהשילוב של בינה מלאכותית בתהליכי עבודה ובחיי היומיום הולך להיות נפוץ יותר ויותר. מגיוס עובדים ועד תיקוני רכב - האפשרות להתייעץ בקלות עם מערכת AI חכמה צפויה לחולל מהפכה בדרך בה אנו פועלים ומקבלים החלטות.

מחשבות על העתיד

הסיבה העיקרית שאנחנו כל כך מתלהבים, היא לא רק מהכאן ועכשיו. נכון שיש כאן קפיצה טכנולוגית ועוזר אישי שנותן לנו את התחושה שאנחנו מדברים עם עוזר אנושי, נכון שהתקשורת טבעית יותר ושאנחנו נתחיל לראות יותר ויותר שילובים של הטכנולוגיה הזאת בתוך העולם העסקי, אבל הדבר שאנחנו הכ מחכים לו, זה שהעוזר הקולי יוכל לבצע פעילות אקטיביות ולא רק להדריך מרחוק.

אנחנו משערים שהצעד הבא בנוגע לטכנולוגיה הזאת  תיהיה לאפשר לו לבצע עבורינו פעולות יום-יומיות על בסיס בקשה קולית, ולא רק לדבר איתנו. למשל: אם נרצה להזמין פיצה, נבקש ממנו להזמין עבורינו פיצה עם ככה וככה תוספות מפיצריה מסוימת ולזמן מסוים, והוא פשוט יזמין עבורינו. כבר לא נצטרך למלא עמודי הזמנה באתר / אפליקציה, לבחור תוספות, שיטת משלוח, למלא עמוד תשלום ואת כל התהליך הזה, אלא העוזר יעשה את זה עבורינו. כנ״ל לגבי הזמנת טיסות, מלונות ועוד אינספור פעולות מחיי היום-יום שלנו או מהחיים העסקיים.

יש דיבור על כך שאולי זה יגיע מהכיוון של ״סירי״, בעקבות שיתוף פעולה מעניין שמסתמן בינם לבין OpenAI, או שבכלל זה יגיע לבסוף מכיוון אחר- מה שבטוח אבל, זה שזה יגיע ושזה ישנה כמעט את כל מה שאנחנו מכירים.

אם עוד לא נפלה לכם הלסת לרצפה, אספנו עבורכם עוד הדגמות מבית היוצר של OpenAI, שגורמות לנו לספור את הימים עד שהמודל המדהים הזה ישוחרר לציבור הרחב:

כתבות נוספות