הבינה המלאכותית לא תחליף בעתיד הקרוב את הצוותים הרפואיים: מחקר חדש מצא כי על אף שהבינה תוספת מקום הולך וגדל בעולם הרפואה, היא עדיין במקום ראשוני מלתפוס תפקיד משמעותי. חוקרים מאוניברסיטת בר אילן, חיפה והמרכז הרפואי שיבא מצאו שהמודלים של הבינה המלאכותית לא הצליחו להגיע ליכולת הקלינית של בני האדם.
המחקר החדש שפורסם בכתב העת Physical Therapy & Rehabilitation Journal, בוצע על ידי הפיזיותרפיסטית יעל ארבל משרותי בריאות כללית, בהנחיית הד"ר יואב גימון מהמרכז הרפואי שיבא והד"ר ליאורה שמואלי מאוניברסיטת בר אילן.
המחקר כלל 60 נבדקים, 30 פיזיותרפיסטים מנוסים בתחום השיקום הווסטיבולרי ו-30 סטודנטים לפיזיותרפיה. המטרה הייתה לבדוק את ביצועי שני מודלי בינה מלאכותית – צ'אט ג'יפיטי וג'מיני במענה על שאלון ידע מקצועי בתחום השיקום הווסטיבולרי, שכולל 20 שאלות רבות-ברירה שנבנו על פי ההנחיות הקליניות העדכניות ביותר.
כל אחת מהשאלות נבחנה בשלוש קטגוריות: ידע קליני תיאורטי, יישום קליני בסיסי והסקה קלינית. מלבד בדיקת התשובות עצמן, שלושה מומחים מוסמכים בנוירולוגיה של האוזן הפנימית ניתחו גם את איכות ההסברים שסיפקה הבינה המלאכותית לכל תשובה, כדי לבדוק אם ההסבר היה מקיף, חלקי או שגוי.
בניתוח התוצאות נמצא כי צ'אט ג'יפיטי השיגה ציון כולל של 70% נכונות (14 מתוך 20 שאלות), בעוד גוגל ג'מיני השיגה 60% (12 תשובות נכונות). שתי מערכות הבינה המלאכותית הצטיינו בתחום הידע הקליני התיאורטי – והשיגו 100% נכונות. עם זאת, כשנדרשו להסיק מסקנות קליניות על סמך תיאורי מקרה, צ'אט ג'יפיטי הצליחה לענות נכונה על 50% בלבד מהשאלות, וגוגל ג'מיני ב-25% בלבד.
הפיזיותרפיסטים המנוסים הגיעו לציון ממוצע של 76.5%, והסטודנטים לפיזיותרפיה הסתפקו ב-40.5% בממוצע. כלומר, אנשי המקצוע האנושיים עדיין הובילו בבירור, במיוחד בהסקה קלינית – תחום שבו היכולת האנושית לחשוב בצורה ביקורתית, לשלב מידע ולפרש סימנים גופניים גברה על היכולת של מערכות הבינה המלאכותית.
בחינת איכות ההסברים שסיפקה צ'אט ג'יפיטי הראתה כי ב-45% מהמקרים ההסבר סווג כ"כולל ומדויק", בעוד ב-25% מהמקרים ההסבר היה "שגוי לחלוטין". בתחומי הידע הקליני והיישום הקליני הבסיסי, חצי מההסברים של צ'אט ג'יפיטי דורגו כ"כוללים ומדויקים", אך בהסקה הקלינית רק רבע מההסברים עמדו בסטנדרט זה.
המסקנה המרכזית של החוקרים היא כי צ'אט ג'יפיטי וגוגל ג'מיני יכולות לשמש כלי עזר יעיל להשלמת ידע קליני תיאורטי ולהוראה בסיסית. הן עשויות לסייע לסטודנטים ולמתמחים לגשת למידע מעודכן במהירות, לסכם חומר רב ולהנגיש ידע מבוסס ספרות. עם זאת, בשאלות מורכבות הדורשות שיקול דעת קליני, פרשנות סימפטומים והבנה של תהליכים דינמיים – הבינה המלאכותית עדיין מתקשה, ולעיתים אף מספקת תשובות שגויות או מבוססות על מידע לא עדכני.
החוקרים הדגישו שניסוח השאלה משפיע מאוד על איכות התשובה: שאלות פשוטות וברורות הניבו תשובות טובות יותר, בעוד ששאלות מורכבות, ארוכות או כאלה שדורשות שילוב בין נתונים שונים – הביאו לשגיאות ותשובות חלקיות. למשל, בשאלה שביקשה לזהות טיפול מתאים עבור מטופל עם סחרחורת ואבחנה של BPPV, צ'אט ג'יפיטי זיהתה נכון את האוזן הפגועה אך המליצה על טיפול שגוי – טעות שיכולה להתרחש גם בקרב קלינאים מתחילים, אך מסוכנת אם מתבצעת בעזרת מערכת אוטונומית.
"השימוש בבינה מלאכותית כשותפה בעבודת הצוות הרפואי מחייב זהירות, פיקוח וידע מוקדם" אומרת ל"מעריב" יעל ארבל, פיזיותרפיסטית בצוות החוקרים, "הבינה המלאכותית יכולה להקל בעבודת הצוותים על ידי שליפה מהירה של מידע, סיכום הנחיות והנגשת ספרות מקצועית – אך לא יכולה להחליף את היכולת האנושית להסקה קלינית מורכבת. הם ממליצים להשתמש בה כעזר משלים, תוך שמירה על ביקורת מקצועית ואימות המידע מול הנחיות קליניות מעודכנות.
"ביצועי הבינה המלאכותית צפויים להשתפר בדורות עתידיים של המודלים, כאשר אלגוריתמים מתקדמים יותר יאפשרו חיבור טוב יותר בין מידע קיים לבין הקשרים קליניים" מוסיפה ארבל, "עד אז, השימוש במערכות אלו מחייב מודעות למגבלותיהן והימנעות מהסתמכות מלאה על תשובותיהן במצבים הדורשים שיקול דעת מורכב".
המחקר מצטרף לשורת מחקרים בינלאומיים שבחנו את ביצועי צ'אט ג'יפיטי בתחומים רפואיים נוספים, ומחזקים את המסקנה כי מדובר בכלי עזר יעיל ללמידה, אך לא תחליף לשיפוט קליני. בעידן של הצפת מידע, חוקרי המחקר קוראים למערכת הבריאות לפתח מודלים של עבודה משולבת – שבהם הבינה המלאכותית תתמוך באנשי המקצוע ותסייע להם להתמודד עם היקף הידע העצום, אך מבלי לוותר על עקרונות ההערכה והחשיבה הקלינית.