
Yapay zekalı sohbet robotu ChatGPT’nin en yeni sürümü, radyoloji kurulu tarzı bir sınavı geçti ve yeni GPT-4 modeli, GPT-3.5’in %69’undan, soruların %81’ini doğru yanıtladı. Ancak, üst düzey düşünme sorularıyla mücadele ve ara sıra yanlış yanıtların üretilmesi gibi sorunlar, tıp eğitimi ve uygulamasında daha geniş çapta benimsenmesine sınırlamalar getiriyor.
ChatGPT’nin en son sürümü, Radiological Society of North America’nın dergisinde yayınlanan araştırma çalışmalarına göre, dilde yorumlama ve yanıt oluşturma için geliştirilmiş bir yapay zeka sohbet robotu, radyoloji kurulu tarzı bir sınavı başarıyla geçerek hem potansiyelini hem de sınırlarını gösterdi.
{6 }Radiological Society of North America’nın (RSNA) bir dergisi olan Radiology’de yayınlanan iki yeni araştırma çalışmasına göre, ChatGPT’nin en son sürümü, büyük dil modellerinin potansiyelini vurgulayan ancak aynı zamanda güvenilirliği engelleyen sınırlamaları da ortaya koyan radyoloji kurulu tarzı bir sınavı geçti. ).
ChatGPT, bir istem temelinde insana benzer yanıtlar oluşturmak için geniş eğitim verilerindeki kalıpları ve sözcükler arasındaki ilişkileri tanımak üzere derin bir öğrenme modeli kullanan bir yapay zeka (AI) sohbet robotudur. Ancak, eğitim verilerinde gerçek bir kaynak bulunmadığından, araç olgusal olarak yanlış olan yanıtlar üretebilir.
Baş yazar, “ChatGPT gibi büyük dil modellerinin kullanımı hızla artıyor ve daha da artacak” dedi. Rajesh Bhayana, M.D., FRCPC, bir abdominal radyolog ve teknoloji lideri Toronto, Toronto’daki University Medical Imaging Toronto General Hospital, Kanada. “Araştırmamız, ChatGPT’nin radyoloji bağlamındaki performansı hakkında bilgi sağlayarak, büyük dil modellerinin inanılmaz potansiyelini ve onu güvenilmez kılan mevcut sınırlamaları vurguluyor.”
ChatGPT kısa süre önce tarihteki en hızlı büyüyen tüketici uygulaması seçildi. Dr. Bhayana, Google ve Bing gibi doktorların ve hastaların tıbbi bilgi aramak için kullandıkları popüler arama motorlarına dahil edildiğini ve benzer sohbet robotlarının kullanıldığını belirtti.
Radyoloji kurulu sınav sorularındaki performansını değerlendirmek ve güçlü yanlarını ve Bhayana ve meslektaşları, ChatGPT’yi ilk olarak şu anda en yaygın kullanılan sürüm olan GPT-3.5’e dayalı olarak test etti. Araştırmacılar, Canadian Royal College ve American Board of Radiology sınavlarının stiline, içeriğine ve zorluğuna uyacak şekilde tasarlanmış 150 çoktan seçmeli soru kullandı.
Sorular resim içermiyordu ve içgörü elde etmek için soru türüne göre gruplandırılmıştı. performansa: alt düzey (bilgi hatırlama, temel anlama) ve üst düzey (uygulama, analiz, sentez) düşünme. Üst düzey düşünme soruları, türe (görüntüleme bulgularının açıklaması, klinik yönetim, hesaplama ve sınıflandırma, hastalık ilişkileri) göre daha da alt sınıflandırıldı.
ChatGPT’nin performansı genel olarak ve soru türü ve konuya göre değerlendirildi. Yanıtlarda dilin güvenirliği de değerlendirildi.
Araştırmacılar, GPT-3.5’e dayalı ChatGPT’nin soruların %69’unu (150 sorudan 104’ü) doğru yanıtladığını ve Royal College tarafından 2014’te kullanılan %70’lik geçme notuna yakın olduğunu buldular. Kanada. Model, alt düzey düşünmeyi gerektiren sorularda nispeten iyi performans gösterdi (%84, 51/61), ancak üst düzey düşünmeyi içeren sorularda (%60, 53/89) mücadele etti. Daha spesifik olarak, görüntüleme bulgularının açıklaması (%61, 28/46), hesaplama ve sınıflandırma (%25, 2/8) ve kavramların uygulanması (%30, 10 üzerinden 3) gibi üst düzey sorularla mücadele etti. Radyolojiye özgü ön eğitim eksikliği göz önüne alındığında, üst düzey düşünme sorularındaki düşük performansı şaşırtıcı değildi.
GPT-4, özellikle gelişmiş gelişmiş muhakeme yeteneklerine sahip olduğunu iddia ederek, Mart 2023’te sınırlı bir biçimde ücretli kullanıcılara sunuldu. GPT-3.5 üzerinden.
Bir takip çalışmasında GPT-4, aynı soruların %81’ini (121/150) doğru yanıtlayarak GPT-3.5’i geride bıraktı ve %70’lik geçme eşiğini aştı. GPT-4, üst düzey düşünme sorularında (%81), daha spesifik olarak görüntüleme bulgularının açıklamasını (%85) ve kavramların uygulanmasını (%90) içeren sorularda GPT-3.5’ten çok daha iyi performans gösterdi.
Bulgular GPT-4’ün iddia edilen gelişmiş gelişmiş muhakeme yeteneklerinin, bir radyoloji bağlamında gelişmiş performansa dönüştüğünü öne sürüyor. Ayrıca, gelecekteki aşağı akış uygulamalarını etkinleştirmek için kritik olan görüntüleme açıklamaları da dahil olmak üzere, radyolojiye özgü terminolojinin bağlamsal olarak daha iyi anlaşılmasını önerirler.
“Çalışmamız, ChatGPT’nin radyoloji performansında kısa bir süre içinde etkileyici bir gelişme olduğunu gösteriyor ve bu bağlamda büyük dil modellerinin artan potansiyelini vurguluyor” dedi Dr. Bhayana.
GPT -4, alt düzey düşünme sorularında gelişme göstermedi (%80’e karşı %84) ve GPT-3.5’in doğru yanıtladığı 12 soruyu yanlış yanıtlayarak bilgi toplama güvenilirliğiyle ilgili soruları gündeme getirdi.
“Başlangıçta ChatGPT’nin bazı zorlu radyoloji sorularına verdiği doğru ve kendinden emin yanıtlar beni şaşırttı, ancak bazı çok mantıksız ve yanlış iddialar da aynı derecede şaşırttı,” dedi Dr. Bhayana. “Elbette, bu modellerin nasıl çalıştığı göz önüne alındığında, yanlış yanıtlar özellikle şaşırtıcı olmamalıdır.”
ChatGPT’nin yanlış yanıtlar üretmeye yönelik tehlikeli eğilimi, halüsinasyonlar, GPT-4’te daha az görülür, ancak yine de tıpta kullanılabilirliği sınırlar şu anda eğitim ve uygulama.
Her iki çalışma da ChatGPT’nin yanlış olduğunda bile tutarlı bir şekilde kendinden emin bir dil kullandığını gösterdi. Dr. Bhayana, özellikle emin yanlış yanıtları yanlış olarak kabul etmeyen acemiler için yalnızca bilgi için güvenildiğinde bunun özellikle tehlikeli olduğunu belirtiyor.
“Bana göre bu, onun en büyük sınırlaması. Şu anda, ChatGPT en iyi fikirleri ateşlemek, tıbbi yazma sürecini başlatmaya yardımcı olmak ve veri özetlemek için kullanılıyor. Hızlı bilgi geri çağırma için kullanılıyorsa, her zaman doğruluğunun kontrol edilmesi gerekir” dedi Dr. Mevcut Güçlü Yönler ve Sınırlamalar”, yazan Rajesh Bhayana, Satheesh Krishna ve Robert R. Bleakney, 16 Mayıs 2023, Radyoloji.
DOI: 10.1148/radiol.230582
“GPT-4 in Radyoloji: Gelişmiş Akıl Yürütmede Gelişmeler”, yazan Rajesh Bhayana, Robert R. Bleakney ve Satheesh Krishna, 16 Mayıs 2023, Radyoloji.
DOI: 10.1148/radiol.230987
Leave a Reply