FX168財經報社(香港)訊 OpenAI公司旗下最新研發的大型語言模型ChatGPT 4.0已通過臨床神經學考試,在概念驗證研究中回答了85%的正確答案。研究作者認為,經過一些微調,ChatGPT就可以在臨床神經病學中具有“重大應用”。當前,人工智能(AI)已在為阿斯利康尋找癌症治療方法,還有對抗香港抗生素的過度處方。
這項實驗結果由海德堡大學醫院和海德堡德國癌症研究中心的一組研究人員於12月7日發布,該測試於5月31日進行,測試對象包括兩個大型語言模型,即ChatGPT 3.5及其更高版本ChatGPT 4.0。
(來源:CoinTelegraph)
研究人員使用了美國精神病學和神經病學委員會的神經病學考試題庫,以及歐洲神經病學委員會的一小部分問題。
舊版本的ChatGPT得分為66.8%,正確回答了1956個問題中的1306個問題,而較新的版本ChatGPT 4.0得分為85%,正確答案為1662個。
值得關注的是,普通人類平均得分為73.8%。這意味着,ChatGPT 4.0的能力已超越了人類平均。
(來源:JAMA Network)
ChatGPT 4.0在行為、認知和心理相關問題上的表現優於人類用戶,並有效“通過”了神經學考試,因為70%的正確答案通常被教育機構視為及格分數。
然而,這兩種模型在需要“高階思維”的任務中的表現,都比僅需要“低階思維”的問題表現得更弱。
根據進行實驗的研究人員小組的說法,這些結果可以作為在一些修改後在臨床神經病學中使用ChatGPT的建議。
他們指出:“這些發現表明,通過進一步完善,大型AI語言模型可以在臨床神經病學中具有重要的應用。”
研究人員指出,目前仍存在一些保留意見。盡管在文檔和決策支持系統中應用ChatGPT有一個明確的前景,但神經學家應該謹慎對待它們在實踐中的使用,因為它們在高階認知任務方面仍然不完善。
該研究的作者之一Varun Venkataramani博士在接受采訪時表示:“我們將目前的研究更多地視為對ChatGPT能力的概念驗證。”
“AI語言模型仍然需要發展,甚至可能需要進行具體的微調,以使其正確適用於臨床神經病學,”他補充道。
實際上,當前AI已經在致力於醫療保健領域的一些重大任務,例如為阿斯利康尋找癌症治療方法,或是對抗香港抗生素的過度處方。