生成式AI支援醫療面試評估:AI評分與教師評分呈現高度一致
順天堂大學實證了使用生成式AI評估醫療面試的有效性,其評分與臨床指導醫生具備高度相關性(0.87-0.90),並將評分時間縮減了約60%。
📋 文章處理履歷
- 📰 發表: 2026年4月10日 20:00
- 🔍 收集: 2026年4月11日 00:25(發表後4小時25分鐘)
- 🤖 AI分析完成: 2026年4月20日 02:47(收集後218小時21分鐘)
順天堂大學醫學院綜合診療科學講座的兼任講師高橋宏瑞及主任教授內藤俊夫等人,利用透過ChatGPT自訂GPT建立的生成式AI模擬患者(27歲男性下肢無力病例),與醫學生、實習醫生及指導醫生等共7人進行醫療面談的對話記錄,探討在評估醫患對話記錄時AI評分的有效性。針對評估以患者為中心的醫療面試溝通能力的25個項目,比較了生成式AI(GPT-o1 Pro/GPT-5 Pro)與5名臨床指導醫生的評分結果,發現AI評分與人類評分呈現高度一致(r=0.87–0.90,CCC=0.86–0.88),且在重複評分中也表現出穩定性。其變異係數約為人類的一半,評分時間也縮短了58%至67.6%。儘管這是一項基於少數樣本和單一病例的初步研究,但透過「AI進行初步評分,教師確認其內容的評估模式」,有望節省評估業務的人力,並擴大迅速且標準化回饋的機會。未來期望能在多病例、多機構中驗證其普遍適用性。
本論文於2026年2月17日發表在《JMIR Medical Education》期刊的線上版。
本研究成果的要點
- 利用AI模擬患者與醫學生、實習醫生及指導醫生的醫療面試對話記錄,實施了比較生成式AI(GPT-o1 Pro/GPT-5 Pro)自動評分與5名臨床指導醫生評分的妥當性驗證。
- 確認AI評分與人類評分呈現高度一致,平均得分差距也很小。
- AI評分將評估時間縮短了約6成,且重複評分的穩定性也很高,因此提出了由AI進行初步評分、教師確認的評估模式,展現了面試教育省力化與規模化的可能性。
背景
醫生所需要的知識不只侷限於書本。在有限的時間內整理患者的訴求,無遺漏地進行鑑別診斷,同時給予安心感的面試能力至關重要。面試的品質直接關係到診斷的精確度、醫療安全以及患者的認同感。近年來,客觀評估醫學生的面試能力,並根據其達成度進行培育的教育重要性日益增加。然而,在評估與回饋方面,除了需要確保教師和模擬患者(扮演患者角色的人員)之外,還需要進行評分作業,導致教育現場的勞動負擔相當龐大。在針對多數人的教育中,也面臨難以提供足夠面試機會的課題。此外,容易產生評分差異或指導延遲,使得確保教育品質及教育機會變得困難。如果能實現可靠的自動評估,不僅有助於減輕教育者的負擔,還能更廣泛地提供反覆練習和即時回饋。但是,針對醫療面試的對話記錄,AI評估是否能如教師評估般可靠,過去並未得到充分驗證。因此,本研究的目的是,針對醫療面試的文字記錄,由AI與臨床指導醫生在相同標準下進行評分,並驗證其一致性與評估時間的縮短效果。
內容
在本研究中,透過ChatGPT自訂GPT建立的生成式AI模擬患者(27歲男性下肢無力病例),與2名醫學生、3名實習醫生及2名指導醫生共計7人進行了醫療面試,並將對話紀錄自動生成的文字稿(未經人工修改)作為評估對象。面試評估採用了評估以患者為中心的醫療面試溝通能力的25個項目、總分125分的評分量表,將5名臨床指導醫生獨立評分後的平均值作為人類評估。另一方面,生成式AI(GPT-o1 Pro、GPT-5 Pro)在相同的指示條件下對每份對話紀錄進行5次評分,並驗證其與人類評估的一致性及評分的穩定性,也就是重複評估相同紀錄時的誤差幅度。結果顯示,人類評估的平均得分為53.7分,而AI的得分分別為52.1分及53.2分,呈現相近的數值,得分的趨勢也吻合良好(相關係數0.87~0.90)。此外,AI與人類的得分差平均為0.43分(差距範圍-4.87~5.72)及1.54分(-8.60~11.68),並未發現明顯的偏差。在評分時間方面,人類每件平均需要10分16秒,而AI則需要4分19秒(縮短58%)及3分2秒。
本論文於2026年2月17日發表在《JMIR Medical Education》期刊的線上版。
本研究成果的要點
- 利用AI模擬患者與醫學生、實習醫生及指導醫生的醫療面試對話記錄,實施了比較生成式AI(GPT-o1 Pro/GPT-5 Pro)自動評分與5名臨床指導醫生評分的妥當性驗證。
- 確認AI評分與人類評分呈現高度一致,平均得分差距也很小。
- AI評分將評估時間縮短了約6成,且重複評分的穩定性也很高,因此提出了由AI進行初步評分、教師確認的評估模式,展現了面試教育省力化與規模化的可能性。
背景
醫生所需要的知識不只侷限於書本。在有限的時間內整理患者的訴求,無遺漏地進行鑑別診斷,同時給予安心感的面試能力至關重要。面試的品質直接關係到診斷的精確度、醫療安全以及患者的認同感。近年來,客觀評估醫學生的面試能力,並根據其達成度進行培育的教育重要性日益增加。然而,在評估與回饋方面,除了需要確保教師和模擬患者(扮演患者角色的人員)之外,還需要進行評分作業,導致教育現場的勞動負擔相當龐大。在針對多數人的教育中,也面臨難以提供足夠面試機會的課題。此外,容易產生評分差異或指導延遲,使得確保教育品質及教育機會變得困難。如果能實現可靠的自動評估,不僅有助於減輕教育者的負擔,還能更廣泛地提供反覆練習和即時回饋。但是,針對醫療面試的對話記錄,AI評估是否能如教師評估般可靠,過去並未得到充分驗證。因此,本研究的目的是,針對醫療面試的文字記錄,由AI與臨床指導醫生在相同標準下進行評分,並驗證其一致性與評估時間的縮短效果。
內容
在本研究中,透過ChatGPT自訂GPT建立的生成式AI模擬患者(27歲男性下肢無力病例),與2名醫學生、3名實習醫生及2名指導醫生共計7人進行了醫療面試,並將對話紀錄自動生成的文字稿(未經人工修改)作為評估對象。面試評估採用了評估以患者為中心的醫療面試溝通能力的25個項目、總分125分的評分量表,將5名臨床指導醫生獨立評分後的平均值作為人類評估。另一方面,生成式AI(GPT-o1 Pro、GPT-5 Pro)在相同的指示條件下對每份對話紀錄進行5次評分,並驗證其與人類評估的一致性及評分的穩定性,也就是重複評估相同紀錄時的誤差幅度。結果顯示,人類評估的平均得分為53.7分,而AI的得分分別為52.1分及53.2分,呈現相近的數值,得分的趨勢也吻合良好(相關係數0.87~0.90)。此外,AI與人類的得分差平均為0.43分(差距範圍-4.87~5.72)及1.54分(-8.60~11.68),並未發現明顯的偏差。在評分時間方面,人類每件平均需要10分16秒,而AI則需要4分19秒(縮短58%)及3分2秒。