Nghiên cứu này đánh giá hiệu suất của ba mô hình AI tạo sinh—ChatGPT-4o, Gemini 1.5 Advanced Pro và Claude 3.5 Sonnet—trong việc tạo ra các câu hỏi dược lý hợp lý dựa trên trường hợp so với các nhà giáo dục chuyên gia.
Phương pháp
Bằng cách sử dụng nhắc nhở một lần, 60 câu hỏi (20 câu hỏi mỗi mô hình) đề cập đến các đối tượng tăng huyết áp cần thiết và bệnh tiểu đường típ 2 đã được tạo ra. Một hội đồng đa ngành đã phân loại các câu hỏi theo khả năng sử dụng (không cần sửa đổi, cần sửa đổi nhỏ hoặc lớn hoặc không thể sử dụng được). Sau đó, 24 câu hỏi do AI tạo và 8 câu hỏi do chuyên gia tạo ra đã được hỏi cho 103 sinh viên y khoa trong môi trường thi thực tế. Các số liệu hiệu suất, bao gồm tỷ lệ phản hồi chính xác, chỉ số phân biệt đối xử và xác định các yếu tố gây phân tâm không có chức năng, đã được phân tích.
Kết quả
Không có sự khác biệt có ý nghĩa thống kê nào được tìm thấy giữa các câu hỏi do AI tạo ra và do chuyên gia tạo ra, với tỷ lệ phản hồi đúng trung bình vượt quá 50% và chỉ số phân biệt luôn bằng hoặc trên 0,20. Claude tạo ra tỷ lệ cao nhất các mục không có lỗi (12/20), trong khi ChatGPT thể hiện ít mục không sử dụng được nhất (5/20). Việc sửa đổi của chuyên gia cần khoảng một phút cho mỗi câu hỏi do AI tạo ra, thể hiện mức tăng hiệu quả đáng kể so với việc chuẩn bị câu hỏi thủ công. Tuy nhiên, 19 trong số 60 câu hỏi do AI tạo ra được coi là không sử dụng được, làm nổi bật sự cần thiết của sự giám sát của chuyên gia.
https://doi.org/10.1007/s00228-025-03838-2
Người dịch: Nguyễn Thị Hà
Người duyệt: TS. Hà Hải Anh
» Tin mới nhất:
» Các tin khác: