Tôi và nhiều tác giả khác đã chia sẻ cách lý giải cho câu hỏi thứ nhất. Còn với câu hỏi thứ hai, tôi không định bao biện cho ngành y, nhưng đây là vấn đề rất khó.
Ai từng làm trong ngành y đều biết, khó nhất với bác sĩ là chẩn đoán. Mớ triệu chứng hỗn độn của người bệnh tựa như đám mây mù, làm sao gạn lọc và suy luận để đoán ra? Quá trình này khó khăn vì tính phức tạp của biểu hiện triệu chứng. Một bệnh có nhiều triệu chứng, và một triệu chứng có thể có ở nhiều bệnh. Ví dụ đơn giản nhất là viêm phổi thì có sốt cao, nhưng sốt cao còn gặp ở nhiều bệnh khác nữa.
Một số bệnh có đặc điểm riêng, nên triệu chứng biểu hiện ra cũng riêng biệt, được gọi là triệu chứng đặc hiệu. Tức cứ có triệu chứng đó thì đoán ngay ra bệnh. Nhưng bệnh có triệu chứng đặc hiệu như thế thường ít, chủ yếu là các bệnh có triệu chứng mơ hồ, mỗi triệu chứng chỉ phản ánh một phần của bệnh. Một tập hợp nhiều triệu chứng sẽ giúp chẩn đoán chính xác hơn. Phức tạp nhất là những trường hợp triệu chứng không đầy đủ, không rõ ràng. Lúc đó thầy thuốc chẩn đoán dựa trên kinh nghiệm, tức kiểu suy luận mà chuyên gia tin học gọi là "logic mờ" - fuzzy logic.
Tác phẩm On Computing Machinery and Intelligence (Về bộ máy tính toán và trí thông minh - 1950), của Alan Turing, được coi như một trong các cột mốc khởi đầu của Trí tuệ nhân tạo (Artificial Intelligence - AI). Ngành y mơ ước với cơ chế suy luận giống con người, được đào tạo từ nguồn dữ liệu lớn, có cơ chế tự học... AI sẽ xây dựng được các phần mềm y khoa giỏi như chuyên gia, gọi là các hệ chuyên gia (Expert System - ES), giúp bác sĩ chẩn đoán bệnh nhanh chóng và chính xác.
Nhưng ước mơ cho đến tận lúc này vẫn chỉ là mơ ước. Từ khi tôi còn là sinh viên y khoa đến nay đã thành bác sĩ về hưu, công việc chẩn đoán vẫn dựa vào bộ não của bác sĩ. Chẩn đoán bệnh vẫn là một phần chẩn, một phần đoán. Mà đoán thì có thể trúng, có thể trật.
Y học đã phát triển rất nhiều máy móc giúp bác sĩ có thêm dữ liệu, tăng tính chính xác của chẩn đoán. Nhưng khi gặp bệnh nhân, bác sĩ không thể yêu cầu làm tất tần tật xét nghiệm và chụp chiếu, như vậy chi phí khám bệnh sẽ tăng rất cao, xã hội sẽ lên án là bác sĩ lạm dụng xét nghiệm
Nên bác sĩ vẫn phải dựa vào khả năng suy luận của mình, dự đoán khả năng bị bệnh rồi cho làm một số xét nghiệm theo hướng đó để khẳng định. Cái gì bác sĩ nghĩ đến thì sẽ tìm ra, còn cái gì không nghĩ đến, thì dù nó sờ sờ ngay trước mắt, cũng không tìm ra. Như vậy các bệnh hiếm gặp thường bị bỏ qua.
Trong vụ án đầu độc xyanua, khó có thể trách bác sĩ. Ngộ độc xyanua trong các loại thực phẩm lâu lắm rồi không gặp; còn cố ý đầu độc thì làm sao bác sĩ có thể ngờ đến tình huống máu lạnh như vậy, nên trước các biểu hiện ấy các bác sĩ chỉ nghĩ đến bệnh lý tim mạch, không cho làm xét nghiệm theo hướng đầu độc hóa chất. Chỉ đến cuối cùng, một sự nghi ngờ xuất hiện thì sự việc mới tìm ra. Và ta giật mình. Trong quá khứ, có thể có những cái chết bí ẩn như vậy bị lãng quên.
Từ thực tế này, ta thấy trí tuệ nhân tạo có thể có ích. Trước hết là AI không bị chi phối bởi tình cảm, định kiến như con người. Nó chỉ làm việc dựa trên dữ liệu. Thứ hai nó dựa trên dữ liệu lớn, nên sẽ không bỏ sót những ca hiếm, những bệnh ít gặp.
Nhưng hiện tại, AI vẫn còn rất nhiều hạn chế.
Tôi đã làm một thực nghiệm nhỏ, sau khi có các thông tin về vụ án xyanua, tôi nhập câu hỏi "Người tự nhiên bị nôn, đau ngực, đau đầu, đau bụng, rối loạn nhịp tim rồi hôn mê thì có thể bị bệnh gì?" vào các ứng dụng AI phổ biến. Kết quả Chat GPT 4.0 trả lời có thể do bệnh tim, suy tim, đột quỵ, loạn nhịp. Gemini của Google suy đoán có thể do ngộ độc thực phẩm, rối loạn tiêu hóa, bệnh tim mạch, rối loạn thần kinh. Copilot của Microsoft cho là do bệnh tim mạch, bệnh não màng não, do lo lắng căng thẳng, hoặc bệnh zona thần kinh.
Không có ứng dụng nào nghĩ đến nguyên nhân do ngộ độc hóa chất. Tất nhiên chất lượng câu trả lời tệ như thế còn do dữ liệu đầu vào quá chung chung. Vậy nếu với dữ liệu đầu vào đầy đủ hơn thì sao?
Các thư viện y khoa online nổi tiếng, từ đầu năm 2024 đến nay đăng hàng trăm công trình nghiên cứu ứng dụng AI trong y học. Có một công trình thú vị ở Đức. Bệnh viện Đại học Düsseldorf đã làm một nghiên cứu so sánh kết quả phân loại bệnh ở phòng cấp cứu của các chuyên gia, của các bác sĩ nội trú trẻ, của các ứng dụng ChatGPT 3.5 và 4.0; Gemini, LlaMa (của Meta); và sau cùng là của các bác sĩ trẻ có sự trợ giúp từ Chat GPT.
Kết quả, mức độ phân loại bệnh của các chuyên gia cấp cứu là chính xác gần tuyệt đối, của các bác sĩ trẻ ở mức khá, tạm chấp nhận được. Kết quả của Chat GPT 4.0 thấp hơn của các bác sĩ trẻ một chút. Kết quả của Chat GPT 3.5 ở mức trung bình, cao hơn Gemini và LlaMa. Khi các bác sĩ trẻ sử dụng thêm gợi ý từ Chat GPT 4.0, kết quả có cải thiện nhưng không nhiều. Sai sót của các bác sĩ trẻ chủ yếu là phân loại nhiều ca bệnh nhẹ hơn, trong khi đó các ứng dụng AI sai sót ở chỗ phân loại nhiều ca bệnh nặng hơn. Cả hai xu hướng sai lầm này đều không thể chấp nhận được ở phòng cấp cứu.
Các tác giả kết luận rằng: Tóm lại, mặc dù có những tiến bộ nhanh chóng trong công nghệ LLM (dữ liệu lớn) và các sản phẩm liên quan như ChatGPT, hiện tại các sản phẩm đó không đáp ứng tiêu chuẩn vàng cho việc phân loại cấp cứu, và nhấn mạnh tính cấp thiết cần phát triển và kiểm nghiệm nghiêm ngặt hơn nữa. Tôi cũng đồng ý với kết luận này.
Ứng dụng AI trong y khoa là một hướng đi có nhiều hứa hẹn. Ở một số chuyên ngành mà việc số hóa có thuận lợi hơn như chẩn đoán hình ảnh, robot phẫu thuật, quản lý hồ sơ... thì các ứng dụng AI đã đem lại một số thành công nhất định. Còn trong phần lớn lĩnh vực y khoa còn lại, việc ứng dụng AI đang ở những bước đi thăm dò.
Mới năm ngoái thôi, trong cơn say AI, nhiều người hào hứng tuyên bố rằng trong 3-5 năm nữa bác sĩ và giáo viên sẽ thất nghiệp, bị AI thay thế. Thực tế cho thấy điều đó chưa thể đến trong tương lai gần.
Nhưng tôi vẫn hy vọng các công trình nghiên cứu AI lớn thời gian tới sẽ cho ra những sản phẩm AI chuyên biệt dành cho y khoa, giúp cho việc chẩn đoán bệnh ngày càng chính xác hơn.
Quan Thế Dân
(PS st theo VnExpress)