Nghiên cứu mới cho thấy, các câu trả lời về lập trình của ChatGPT đúng đạt 48% câu hỏi, trong khi 77% bị sai và “hơi lòng vòng”.
The Register cho biết, một nghiên cứu từ Đại học Purdue (thông qua đăng ký) liên quan đến việc đặt các câu hỏi về ChatGPT 517 Stack Overflow và khảo sát hàng chục người tham gia tình nguyện về kết quả.
Các câu trả lời được đánh giá không chỉ dựa trên việc chúng có đúng hay không mà còn dựa trên tính nhất quán, toàn diện và ngắn gọn. Nhóm cũng phân tích phong cách ngôn ngữ và tình cảm của các câu trả lời.
Kết quả cho thấy, đó không phải là một màn trình diễn tốt cho ChatGPT. Công cụ của OpenAI chỉ trả lời đúng 48% câu hỏi, trong khi 77% được mô tả là “dài dòng”.
Điều đặc biệt thú vị là tính toàn diện và phong cách ngôn ngữ rõ ràng của ChatGPT có nghĩa là gần 40% câu trả lời của ChatGPT vẫn được những người tham gia ưa thích. Thật không may cho trí tuệ nhân tạo AI, 77% câu trả lời ưa thích đó là sai.

“Trong quá trình nghiên cứu, chúng tôi quan sát thấy rằng chỉ khi lỗi trong câu trả lời ChatGPT rõ ràng, người dùng mới có thể xác định được lỗi”, bài báo được viết bởi các nhà nghiên cứu Samia Kabir, David Udo-Imeh, Bonan Kou và trợ lý giáo sư Tianyi Zhang. “Tuy nhiên, khi lỗi không thể xác minh dễ dàng hoặc yêu cầu IDE hoặc tài liệu bên ngoài, người dùng thường không xác định được lỗi sai hoặc đánh giá thấp mức độ lỗi trong câu trả lời.”
Ngay cả khi câu trả lời của ChatGPT rõ ràng là sai, hai trong số 12 người tham gia vẫn thích nó hơn do giọng điệu dễ chịu, tự tin và tích cực của AI. Tính toàn diện của nó và phong cách viết sách giáo khoa cũng góp phần làm cho một câu trả lời thực tế không chính xác có vẻ đúng trong mắt một số người.
“Nhiều câu trả lời không chính xác do ChatGPT không thể hiểu được ngữ cảnh cơ bản của câu hỏi đang được hỏi,” bài báo giải thích.
Các nhà sản xuất AI sáng tạo bao gồm các cảnh báo trên trang sản phẩm của họ về các câu trả lời mà họ đưa ra có khả năng sai. Ngay cả Google cũng đã cảnh báo nhân viên của mình về sự nguy hiểm của chatbot, bao gồm cả Bard của chính họ và tránh sử dụng trực tiếp mã do các dịch vụ này tạo ra. Khi được hỏi tại sao, công ty nói rằng Bard có thể đưa ra các đề xuất mã không mong muốn, nhưng nó vẫn giúp ích cho các lập trình viên. Google cũng cho biết họ muốn minh bạch về những hạn chế trong công nghệ của mình. Trong khi đó, Apple, Amazon và Samsung chỉ là một số công ty đã cấm hoàn toàn ChatGPT.