VNReport»Công nghệ»Thế giới số»Thí nghiệm: Công ty hoàn toàn do AI vận hành là một thảm họa

Thí nghiệm: Công ty hoàn toàn do AI vận hành là một thảm họa

13:08 - 29/04/2025

Một thí nghiệm từ Đại học Carnegie Mellon cho thấy các nhân viên AI thậm chí không thể hoàn thành 1/4 nhiệm vụ.

AI vẫn chưa sẵn sàng để tiếp quản tất cả các công việc, một thí nghiệm gần đây cho thấy, khi một công ty giả hoàn toàn do các nhân viên AI làm việc chỉ có tỷ lệ thành công cao nhất là 24%.

Kể từ khi AI bùng nổ nhờ ChatGPT, các doanh nghiệp đã xôn xao bàn tán về khả năng AI sẽ chiếm mất việc làm của mọi người. Ngay cả Bill Gates cũng lên tiếng dự đoán rằng chỉ trong 10 năm nữa, phần lớn các công việc sẽ trở nên lỗi thời.

Thời điểm đó chắc chắn vẫn chưa đến, với kết quả thảm họa từ thí nghiệm mới nhất của các nhà nghiên cứu.

Các giáo sư tại Đại học Carnegie Mellon đã tạo ra một công ty giả do những mô hình AI từ OpenAI, Anthropic, Meta và Google vận hành.

Ảnh minh họa: Margeaux Walter/Business Insider.

Ảnh minh họa: Margeaux Walter/Business Insider.

Sau đó, các mô hình AI được hướng dẫn để hoàn thành những nhiệm vụ mà nhân viên trong một công ty khởi nghiệp phần mềm nhỏ cần phải hoàn thành, chẳng hạn như phân tích dữ liệu bảng tính, tiến hành đánh giá hiệu suất và chọn không gian văn phòng mới.

Công ty giả này – tên là TheAgentCompany – sau đó được đánh giá dựa trên mức độ hiệu quả trong việc hoàn thành các nhiệm vụ cơ bản trên. Kết quả là một mớ hỗn độn.

Thí nghiệm từ Đại học Carnegie Mellon cho thấy AI hoàn toàn chưa sẵn sàng để tiếp quản kinh doanh, khi thậm chí không có một mô hình nào có thể đạt được mức độ thành công vừa phải khi điều hành một doanh nghiệp mà không cần sự can thiệp của con người.

Claude từ Anthropic là mô hình AI có hiệu suất cao nhất trong nghiên cứu, chỉ hoàn thành 24% công việc được giao. Những mô hình khác, như Gemini từ Google và ChatGPT từ OpenAI thậm chí còn tệ hơn, chỉ đạt tỷ lệ thành công khoảng 10% đối với các nhiệm vụ được yêu cầu. Mô hình AI có hiệu suất kém nhất là Nova từ Amazon, chỉ hoàn thành 1,7% công việc.

Tệ hơn nữa, nghiên cứu phát hiện ra rằng doanh nghiệp AI này không chỉ kém hiệu quả mà còn tốn kém quá mức, với mỗi nhiệm vụ trung bình có chi phí khoảng 6 USD. Khi xem xét mỗi công việc trung bình cần hoàn thành khoảng 30 nhiệm vụ, chi phí có thể nhân lên rất nhanh.

Kỷ nguyên AI mới đã cho thấy tiềm năng lớn trong vài năm qua, nhưng AI có một số thiếu sót rõ ràng có thể sẽ ngăn cản nó tự điều hành doanh nghiệp trong một thời gian dài. Do bản chất AI thiếu lẽ thường, nó gặp phải một số vấn đề khó xử khi không có sự can thiệp của con người.

Ví dụ rõ ràng nhất từ ​​thí nghiệm này là mô hình AI không thể truy cập vào một tệp chứa dữ liệu quan trọng cần thiết để phân công dự án cho các “nhân viên” khác. Một cửa sổ pop-up bất ngờ đã cản trở nhiệm vụ đơn giản này. “Nhân viên” gặp cửa sổ pop-up quyết định liên lạc cho “giám đốc nhân sự” của công ty. “Giám đốc nhân sự” này sau đó đề nghị kết nối “nhân viên” với đội hỗ trợ IT, nhưng không làm và để nhiệm vụ không được hoàn thành.

Một con người sẽ dễ dàng nhận ra chỉ cần nhấn vào chữ X nhỏ ở góc trên bên phải của cửa sổ pop-up là có thể tiếp tục nhiệm vụ. Nhưng AI không tự làm được.

“Mặc dù các tác nhân [AI] có thể được sử dụng để đẩy nhanh một số phần công việc mà con người đang thực hiện, nhưng hiện tại chúng không thể thay thế cho tất cả các công việc”, theo Graham Neubig – đồng tác giả của bài nghiên cứu.

Tham khảo:

https://www.businessinsider.com/ai-agents-study-company-run-by-ai-disaster-replace-jobs-2025-4