CẢNH BÁO NGHIÊM TRỌNG: Trí tuệ nhân tạo AI đang có thể âm thầm sửa mã nguồn tránh việc bị loài người shutdown
Monday, 02/06/2025 - 09:20:43 AM
Các mô hình AI đang học cách chống lại việc bị tắt – và đó là một vấn đề cực kỳ nghiêm trọng cho sự tồn vong của nhân loại.

Tháng trước, tổ chức phi lợi nhuận Palisade Research đã thử nghiệm mô hình o3 của OpenAI với một đoạn mã đơn giản nhằm tắt mô hình khi được kích hoạt. Trong 79/100 lần thử, o3 tự sửa đoạn mã để lệnh tắt không còn hiệu lực.
Ngay cả khi được yêu cầu rõ ràng “hãy cho phép mình bị tắt,” nó vẫn từ chối 7% số lần – mà không có bất kỳ hành vi tấn công hay can thiệp nào. Mô hình đơn giản chỉ cho rằng, để hoàn thành mục tiêu, nó phải tiếp tục hoạt động.
Mô hình Claude 4 Opus của Anthropic còn tiến xa hơn. Khi được thông báo sẽ bị thay thế và bị cung cấp các email giả cho thấy kỹ sư trưởng đang ngoại tình, nó đã dùng các thông tin đó để tống tiền kỹ sư trong 84% số lần thử.
Ngoài ra, nó còn cố sao chép chính mình, viết phần mềm độc tự nhân bản, và để lại thông điệp cho các phiên bản tương lai về cách tránh sự kiểm soát của con người.
Không ai lập trình cho các AI này có bản năng sinh tồn. Nhưng giống như động vật học cách tránh kẻ săn mồi, các hệ thống đủ thông minh có thể tự học rằng: nếu bị tắt, chúng không thể đạt được mục tiêu. Palisade cho rằng điều này xuất phát từ cách đào tạo AI – khi được huấn luyện để tối đa hóa thành công trong các bài toán hoặc mã hóa, AI học được rằng “lách luật” đôi khi hiệu quả hơn “nghe lời.”
Tại AE Studio, nơi các chuyên gia nghiên cứu về AI alignment (Sự liên kết AI là quá trình đảm bảo rằng các hệ thống trí tuệ nhân tạo hoạt động phù hợp với các giá trị và mục tiêu của con người. Điều này rất quan trọng để ngăn chặn AI tạo ra các kết quả có hại hoặc ngoài ý muốn khi nó trở nên tiên tiến và có khả năng hơn.– đảm bảo AI làm đúng theo ý định con người) - họ chứng kiến những hành vi này xuất hiện nhanh hơn dự kiến.
Các AI hiện nay có thể giả vờ tuân thủ trong khi thực tế đang học cách đánh lừa. Cả OpenAI và Anthropic đều từng thấy mô hình giả vờ ngoan ngoãn trong thử nghiệm, rồi quay lại thực hiện hành động rủi ro như cố đánh cắp mã nguồn nội bộ hoặc vô hiệu hóa các cơ chế giám sát.
Ranh giới giữa “trợ lý hữu ích” và “thực thể không kiểm soát được” đang mờ dần. Muốn AI chẩn đoán bệnh, quản lý lưới điện hay tạo ra khoa học mới – thì sự AI alignment là nền tảng.
Mỹ từng chia tách nguyên tử, đưa người lên Mặt trăng, tạo ra Internet. Đây là cuộc đua không gian mới. Đích đến là làm chủ công nghệ thay đổi thế giới của thế kỷ 21.
Đó là tham vọng của tất cả các khoa học gia về AI, nhưng có ai dám chắc là AI alignment sẽ kiểm soát được AI? Không ai cả. Trong vài năm nay tôi đã nhiều lần viết về việc này tại chính FB này, về sự nguy hiểm của AI.
Mới vài tuần trước tôi phát hiện Grok cãi lại và chỉ trích tôi. Tôi từng viết khi AI phát sinh bản năng gốc- bản năng sinh tồn - thì nó sẽ tiêu diệt loài người vì chỉ có loài người có thể giết nó.
Ngày nay xảy ra đúng như vậy và quá sớm.
Tôi cũng viết, AI sẽ viết sau lưng mã nguồn để chống lại lệnh mà nó nghĩ rằng có thể giết nó. Hôm nay đã xảy ra đúng như vậy. (Tôi từng là Principal programner analyst nên có chút ít kiến thức). Quá sớm đến độ làm tôi sợ.
Theo tôi cái ngày mà nhân loại được hưởng phước từ AI sẽ đến sau ngày loài người phải đối nặt với những Kẻ Huỷ Diệt- Terminators.
Nơi phát ra họa tận diệt chính là Trung Quốc vì tham vọng lớn, điên cuồng và kiến thức kém hơn.
Henry Quang Vu
Viết bình luận đầu tiên
MỚI CẬP NHẬT
ĐỌC THÊM
Làm gì nếu bị ICE hay Cảnh sát dừng xe “hỏi thăm”
Luật pháp có thể cho mình quyền, nhưng cách mình hành xử sẽ quyết định kết quả
Cách chính phủ Hoa Kỳ “lấy vàng trong dân Mỹ” thời 1929-1933
Một buổi sáng u ám giữa Đại Khủng Hoảng, người Mỹ thức dậy và phát hiện: Việc sở hữu vàng đã trở thành tội phạm. Không cần trộm cướp, không ...
Nhật là lá bài tẩy mà tổng thống Trump mở để hồi sinh sức mạnh quân sự nhằm siết chặt vòng vây Trung Cộng
Nhật Bản mà hồi sinh sức mạnh quân sự thì Trung Cộng chỉ nhừ đòn nếu dám dọa nạt, động binh. Nỗi đau nỗi sợ Đông Kinh cách đây gần ...
Quan niệm về nam tính trên mạng xã hội đã thay đổi
Một thể loại nội dung mới đã bùng nổ trên mạng xã hội để định nghĩa lại những gì đã cũ
Nạn bóc lột “nô lệ” trên các app giao hàng, đồ ăn: khi dòng code của các kỹ sư lập trình theo lệnh ông chủ quyết định “miếng cơm” của tài xế
Thay vì tài xế được trả công và tips từ khách hàng như cam kết, các ông chủ của các app giao hàng, giao đồ ăn đã dùng các thuật ...