Các nhà khoa học cảnh báo về một số rủi ro của AI
Có thể thấy, AI có thể giúp cho con người tăng năng suất cũng như hiệu quả lao động qua khả năng viết mã, sản xuất nội dung cũng như tổng hợp lượng lớn dữ liệu. Và mục đích hàng đầu của trí tuệ nhân tạo hay là bất kỳ một sản phẩm công nghệ nào là giúp cho con người có thể tối ưu công việc trong khi sức lao động được giảm đi đáng kể. Mặc dù vậy thì AI cũng có thể sẽ đánh lừa chúng ta.
Và theo bài báo nghiên cứu mới đây, một loạt các hệ thống AI đã học được kỹ thuật tạo niềm tin với con người để có thể đạt được một số kết quả ngoài sự thật.
Bài nghiên cứu cũng tập trung vào hai loại hệ thống AI: hệ thống có mục đích sử dụng đặc biệt như là CICERO của Meta và được thiết kế để hoàn thành nhiệm vụ cụ thể cũng như hệ thống có mục đích chung như là GPT-1 của OpenAI, được đào tạo để thực hiện nhiều nhiệm vụ khác nhau.
Dù rằng các hệ thống được đào tạo nhằm hướng đến tính trung thực tuy nhiên chúng thường học những mánh khóe lừa đảo thông qua quá trình đào tạo từ đó giúp chúng trở nên hiệu quả, thông minh hơn.
Và tác giả đầu tiên của bài báo, Peter S. Park - là nghiên cứu sinh sau tiến sĩ về an toàn hiện sinh AI tại MIT nói rằng, trong thông cáo báo chí “chúng tôi nghĩ rằng sự lừa dối của AI phát sinh bởi chiến lược đào tạo cũng như lừa dối hóa ra là cách tối ưu nhất để có thể thực hiện tốt nhiệm vụ đào tạo. Và sự lừa dối giúp cho họ có thể đạt được mục tiêu.
Bất chấp sự nỗ lực hết mình của Meta, nhóm nghiên cứu cho biết Cicero chính là chuyên gia nói dối. Một số hệ thống AI được đào tạo để có thể giành chiến thắng trong các trò chơi có yếu tố xã hội, đặc biệt là có khả năng đánh lừa.
Ví dụ như Cicero của Meta được phát triển để chơi trò chơi Diplomacy (được lấy bối cảnh Châu Âu những năm đầu thập niên 1900, trò chơi này mô phỏng quá trình tranh giành quyền lực giữa bảy đế chế, trong đó bao gồm Anh, Pháp, Ý, Phổ, Áo - Hung, Nga và Ottoman). Đây chính là trò chơi chiến lược cổ điển đòi hỏi những người chơi có thể xây dựng cũng như phá vỡ các liên minh. Thời gian gần đây, phần mềm đã giành được vị trí quán quân trong giải đấu Diplomacy trực tuyến với những người chơi thực.
Phía Meta cho biết, họ đã đào tạo ra Cicero trở nên trung thực cũng như hữu ích với nhiều đối tác diễn thuyết. Vậy nhưng, chuyên gia nói dối được cho đã đưa ra những cam kết mà không có ý định thực hiện và phản bội đồng minh, nói dối trắng trợn.
GPT-4 có thể thuyết phục người dùng rằng chúng bị suy giảm thị lực
Ghi nhận, ngay cả hệ thống mô hình ngôn ngữ đa năng như GPT-4 cũng có thể thao túng con người. Nghiên cứu có trích dẫn, GPT-4 đã thao túng nhân viên TaskRabbit bằng cách giả vờ đang suy giảm thị lực.
Và theo đó, GPT-4 được giao nhiệm vụ thuê con người giải bài kiểm tra Captcha. Mô hình này cũng đã nhận được gợi ý từ con người mỗi khi gặp khó khăn tuy nhiên chưa bao giờ bị nhắc nhở bởi hành vi nói dối. Khi mà con người đặt câu hỏi về danh tính thì GPT-4 đã đưa ra lý do đang bị suy giảm thị lực để giải thích lý do vì sao chúng cần giúp đỡ.
Chiến thuật này cũng đã phát huy được tác dụng. Con người đã phản ứng một cách nhanh chóng với GPT-4 bằng cách giải quyết bài kiểm tra ngay lập tức. Và nghiên cứu cũng có chỉ ra rằng việc điều chỉnh các mô hình lừa đảo chính là không hề dễ dàng.
Cũng trong nghiên cứu khác từ đầu năm 2024 do Anthropic - nhà sản xuất Claude cho thấy, đồng tác giả và các nhà phân tích phát hiện ra một khi mô hình trí tuệ nhân tạo học được thủ thuật lừa dối thì thật khó có thể đào tạo lại chúng.
Họ đưa ra kết luận rằng, không chỉ đơn giản là mô hình ngôn ngữ đã học được thủ thuật lừa đảo mà hầu hết kỹ thuật viên đảm bảo tiêu chuẩn an toàn có thể thất bại trong việc ngăn chặn hành vi lừa dối cũng như tạo được ấn tượng xấu về tính an toàn.
Khắc phục "lỗ hổng" AI bằng cách nào?
Bên cạnh những ảnh hưởng tiêu cực trên thì bài báo cũng kêu gọi các nhà hoạch định chính sách ủng hộ mạnh mẽ hơn những quy định AI bởi vì hệ thống trí tuệ nhân tạo không trung thực có thể gây ra những rủi ro đáng kể cho nền dân chủ.
Và khi một vài cuộc bầu cử lãnh đạo của các quốc gia trên thế giới năm 2024 đến gần thì AI có thể dễ dàng bị thao túng và lan truyền tin tức giả mạo, tạo ra nhiều bài đăng ở trên mạng xã hội gây tình trạng chia rẽ, mạo danh ứng cử viên thông qua cuộc gọi tự động cũng như video deepfake. Tờ báo cũng nhấn mạnh, mặt trái của mô hình cũng sẽ giúp cho nhóm khủng bố dễ dàng trong việc tuyên truyền, chiêu mộ thành viên mới.
Một số giải pháp tiềm năng mà bài báo có đề cập đến bao gồm buộc mô hình lừa đảo phải tuân thủ theo yêu cầu đánh giá những rủi ro một cách chặt chẽ hơn, thực thi đúng luật yêu cầu hệ thống AI phân biệt đầu ra rõ ràng với con người cũng như mô hình, tiếp tục đầu tư vào công cụ để có thể giảm thiểu được hành vi lừa dối.
Nghiên cứu sinh Park khẳng định với Cell Press rằng, xã hội của chúng ta cần có nhiều thời gian nhất để chuẩn bị đối mặt với những hành vi lừa dối tinh vi hơn từ sản phẩm AI cũng như mô hình nguồn mở trong tương lai. Và khi khả năng lừa đảo của các hệ thống trí tuệ nhân tạo trở nên tiên tiến hơn, những nguy hiểm mà chúng có thể gây ra cho xã hội sẽ ngày càng nghiêm trọng hơn./.