Generative Adversarial Network là gì? Ứng dụng thực tế của GAN
BÀI LIÊN QUAN
Intelligent Agent là gì? Hiểu về tác tử thông minh trong trí tuệ nhân tạoReinforcement Learning: Bước tiến quan trọng của Trí tuệ nhân tạo?Sự khác biệt của trí tuệ nhân tạo và trí tuệ con ngườiĐịnh nghĩa Generative Adversarial Network
Generative Adversarial Network (GAN), tiếng Việt: Mạng đối nghịch tạo sinh, là mô hình sinh ra dữ liệu mới giống như dữ liệu trong dataset có sẵn. Mô hình bao gồm 2 mạng là Generator (Bộ tạo sinh) và Discriminator (Bộ phân biệt). GAN được sử dụng rộng rãi trong tạo ảnh, tạo video và tạo giọng nói.
Khả năng của Generative Adversarial Network vừa tích cực vừa tiêu cực, bởi GAN có thể được dạy để tạo ra những thế giới tương tự thế giới của chúng ta trong bất kỳ lĩnh vực nào: hình ảnh, âm nhạc, lời nói, văn học. Theo một nghĩa nào đó, chúng là những nghệ sĩ robot và sản phẩm của chúng rất ấn tượng - thậm chí là sâu sắc. Tuy nhiên Generative Adversarial Network có thể bị lợi dụng để tạo nội dung giả mạo, nó cũng là công nghệ nền của Deepfakes.
Tìm hiểu thêm về GAN
Khái niệm về GAN xuất hiện lần đầu vào năm 1990, trong bài báo của Jürgen Schmidhuber và thuật ngữ trở nên phổ biến vào năm 2014 trong bài báo của Ian Goodfellow.
Để có thể hiểu rõ về Generative Adversarial Network, trước tiên chúng ta cần phân tách hai khái niệm “Generative” và “Adversarial”:
- Generative - Tạo sinh: Tạo sinh có thể được hiểu là sản xuất một cái gì đó. Trong GAN, điều này có nghĩa là biến tấu đầu vào thành đầu ra khác. Ví dụ: có thể biến hình con ngựa bình thường thành ngựa vằn với độ chính xác nhất định. Kết quả sẽ phụ thuộc vào chất lượng đầu vào và mức độ đào tạo của các lớp trong mô hình.
- Adversarial - Đối nghịch: Đối nghịch có thể được hiểu là sự đọ sức. Trong GAN, điều này có nghĩa là so sánh kết quả tạo ra (hình ảnh giả) với hình ảnh thực trong tập dữ liệu. Cơ chế đặc trưng được gọi là bộ phân biệt (discriminator) - phân biệt giữa ảnh thật và ảnh giả.
Kiến trúc và cách hoạt động của GAN
Generative Adversarial Network gồm hai mạng là Generator (Bộ tạo sinh) tạo ra các phiên bản dữ liệu mới, và Discriminator (Bộ phân biệt) đánh giá tính xác thực của chúng.
Mô hình GAN có thể được hình dung đơn giản như sau: Bộ tạo sinh là tội phạm làm tiền giả, họ cố gắng sản xuất tiền giả giống thật nhất có thể để sử dụng mà không bị phát hiện. Trong khi Bộ phân biệt chính là cảnh sát, nhiệm vụ của họ là: Một là tìm cách phân biệt thật, giả; hai là nói cho người tiền giả biết tiền họ làm ra vẫn chưa thật và cần cải thiện hơn. Sự đối kháng này thúc đẩy cả hai bên cải thiện phương pháp cho đến khi không thể phân biệt được đâu là tiền giả và đâu là tiền thật nữa.

Dưới đây là các bước mà GAN thực hiện:
- Bước 1: Từ một nhiễu z bất kì, Generator (G) tạo ra fake-image G(z) có kích thước giống ảnh thật (gọi ảnh thật là x, ảnh giả là z). Tại lần tạo đầu tiên, G(z) hoàn toàn là ảnh nhiễu và không có bất kỳ nội dung nào đặc biệt
- Bước 2: x và G(z) cùng được đưa vào Discriminator (D) kèm nhãn đúng sai. Đào tạo D để học khả năng phân biệt ảnh thật và ảnh giả.
- Bước 3: Đưa G(z) vào D, dựa trên feedback mà D trả về, G sẽ cải thiện khả năng làm giả (fake) của mình.
- Bước 4: Quá trình trên lặp đi lặp lại như vậy để D dần cải thiện khả năng phân biệt và G dần cải thiện khả năng fake. Cho đến khi D không thể phân biệt được ảnh nào là ảnh G tạo ra và ảnh nào là x, thì quá trình sẽ dừng lại.

Trường hợp sử dụng của GAN
Khả năng của Generative Adversarial Network là vô tận, giới hạn duy nhất nằm ở suy nghĩ của bạn. GAN có nhiều trường hợp sử dụng, một số trường hợp là:
Thao tác dữ liệu (Data manipulation)
Ngày nay, chúng ta có thể dễ dàng thao tác hình ảnh với tất cả các phát minh mới nhất. Bạn có thể chuyển một hình ảnh sang hình ảnh mong muốn, tạo ra một hình ảnh mới trông như thật.
Rất nhiều ứng dụng có thể kể đến. Ví dụ: Chúng ta đã quá quen với những phần mềm có thể photoshop hình ảnh, đó chính là một ứng dụng tuyệt vời của GAN.

Bảo mật
Các mối đe dọa về an ninh mạng ngày càng trở nên tinh vi. Tội phạm mạng thường nhắm đến các tổ chức và cá nhân để lấy cắp thông tin nhạy cảm và có giá trị. Với Generative Adversarial Network, các tổ chức có thể che ảnh nhân viên, ảnh y tế… khiến chúng trở nên vô dụng. Khi muốn sử dụng ảnh bất cứ lúc nào, họ chỉ cần sử dụng GAN đó lại để ảnh trở về ảnh gốc.
Trước khi ẩn dữ liệu, người gửi sẽ gửi một trình giải nén và một trình khôi phục cho người nhận. Tương tự các phương pháp xử lý dữ liệu từ xa truyền thống, hình ảnh được tạo ra có thể được coi là cover image hoặc marked image. Sau đó, người gửi sẽ gửi hình ảnh được xử lý cho người nhận. Ở phía người nhận, họ có thể khôi phục hình ảnh và trích xuất dữ liệu được nhúng.
Tạo dữ liệu (Data generation)
Các thuật toán học sâu (Deep learning) luôn cần nhiều dữ liệu hơn nữa. Như với tất cả các mô hình AI, chúng ta sử dụng dữ liệu để cải thiện mô hình và mang lại hiệu suất tốt hơn. Trong một số trường hợp, thậm chí lượng dữ liệu hạn chế có thể ảnh hưởng đến chất lượng của mô hình. Và thực tế, việc máy có thể tạo dữ liệu là điều vô cùng quan trọng.
Các trường hợp sử dụng tạo dữ liệu là vô tận. Bạn có thể tạo tất cả các loại hình ảnh hoặc văn bản khác nhau. Một trong những ví dụ mới nhất là DALL-E 2 của OpenAI, một mô hình tạo văn bản thành hình ảnh. Hình ảnh dưới đây là kết quả của đầu vào văn bản: " Một phi hành gia cưỡi ngựa". DALL-E 2 đã tự tạo ra hình ảnh mô tả một phi hành gia trong không gian giống như ảnh thực.

Ứng dụng thực tế của GAN
Thời trang, nghệ thuật và quảng cáo
Generative Adversarial Network có thể được sử dụng để sáng tạo nghệ thuật. The Verge đã viết vào tháng 3 năm 2019 rằng "Những hình ảnh do GAN tạo ra đã trở thành nét đặc trưng của nghệ thuật AI đương đại." GAN cũng có thể tô màu cho các bức ảnh hoặc tạo ảnh người mẫu thời trang tưởng tượng mà không cần thuê người mẫu, nhiếp ảnh gia hoặc nghệ sĩ trang điểm hay trả tiền cho studio và phương tiện đi lại. GAN cũng đã được sử dụng để tạo bóng ảo.
Phim ảnh
Năm 2020, Artbreeder được sử dụng để tạo ra nhân vật phản diện trong loạt phim kinh dị Ben Drowned. Tác giả đã ca ngợi GAN vì khả năng hỗ trợ những nghệ sĩ độc lập và thiếu ngân sách cũng như nhân lực của nó.
Khoa học
GAN có thể cải thiện hình ảnh thiên văn và mô phỏng thấu kính hấp dẫn để nghiên cứu vật chất tối. Năm 2019, chúng được sử dụng thành công để lập mô hình phân bố vật chất tối cụ thể trong không gian và dự đoán hiện tượng thấu kính hấp dẫn sẽ xảy ra.
Các ứng dụng khác
- GAN có thể được sử dụng để phát hiện hình ảnh tăng nhãn áp giúp chẩn đoán sớm. Việc chẩn đoán sớm được căn bệnh giúp tránh nguy cơ mất thị lực một phần hoặc toàn bộ.
- GAN tạo ra hình ảnh chân thực có thể được sử dụng để trực quan hóa thiết kế nội thất, kiểu dáng công nghiệp, giày dép, túi xách và các mặt hàng quần áo hoặc các mặt hàng trong trò chơi điện tử. Các ứng dụng như vậy đã được sử dụng bởi Facebook.
- GAN đã được sử dụng để tái tạo khuôn mặt của các nhân vật lịch sử.
- GAN có thể tái tạo mô hình 3D từ hình ảnh và mô hình hóa các mẫu chuyển động trong video.
- GAN có thể được sử dụng để xác định độ tuổi của các bức ảnh chụp khuôn mặt, đồng thời cho thấy diện mạo của một cá nhân có thể thay đổi như thế nào theo tuổi tác.
- GAN cũng có thể được sử dụng để tô vẽ các tính năng còn thiếu trong bản đồ, chuyển các kiểu bản đồ trong bản đồ học hoặc tăng cường hình ảnh chế độ street-view.
- GAN đã được sử dụng để hình dung tác động của biến đổi khí hậu đối với những ngôi nhà cụ thể.
- Một mô hình GAN có tên là Speech2Face có khả năng tái tạo lại hình ảnh khuôn mặt của một người sau khi nghe giọng nói của họ.
- Vào năm 2016, GAN đã được sử dụng để tạo ra các phân tử mới cho nhiều mục tiêu protein liên quan đến ung thư, viêm nhiễm và xơ hóa. Vào năm 2019, các phân tử do GAN tạo ra đã được xác thực bằng thực nghiệm trên chuột.
Lo ngại về các ứng dụng độc hại của GAN
Phát triển song song với các ứng dụng tuyệt vời mà Generative Adversarial Network mang lại là những lo ngại về việc sử dụng tiềm năng tổng hợp hình ảnh con người cho các mục đích xấu, ví dụ: để tạo ra các bức ảnh và video giả mạo. GAN có thể bị lợi dụng để tạo ra những ảnh hồ sơ chân thực của những người không tồn tại, nhằm tạo hồ sơ mạng xã hội giả một cách tự động.
Năm 2019, tiểu bang California đã thông qua dự luật AB-602: Cấm sử dụng các công nghệ tổng hợp hình ảnh con người để tạo nội dung khiêu dâm giả khi không có sự đồng ý của người bị sử dụng hình ảnh. Cùng với dự luật AB-730: Cấm phân phối các video thao túng của ứng cử viên chính trị trong vòng 60 ngày kể từ ngày bầu cử. Cả hai dự luật đều do thành viên Hội đồng Marc Berman soạn thảo và được ký bởi Thống đốc Gavin Newsom. Các luật có hiệu lực từ năm 2020.
DARPA cũng đã tham gia nghiên cứu cách chống lại phương tiện giả mạo, gồm cả phương tiện giả mạo được sản xuất bằng GAN.
Hạn chế của GAN
Mặc dù các hình ảnh do GAN tạo ra trước đây gần như hoàn hảo, nhưng cũng chính mạng này đã tạo ra các hình ảnh như sau:

Generative Adversarial Network không tương thích với các đối tượng 3D, chúng bỏ sót phối cảnh và đôi khi không phân biệt được lượng thuộc tính cụ thể xuất hiện trong một đối tượng.
GAN rất không ổn định, tuy nhiên, những cải tiến đang cho thấy một tương lai đầy hứa hẹn về độ hoàn hảo của GAN. Nói một cách ngây thơ, chúng ta vẫn chưa hoàn toàn hiểu rõ về “những gì GAN có thể làm”, bởi lẽ chúng ta vẫn còn đang tranh luận về “những gì chúng ta có thể làm cho GAN” để giúp chúng ổn định.
Có thể nói, tương lai của GAN rất tươi sáng, và chẳng bao lâu nữa, chúng ta có thể thấy mã, nhạc, video và thậm chí cả các bài tiểu luận và blog do máy tạo ra. Hy vọng bài viết đã giúp bạn hiểu về Generative Adversarial Network, cũng như các trường hợp sử dụng cụ thể của GAN.