Một tình trạng phổ biến là hình ảnh nhóm người do AI tạo thường thiếu sự đa dạng: đôi khi tất cả đều là người da trắng, hoặc chỉ toàn nam giới, hoặc bố cục các nhân vật không nhất quán.
Ngay cả khi đã chỉ định rõ hai nam, hai nữ thuộc các chủng tộc khác nhau và cùng quay mặt theo một hướng, kết quả vẫn có thể sai lệch về số lượng, màu da hoặc hướng nhìn, thậm chí một số người còn thiếu mắt.
Tuy nhiên, trải nghiệm này đã mang lại nhiều bài học quý giá, đặc biệt là sự cần thiết của việc thiết kế câu lệnh (prompt) phù hợp với từng nền tảng AI cụ thể.
Từ Midjourney đến Adobe
Với Midjourney, điểm mạnh là khả năng tạo hình ảnh nghệ thuật, giàu trí tưởng tượng, thích hợp để minh họa ý tưởng trừu tượng, xây dựng kịch bản trực quan nhanh. Tuy nhiên, nó gặp khó khăn với độ chính xác theo nghĩa đen, đặc biệt khi tạo nhóm người, khuôn mặt hay hành động cụ thể. Cảnh phức tạp dễ dẫn đến lỗi.
Để khắc phục, nên ưu tiên các yếu tố trực quan quan trọng, tách từng cá nhân hoặc cặp đôi rồi ghép lại, chỉ định phong cách hoặc tâm trạng để hình ảnh cách điệu, đồng thời tham khảo cộng đồng để tìm ví dụ phù hợp.
DALL-E linh hoạt trong nhiều phong cách từ chân thực đến hoạt hình, phù hợp cho đồ họa giải thích hay minh họa tại chỗ. Nó hoạt động tốt với cảnh đơn giản hoặc chủ thể đơn lẻ và cho phép chỉnh sửa bằng inpainting/outpainting.
Hạn chế của DALL-E là khó xử lý các nhóm người phức tạp và văn bản trong hình ảnh. Khi gặp vấn đề, nên đưa lời nhắc trực tiếp, rõ ràng về số lượng, vai trò và hành động, tạo biến thể để tinh chỉnh kết quả, và chỉnh sửa từng giai đoạn nếu cần.
Canva Magic Media mạnh ở đồ họa nhanh cho mạng xã hội, blog hay infographic, tích hợp tốt với quy trình thiết kế của Canva. Tuy nhiên, nó gặp khó khăn khi tạo cảnh nhóm chi tiết, cân bằng giới tính, dân tộc hay hướng nhìn, và tương tác phức tạp giữa nhiều người dễ bị sai lệch.
Giải pháp là giữ câu lệnh đơn giản, tập trung vào 1-2 chi tiết quan trọng, tạo từng cá nhân riêng biệt rồi ghép lại, đồng thời sử dụng công cụ chỉnh sửa của Canva để điều chỉnh bố cục và tính đa dạng.
Adobe Firefly đảm bảo tính nhất quán về phong cách, dễ tích hợp với bộ Adobe để tinh chỉnh hình ảnh trong Photoshop hay Illustrator. Hạn chế là khó tái hiện cảnh biên tập phức tạp hoặc nhóm lớn. Nên tạo người hoặc đối tượng chính trước, sau đó thêm ngữ cảnh, chuyển kiểu hình ảnh nếu cần và tinh chỉnh trong Photoshop hoặc Illustrator.
Stable Diffusion linh hoạt và tùy chỉnh cao nhờ mã nguồn mở, cho phép truy cập vào nhiều mô hình thẩm mỹ khác nhau và kiểm soát chi tiết bằng nhắc nhở tiêu cực. Tuy nhiên, nó yêu cầu chuyên môn, cảnh nhiều người dễ lỗi về khuôn mặt, bàn tay và cách sắp xếp. Cần thử nhiều mô hình, sắp xếp lại câu lệnh và tách nền, chủ thể rồi ghép lại trong công cụ chỉnh sửa.
Cần minh bạch và không sử dụng cho một số trường hợp
Một số nguyên tắc chung bao gồm tận dụng điểm mạnh của từng công cụ, tùy chỉnh prompt, nhấn mạnh sự đa dạng về giới tính, chủng tộc, độ tuổi, khả năng, và kiểm tra kỹ hình ảnh để tránh thiên vị.
Cần minh bạch khi sử dụng AI, ghi nhãn rõ ràng và tuân thủ chính sách tòa soạn.
Ngoài ra, cần lưu ý rủi ro pháp lý và bản quyền, kiểm tra điều khoản nền tảng và tư vấn pháp lý khi sử dụng AI cho mục đích thương mại.
Không sử dụng hình ảnh AI cho hiện trường, tin chính trị, thảm họa hoặc mô tả người thật để tránh gây hiểu lầm. Cân nhắc đến quyền tác giả và hỗ trợ các nghệ sĩ thực nếu có thể. Đối với bài báo nhạy cảm hoặc rủi ro cao, nhiếp ảnh hoặc minh họa truyền thống vẫn là lựa chọn an toàn hơn.