OpenAI GPT-4o Tạo Hình Ảnh Từ Văn Bản Cải Thiện

OpenAI vừa công bố tính năng tạo hình ảnh mới cho mô hình GPT-4o, được phát hành cách đây khoảng một năm và đã được tinh chỉnh, cải tiến với nhiều tính năng mới. Điểm nhấn của bản cập nhật này là khả năng tạo hình ảnh chất lượng cao, chi tiết và có thể tuân theo hướng dẫn bằng ngôn ngữ tự nhiên để chỉnh sửa chúng cho đến khi người dùng nhận được chính xác hình ảnh họ đang hình dung.

1. Đột phá trong xử lý văn bản – Từ biệt những “ký tự nguệch ngoạc”

Các mô hình AI cũ thường gặp khó khăn với việc xử lý văn bản – khi bạn yêu cầu chúng tạo một biển báo, trong trường hợp tốt nhất, bạn chỉ nhận được một biển báo với những từ vô nghĩa, trong trường hợp tệ nhất, bạn nhận được những ký tự nguệch ngoạc thậm chí không phải là chữ cái. Nhưng GPT-4o đã thay đổi điều đó với khả năng tạo hình ảnh có văn bản hoàn toàn có thể đọc được.

Các ví dụ từ OpenAI cho thấy mô hình có thể tạo ra các biển hiệu, áp phích, và các hình ảnh khác có chứa văn bản mà con người có thể đọc được một cách dễ dàng. Đây là một bước tiến quan trọng trong lĩnh vực tạo hình ảnh AI, vì văn bản thường là một trong những thách thức lớn nhất đối với các mô hình AI tạo hình ảnh. Khả năng xử lý văn bản chính xác mở ra vô số ứng dụng mới, từ thiết kế đồ họa đến tạo nội dung quảng cáo, nơi văn bản rõ ràng và có thể đọc được là yếu tố thiết yếu.

2. Quy trình tạo hình ảnh trực quan – Đối thoại thay vì viết lại câu lệnh

Việc tạo hình ảnh thông thường bắt đầu với việc nhập một lời nhắc văn bản, sau đó bạn tinh chỉnh hình ảnh bằng cách tinh chỉnh lời nhắc ban đầu. GPT-4o hoạt động khác biệt – bạn yêu cầu nó tạo một hình ảnh, sau đó bạn cho nó biết những gì cần thay đổi, tiếp tục yêu cầu thay đổi thêm cho đến khi bạn nhận được kết quả mong muốn. Quy trình này giống với một cuộc đối thoại hơn là việc viết lại các câu lệnh phức tạp.

Ví dụ từ OpenAI cho thấy người dùng có thể bắt đầu từ đầu hoặc chỉnh sửa một hình ảnh có sẵn. Trong một ví dụ, người dùng cung cấp ảnh một con mèo và yêu cầu AI thêm mũ thám tử và kính một mắt. Sau đó, người dùng tiếp tục tinh chỉnh hình ảnh, biến nó thành một hình ảnh có thể là ảnh chụp màn hình từ một trò chơi RPG. Khả năng hiểu và thực hiện các yêu cầu phức tạp thông qua đối thoại tự nhiên làm cho công cụ này trở nên dễ tiếp cận hơn nhiều so với các công cụ tạo hình ảnh khác đòi hỏi người dùng phải học cách viết lời nhắc hiệu quả.

3. Khả năng xử lý nhiều đối tượng – Vượt trội so với các mô hình khác

OpenAI cho biết GPT-4o rất giỏi trong việc tuân theo hướng dẫn chi tiết – nó có thể thao tác với 10-20 đối tượng khác nhau trong một cảnh mà không bị rối (các mô hình AI khác chỉ có thể xử lý 5-8 đối tượng, theo công ty). Bạn cũng có thể bắt đầu với nhiều hình ảnh và tích hợp các yếu tố từ mỗi hình ảnh vào kết quả cuối cùng.

Khả năng xử lý nhiều đối tượng và hiểu các mối quan hệ không gian giữa chúng là một bước tiến đáng kể. Điều này cho phép người dùng tạo ra các cảnh phức tạp hơn và có nhiều chi tiết hơn, với mức độ kiểm soát tốt hơn đối với từng yếu tố trong hình ảnh. Đối với các nhà thiết kế, nghệ sĩ và người sáng tạo nội dung, điều này có nghĩa là ít phải dựa vào các công cụ chỉnh sửa hình ảnh riêng biệt để tinh chỉnh các chi tiết sau khi tạo hình ảnh ban đầu.

4. Thừa nhận hạn chế – Cam kết minh bạch

GPT-4o không hoàn hảo và OpenAI là người đầu tiên thừa nhận điều đó. Đôi khi, nó cắt xén hình ảnh ở phần dưới, các ảo giác vẫn là một vấn đề, làm việc với hơn 10-20 đối tượng có thể gây khó khăn, việc hiển thị văn bản với các ký tự không phải La-tinh cũng cần được cải thiện và nhiều vấn đề khác.

Sự minh bạch về những hạn chế này là một phần quan trọng trong cách tiếp cận có trách nhiệm đối với việc phát triển AI. OpenAI đã cung cấp các ví dụ về GPT-4o đã tạo ra kết quả sai như thế nào, cho thấy rằng mặc dù có những tiến bộ đáng kể, công nghệ này vẫn đang trong quá trình phát triển. Điều này giúp người dùng có kỳ vọng thực tế về khả năng của công cụ và hiểu rằng kết quả có thể không hoàn hảo trong mọi tình huống. Cách tiếp cận cởi mở này cũng khuyến khích phản hồi từ cộng đồng, điều có thể giúp định hướng sự phát triển trong tương lai.

Với việc ra mắt tính năng tạo hình ảnh GPT-4o, OpenAI tiếp tục đặt mình ở vị trí tiên phong trong lĩnh vực AI tạo sinh. Khả năng tạo hình ảnh chất lượng cao với văn bản có thể đọc được, kết hợp với giao diện đối thoại tự nhiên, mang đến một công cụ mạnh mẽ và dễ tiếp cận cho cả người dùng chuyên nghiệp lẫn người mới bắt đầu. Mặc dù vẫn còn những hạn chế cần khắc phục, nhưng rõ ràng rằng chúng ta đang chứng kiến một bước tiến quan trọng trong khả năng AI hiểu và tạo nội dung hình ảnh theo ý định của con người.

Nguồn: GSMArena

Xem thêm:

Di Động Việt

Đánh giá bài viết

BÀI VIẾT LIÊN QUAN

BÌNH LUẬN Hủy trả lời

Vui lòng nhập bình luận của bạn

Vui lòng nhập tên của bạn ở đây

Bạn đã nhập một địa chỉ email không chính xác!

Vui lòng nhập địa chỉ email của bạn ở đây

Công Nghệ 24/7

OpenAI Ra Mắt Tính Năng Tạo Hình Ảnh GPT-4o Với Khả Năng Xử Lý Văn Bản Và Tuân Thủ Hướng Dẫn Được Cải Thiện

1. Đột phá trong xử lý văn bản – Từ biệt những “ký tự nguệch ngoạc”

2. Quy trình tạo hình ảnh trực quan – Đối thoại thay vì viết lại câu lệnh

3. Khả năng xử lý nhiều đối tượng – Vượt trội so với các mô hình khác

4. Thừa nhận hạn chế – Cam kết minh bạch

BÀI VIẾT LIÊN QUAN

ChatGPT Chạy Được Trên iPhone 3GS Nhờ Nhà Phát Triển Bên...

ChatGPT và Sora Mở Ra Kỷ Nguyên Mới Cho Sáng Tạo...

Jony Ive nói về Steve Jobs và OpenAI: Hành trình sáng...

BÌNH LUẬN Hủy trả lời