Trung Quốc ra mắt mô hình AI mới cho phép tạo video từ văn bản - một đối thủ cạnh tranh trực tiếp với OpenAI. - thitruongtoday.vn Trang thông tin tổng hợp

Một công ty tại Trung Quốc vừa ra mắt mô hình AI có khả năng tạo video từ văn bản, tương tự như công cụ Sora của OpenAI.

Chú thích ảnh — Hình ảnh từ clip demo do ứng dụng Vidu tạo ra, với đầu vào là văn bản. Ảnh: SCMP

Trung Quốc vừa ra mắt một công cụ AI chuyển văn bản thành video tương tự như ứng dụng Sora của OpenAI. Tuy nhiên, mô hình mới này chỉ tạo được video dài tối đa 16 giây, so với 60 giây của công ty Mỹ. Theo tờ Bưu điện Hoa Nam Buổi sáng (SCMP), Vidu – niềm hy vọng lớn nhất của quốc gia này trong việc cạnh tranh với Sora – được phát triển bởi Shengshu Technology hợp tác với Đại học Thanh Hoa và đã ra mắt vào cuối tuần qua.

Công ty cho biết Vidu có khả năng tạo video độ phân giải 1080p dựa trên các lời nhắc văn bản đơn giản. Zhu Jun, nhà khoa học trưởng tại Shengshu và Phó trưởng khoa tại Viện AI Đại học Thanh Hoa, cho biết: “Vidu là thành tựu mới trong đổi mới tự lực, đạt đột phá ở nhiều lĩnh vực”. Vidu nổi bật với hiệu ứng video tiên tiến, khả năng mô phỏng thế giới vật lý thực và hiểu biết về các yếu tố Trung Quốc. Zhu Jun nhấn mạnh rằng Vidu “có khả năng tưởng tượng”, “mô phỏng thế giới vật chất” và “tạo video dài 16 giây với các nhân vật, cảnh và dòng thời gian nhất quán”.

Ông cũng cho biết mô hình này có thể hiểu “các yếu tố Trung Quốc”. Trong buổi ra mắt, Shengshu đã công bố một số clip demo, bao gồm cảnh gấu trúc chơi ghi-ta trên bãi cỏ và một chú chó con đang bơi trong hồ, đều có chi tiết sống động.

Sự ra đời của Vidu đã khơi dậy hy vọng tại quốc gia đang nỗ lực bắt kịp các công ty AI hàng đầu như OpenAI do Microsoft hỗ trợ. Không giống như ChatGPT của OpenAI, phiên bản đã gây ra làn sóng các đối thủ cạnh tranh tại Trung Quốc, các video ấn tượng của Sora vẫn chưa thu hút được sự chú ý tương tự từ các công ty BigTech Trung Quốc.

Các chuyên gia cho biết một rào cản lớn đối với Trung Quốc là thiếu sức mạnh tính toán. Li Yangwei, nhà tư vấn kỹ thuật trong lĩnh vực điện toán thông minh ở Bắc Kinh, cho biết Sora cần tám GPU Nvidia A100 để tạo một clip dài một phút, mất hơn ba giờ.

Ông nói: “Sora yêu cầu rất nhiều sức mạnh tính toán”. Mỹ đã tăng cường hạn chế xuất khẩu các chip tiên tiến của Nvidia, bao gồm GPU A100 và H100, cấm vận chuyển chúng sang Trung Quốc.

Công ty Shengshu có trụ sở tại Bắc Kinh được thành lập vào tháng 3-2023, với đội ngũ chính gồm các thành viên từ Viện AI của Đại học Thanh Hoa, cùng với các chuyên gia đến từ Tập đoàn Alibaba, Tencent và ByteDance.

Tập đoàn Alibaba, chủ sở hữu của tờ Bưu điện Hoa Nam Buổi sáng, hiện cũng đang phát triển những mô hình AI tạo video riêng của mình. Tháng trước, Shengshu đã huy động được hàng trăm triệu nhân dân tệ từ các nhà đầu tư như Qiming Ventures, Zhipu AI và Baidu Ventures.

Mô hình AI chuyển văn bản thành video đầu tiên của Trung Quốc đã được Shengshu giới thiệu khoảng 2 tháng sau khi OpenAI tại Mỹ ra mắt mô hình tương tự mang tên Sora, gây được tiếng vang lớn trên toàn cầu. Hiện tại, Mỹ và Trung Quốc đang cạnh tranh mạnh mẽ trong nhiều lĩnh vực liên quan đến AI, từ công nghệ thiết kế phần cứng và phần mềm AI cho đến các nguyên liệu thô cung cấp năng lượng cho hệ thống AI.

AI đã trở thành từ khóa quen thuộc trong năm 2023, nhưng từ 7 năm trước, Trung Quốc đã có kế hoạch phát triển đầy tham vọng với mục tiêu trở thành “trung tâm đổi mới AI toàn cầu” vào năm 2030.

Trung Quốc đặt mục tiêu đạt “trình độ dẫn đầu thế giới” vào năm 2025 và trở thành “trung tâm sáng tạo AI lớn của thế giới” vào năm 2030, đồng thời ưu tiên AI làm động lực chính cho việc nâng cấp công nghiệp và chuyển đổi kinh tế.