Trí thông minh dữ liệu tạo

Người dùng bị thu hút bởi công cụ Image to Video của Microsoft – VASA-

Ngày:

Khi cuộc đua giành ưu thế về AI vẫn tiếp tục, Microsoft hiện muốn biến những bức ảnh chân dung của mọi người thành khuôn mặt biết nói hoặc video bằng công cụ mới nhất của mình, VASA-1.

Theo một tài liệu nghiên cứu của gã khổng lồ công nghệ, Microsoft đang đưa cuộc đua AI lên một tầm cao mới, với VASA 1, khuôn khổ để tạo khuôn mặt biết nói sống động như thật của các nhân vật ảo với kỹ năng tạo cảm xúc thị giác (VAS), tất cả đều từ một bức chân dung.

Ngoài ra đọc: Ngành công nghiệp trò chơi điện tử vội vã hợp nhất về AI

Từ chân dung đến khuôn mặt biết nói

Mặc dù chưa được cung cấp rộng rãi nhưng công cụ này sẽ chụp một bức ảnh chân dung và âm thanh giọng nói, đồng thời tạo ra video khuôn mặt nói chuyện siêu thực với khả năng đồng bộ hóa âm thanh môi chính xác, hành vi khuôn mặt sống động như thật và chuyển động đầu tự nhiên được tạo ra trong thời gian thực.

Công cụ này vẫn đang ở giai đoạn xem trước nghiên cứu với nhóm Nghiên cứu của Microsoft và các video demo “trông rất ấn tượng”.

Trong khi các công ty như Nvidia và Runway đã có công nghệ chuyển động đầu và hát nhép tương tự, VASA-1 dường như “có chất lượng và độ chân thực cao hơn nhiều”, giúp giảm hiện tượng giả miệng, theo Hướng dẫn của Tom.

Ngoài ra, cách tiếp cận hoạt hình điều khiển bằng âm thanh này cũng giống như cách tiếp cận gần đây. Vlogger AI mô hình của Google Research.

Theo Microsoft, trong khi tất cả các hình ảnh trong các ví dụ trình diễn đều được tổng hợp bởi Dall-E, VASA-1 vẫn có thể tạo hình ảnh động như thật.

Bản demo cho thấy những người khác nhau nói chuyện với các chuyển động, nét mặt, chuyển động mắt gần như tự nhiên “không có tạo tác nào xung quanh phần trên và dưới miệng như ở các công cụ khác”.

Nó cũng không yêu cầu hình ảnh theo phong cách chân dung hướng về phía trước để hoạt động.

VASA-1 khiến mọi người bàn tán

Hiện tại, những người đam mê AI dường như bị mê hoặc bởi công nghệ mô tả nó là “hoang dã” và “điên rồ” trên nền tảng X.

“Những cải tiến mà chúng tôi nhận được giữa mỗi lần phát hành thật đáng kinh ngạc,” nói Linus Ekenstam.

Những người khác cho rằng thế giới đang chứng kiến ​​một “sự thay đổi địa chấn trong cách tạo ra nội dung truyền thông” và cách tiêu thụ nội dung đó.

“Điều này thật tuyệt vời, chủ nghĩa hiện thực là đỉnh cao,” một người đam mê khác tên là Sam cho biết.

Mặc dù những người khác nhận ra khả năng của công cụ này, nhưng họ cũng cho rằng Microsoft hơi vô trách nhiệm khi giới thiệu một công cụ có thể dễ dàng thao túng để sử dụng. deepfake bầu cử.

“Thật hoang đường khi bỏ điều này ngay trước cuộc bầu cử,” đã viết Rowan Cheung trên nền tảng X.

Người dùng khác Evan Kirstel đã nhận xét với một cảnh báo nghiêm khắc: “VASA-1 của Microsoft Research là một công cụ thay đổi cuộc chơi, tạo ra các video do AI tạo ra siêu thực chỉ từ một bức ảnh và âm thanh.”

“Khả năng là vô tận, từ việc hồi sinh những huyền thoại điện ảnh cổ điển đến phương tiện truyền thông được cá nhân hóa. Nhưng chúng ta hãy cảnh giác với những rủi ro deepfake.”

Thế giới đã chứng kiến ​​​​một làn sóng các cuộc bầu cử sâu trong đó giọng nói hoặc hình ảnh của các chính trị gia đã bị thao túng bằng cách sử dụng AI để truyền bá tuyên truyền. Khoảng một phần ba dân số toàn cầu sẽ tham gia bầu cử năm nay.

Tuy nhiên, các nhà nghiên cứu tại Microsoft đã chỉ ra rằng đây chỉ là bản thử nghiệm và hiện tại không có kế hoạch phát hành công khai hoặc cung cấp cho các nhà phát triển.

VASA-1 hoạt động như thế nào?

Theo Tom's Guide, bản thân các nhà nghiên cứu cũng rất ngạc nhiên về khả năng của mô hình trong việc “hát nhép một cách hoàn hảo với một bài hát, phản ánh lời của ca sĩ mà không gặp vấn đề gì mặc dù không có nhạc nào được sử dụng trong tập dữ liệu huấn luyện”.

Ngoài ra, VASA-1 xử lý các phong cách hình ảnh khác nhau bao gồm các bức chân dung lịch sử như bức ảnh nổi tiếng Mona Lisa.

Công cụ này có thể được sử dụng trong chơi game nhờ khả năng hát nhép tiên tiến của nó. Các chuyên gia cho biết, điều này có thể là yếu tố thay đổi cuộc chơi cho sự đắm chìm.

Ngoài ra, công nghệ này có thể là công cụ tạo hình đại diện cho các video trên mạng xã hội, như trường hợp của các công ty như Synthesia và HeyGen.

Sản xuất phim và video ca nhạc dựa trên AI cũng có thể tận dụng công nghệ VASA-1 để tạo ra những video chân thực hơn.

Có nhiều khả năng rằng với việc Microsoft có cổ phần trong OpenAI, VASA-1 có thể là một phần của “Copilot tương lai”. Sora hội nhập."

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?