สุดโหด Microsoft ส่งเอไอตัวใหม่ VASA-1 ที่ใช้เพียงแค่ภาพนิ่ง 1 ภาพ (หรือภาพวาดก็ได้) ร่วมกับคลิปเสียง ก็สามารถสร้างเป็นคลิปเจ้าของภาพที่พูดได้อย่างเป็นธรรมชาติ
สำหรับชุดข้อมูลที่นำมาเทรน VASA-1 คือ VoxCeleb2 ซึ่งประกอบด้วยคำพูดมากกว่า 1 ล้านเสียงจากบรรดาคนดัง 6,112 คน (ข้อมูลเหล่านี้ดึงมาจากวิดีโอบน YouTube)
นักวิจัยจาก Microsoft เผยว่า เอไอตัวใหม่อย่าง VASA-1 นี้จะตอบโจทย์คนที่มีปัญหาด้านการสื่อสารให้สามารถนำเสนอเรื่องราวต่าง ๆ ได้ง่ายขึ้น รวมถึงนำไปใช้ประโยชน์ในด้านการเรียน เพื่อให้เด็ก ๆ ที่ขาดโอกาสทางการศึกษา สามารถเข้าถึงความรู้ได้มากขึ้น โดยความพิเศษของ VASA-1 ก็คือ การสร้างคลิปเคลื่อนไหว ที่ใช้ข้อมูลอ้างอิงเพียงแค่ภาพวาด หรือภาพถ่าย แถมใช้เพียง 1 ภาพเท่านั้น ซึ่งในคลิปตัวอย่างพบว่าทางทีมงานได้เปลี่ยนภาพวาดโมนาลิซ่าให้กลายเป็นสาวแร็ปเปอร์มาแล้ว
อย่างไรก็ดี พวกเขายอมรับว่า ความเสี่ยงในการนำ VASA-1 ไปใช้ในทางที่ผิดอย่างการผลิตคลิป Deepfake ก็มีสูงมากเช่นกัน ด้วยเหตุนี้ ทางทีมพัฒนาจึงตัดสินใจว่าจะไม่เผยแพร่วิธีการสร้าง หรือรายละเอียดอื่นใด จนกว่าพวกเขาจะมั่นใจได้ว่า เทคโนโลยีของพวกเขาจะถูกใช้อย่างมีความรับผิดชอบและสอดคล้องกับกฎระเบียบ