Microsoft เปิดตัว AI ใหม่ ที่เลียนแบบเสียงมนุษย์ได้ภายใน 3 วินาที

16 มกราคม 2566

Microsoft เปิดตัว AI ใหม่ ที่เลียนแบบเสียงมนุษย์ได้ภายใน 3 วินาที

เกิดอะไรขึ้น! เมื่อเทคโนโลยี AI (ปัญญาประดิษฐ์) นั้นก้าวหน้าขึ้นอย่างรวดเร็ว ที่เข้ามามีส่วนเกี่ยวข้องในการดำเนินชีวิตประจำวันของมนุษย์ตั้งแต่เรื่องเล็กๆ ไปจนถึงเรื่องใหญ่ๆ แน่นอนเมื่อ AI เติบโตอย่างรวดเร็วเช่นนี้ ใช้งานได้จริง และเชื่อถือได้ ทำให้มนุษย์นั้นเกิดความกังวลว่าปัญญาประดิษฐ์เหล่านี้จะแย้งงานของมนุษย์เพิ่มมากขึ้นในอนาคตหรือไม่?

ซึ่งล่าสุดทีมนักวิจัยของ Microsoft ออกมาประกาศว่าได้พัฒนา AI ใหม่ที่มีความสามารถในการเลียนแบบเสียงของมนุษย์ได้อย่างแม่นยำ โดยการเลียนแบบตัวอย่างเสียงที่มีความยาวเพียง 3 วินาทีเท่านั้น!!

เครื่องมือสร้างเสียง AI ที่ Microsoft สร้างขึ้นมานั้นเรียกว่า Vall-E ซึ่งได้รับการฝึกอบรมเกี่ยวกับ "รหัสแยกที่ได้จากโมเดลตัวแปลงสัญญาณเสียงของระบบประสาท" เช่นเดียวกับการพูด 60,000 ชั่วโมง มากกว่าระบบที่มีอยู่ถึง 100 เท่า จากลำโพงมากกว่า 7,000 ตัว โดยส่วนใหญ่จะมาจากหนังสือเสียงโดเมนสาธารณะของ LibriVox

ด้านของ Ars Technica ได้รายงานว่า Vall-E นั้นสร้างขึ้นบนเทคโนโลยีที่เรียกว่า EnCodec ที่ทำงานโดยการวิเคราะห์เสียงของบุคคล แบ่งข้อมูลออกเป็นส่วนประกอบ และใช้ประสบการณ์จากการฝึกอบรมวิเคราะห์ว่าเสียงจะออกมาเป็นอย่างไร หากกำลังพูดวลีที่แตกต่างกัน

ฉะนั้นแม้จะได้ยินตัวอย่างเพียง 3 วินาทีแต่ Vall-E ก็สามารถจำลองเสียงต่ำและน้ำเสียงที่สื่ออารมณ์ของผู้พูดได้อย่างแม่นยำ!!

จากผลการทดลองแสดงให้เห็นว่า Vall-E นั้นมีประสิทธิภาพที่เหนือกว่าระบบ TTS แบบ zero-shot ที่ล้ำสมัย (AI ที่สร้างเสียงที่ไม่เคยได้ยิน) ในแง่ของความเป็นธรรมชาติของเสียงพูด และความคล้ายคลึงของผู้พูด

นอกจากนี้ยังพบว่า VALL-E สามารถรักษาอารมณ์ของผู้พูดและสภาพแวดล้อมทางอะคูสติกของอะคูสติกพรอมต์ในการสังเคราะห์

ทั้งนี้หากใครที่สนใจอยากลองฟังเสียงที่ VALL-E เลียนแบบขึ้นมาใหม่ สามารถลองฟังได้ที่เว็บไซต์ GitHub >> https://valle-demo.github.io/

--Wynnsoft Solution รับทำเว็บไซต์ รับทำ SEO รับทำการตลาดออนไลน์ รับทำโฆษณา Facebook รับทำเว็บไซต์ ขอนแก่น และรับทำเว็บไซต์ทั่วประเทศ—

ข้อมูลจาก : techspot.com