Google เปิดตัว Gemini 3.1 Flash TTS โมเดลแปลงข้อความเป็นเสียงพูด (Text-to-Speech) รุ่นล่าสุด ที่มาพร้อมฟีเจอร์ Audio Tags ช่วยให้นักพัฒนาควบคุมน้ำเสียง จังหวะ และอารมณ์การพูดได้แม่นยำกว่าเดิม รองรับมากกว่า 70 ภาษา พร้อมเปิดให้ใช้งานผ่าน Gemini API, Google AI Studio และ Vertex AI แล้ววันนี้
จุดเด่นสำคัญคือระบบ Audio Tags ที่ให้ฝังคำสั่งภาษาธรรมชาติลงในข้อความโดยตรง เช่น สั่งให้พูดช้าลง เน้นคำ หรือเปลี่ยนโทนเสียงกลางประโยค โดยไม่ต้องตั้งค่าแยกต่างหาก นอกจากนี้ยังรองรับบทสนทนาหลายเสียง (Multi-speaker) ในไฟล์เดียวกัน ซึ่งเหมาะสำหรับการผลิต Podcast, หนังสือเสียง หรือ NPC ในเกม
Google AI Studio ยังอัปเดตเครื่องมือใหม่ในชื่อ “Director’s Chair” ที่ให้นักพัฒนากำหนดบริบทฉาก สร้างโปรไฟล์เสียงตัวละคร และ export พารามิเตอร์ทั้งหมดออกมาเป็น Gemini API code ได้ทันที เพื่อให้เสียงที่สร้างขึ้นมีความสม่ำเสมอในทุกโปรเจกต์
ด้านคุณภาพ Gemini 3.1 Flash TTS รุ่นนี้ทำคะแนน Elo สูงถึง 1,211 บนเกณฑ์วัด Artificial Analysis TTS Leaderboard ซึ่งใช้ความเห็นจากมนุษย์จริงหลายพันคน และได้รับการจัดอยู่ในกลุ่ม “Most Attractive Quadrant” ด้านสมดุลระหว่างคุณภาพสูงและต้นทุนต่ำ ขณะที่เสียงทุกชิ้นที่สร้างจากโมเดลนี้จะมีลายน้ำ SynthID ฝังอยู่ เพื่อระบุว่าเป็นเสียงที่สร้างโดย AI และช่วยป้องกันการนำไปใช้สร้างข้อมูลเท็จ
ข้อมูลจาก: Google Blog
ติดตามข่าวสาร อัปเดตเทคโนโลยี รีวิวของใหม่ก่อนใคร ได้ทาง www.techoffside.com และ ช่องทางโซเชียล Facebook, Instagram, YouTube และ TikTok
