Mendengar Suara AI yang Punya Emosi Mirip Manusia

18 February 2022 | 22:04 WIB

Syaiful Millah Asisten Manajer Konten Hypeabis.id

Teknologi kecerdasan buatan (artificial intelligence/AI) terus dikembangkan. Salah satunya dalam bentuk apa yang disebut sebagai aktor suara AI. Kualitas suara yang dihasilkan juga terus mengalami peningkatan yang kian mirip dengan suara manusia.

Umumnya, aktor suara berbasis kecerdasan buatan dijadikan sebagai pengisi atau penyulih suara untuk sebuah presentasi, iklan atau produk yang ditawarkan perusahaan. Contoh yang mungkin paling familiar adalah suara bot pada fitur Google Translate.

Suara tersebut secara langsung bisa dikenali karena memiliki ciri yang khas yakni suara tiruan sintesis. Di luar itu, ada banyak upaya yang dilakukan oleh perusahaan teknologi untuk meningkatkan kualitas suara AI lebih baik lagi, salah satunya adalah Sonantic.

Perusahaan rintisan atau startup yang fokus pada pengembangan suara AI itu menyatakan telah membuat terobosan dalam pengembangan audio deepfake. Mereka menciptakan suara sintesis yang dapat mengekspresikan sesuatu seperti 'godaan' atau 'suara genit'.

Co-founder & Chief of Technology Sonantic, John Flynn, menjelaskan bahwa kunci untuk menghadirkan ekspresi pada aktor suara AI adalah penggabungan suara non-ucapan seperti tawa kecil dan melatih model AI untuk menciptakan napas kecil yang memberikan kesan lebih natural.

“Kami memilih cinta sebagai tema umum [pengujian awal]. Akan tetapi tujuan penelitian ini adalah untuk melihat apakah kami dapat memodelkan emosi yang halus,” katanya seperti dikutip The Verge.

Dalam sebuah video yang diunggah di kanal YouTube resminya, Sonantic menunjukkan bagaimana suara AI bisa terdengar seperti memiliki emosi yang mirip manusia, tidak terdengar sama sekali seperti suara bot pada umumnya. Kendati jika didengarkan dengan saksama, masih terdengar unsur robot di dalamnya.

Mereka menyatakan bahwa video dan hasil suara ini menandai dua terobosan signifikan dalam teknologi suara AI. Pertama adalah penyempurnaan emosi halus dan kedua adalah suara non-ucapan seperti tawa dan napas.

“Kami senang untuk menawarkan pelanggan kami lebih banyak kemungkinan kreatif daripada sebelumnya, karena kami telah mengambil satu langkah lebih dekat untuk menjadi pengembang Audio CGI [computer-generated imagery],” tulis perusahaan.

Editor : Fajar Sidik