Bu aralar internette pek çok kişiyi şaşırtan bir video dolaşmakta; videoda bir kadın yönetici gerçek zamanlı olarak kendi hologram kopyasını yapıyor ve bu kopya, o kadın yöneticinin İngilizce yaptığı konuşmayı gerçek zamanlı olarak, tüm aksan ve vurgularını kullanarak Japoncaya çeviriyor. İstenirse bu hologram kopyasını Japonya'ya yollayıp, konuşmasının gerçek zamanlı olarak ikili ya da çoklu sohbete de dönüştürebiliyor. (Videoyu daha önce seyretmemiş olanlar aşağıdaki linke tıklayarak izleyebilirler).[1]

Bu teknoloji 2019 yılından beri kullanılıyor. İletişimde mesafe ve dil sorununu ortadan kaldırıyor. Biraz hayal gücümüzü kullanarak bu teknolojiyle neler yapabileceğimizi düşünelim:

Önce insani duygularımızdan başlayalım; gurbette sevdiğimiz aile bireyleri, akraba ya da arkadaşlarımızla, bu teknolojiyi kullanarak hasret giderebiliriz. Amerika'da yaşayan bir yakınınızın, özlediğiniz herhangi bir anda evinizin içine gelip, sizinle sohbet etmesi çok güzel olur, değil mi?

Bir eğitimci olarak düşündüğümde çok heyecan verici buluyorum. Kendimi aynı anda birden fazla üniversitede ders verirken hayal etmek olağanüstü güzel bir düşünce. Hele bu hayale bir de başka ülkelerde ders verme fikrini da katınca duyduğum heyecan katlanıyor.

İş insanı olarak ise, iş seyahatlerine artık ihtiyaç duyulmayacak olması, geçmişte yaptığım uzun ve yorucu iş seyahatlerini düşününce içimi ferahlatıyor. Uykusuz geçen uzun uçak yolculukları, alıştığın yatağın dışında bir otelde gecelemek, zamanla yarışarak toplantılarını yapıp, tekrar aynı süreçleri takip ederek hızla ülkene dönmek; bu süreci zaman, efor ve para kaybı olarak değerlendiriyorum.

Bu yeni teknoloji ile bu süreçleri yaşamaya gerek kalmıyor. Yollayın hologramınızı deniz aşırı, ofisinizden yapacağınız görüşmelerle her işinizi halledin. Daha da ileri gidelim; Amerika'da yaşayan bir cerrah, Çin'de bir ameliyata katılıp, meslektaşlarına yardımcı olabilecektir.

Bu yeni teknolojinin sonsuz kullanımı mevut. Hayal ettiğiniz her şeyi bu teknoloji ile yapabileceksiniz. Şimdi bu teknolojinin bu işleri nasıl yapabildiğine biraz bakalım:

Söz konusu video Microsoft'un 2019 yılında kamuoyuna açıkladığı, yeni teknolojilerle yapılan bir uygulamadır. Uygulamaya verilen isim; 'Yapay Zekâ, Nöral TTS ve Hologramın Sihri' (The magic of AI neural TTS and holograms).

Söz konusu teknolojinin temelinde, Karma Gerçeklik teknolojisi yatmaktadır. Bu teknolojiyi geçen haftaki yazımda anlattığımdan burada tekrar etmeyeceğim. Bahsedilen videoda gördüğünüz kadının hologram kopyasının Karma Gerçeklik teknolojisi ile yapıldığını söylemekle yetinelim. Bu hologramın görüntülenebilmesi ve yönlendirilebilmesi için, yine geçen haftaki yazımda anlattığım HoloLens başlığına ihtiyacınız var.

Şimdi gelelim bu iki teknoloji dışında kullanılan teknolojilere:

Sistemin içerisinde Microsoft'un Azure Bilişsel (Cognitive) Hizmetler adı verdiği bölüm içinde yer alan Speech-to-Text (STT) adını verdikleri teknoloji,[2] Azure AI tercüme teknolojisi ve Neural Text-to-Speech (TTS) teknolojisi kullanılmaktadır.

Speech-to-Text (Sözelden Metine) teknolojisi kişilerin konuşmalarını kaydederek yazıya dönüştürmektedir. Yani, eskiden yöneticilerin sekreterlerini odalarına çağırıp, mektuplarını dikte ederek yazdırması gibi.

Videoda yer alan kadın yöneticinin İngilizce yaptığı konuşma, STT teknolojisi kullanılarak yazılı metne dönüştürülmekte ve elde edilen metin hızla Azure Yapay Zeka teknolojisi kullanılarak Japonca'ya tercüme edilmektedir. Elde edilen bu Japonca metin ise bu sefer Text-to-Speech (Metinden Sözele) uygulaması kullanarak elde edilen metni seslendirmektedir. Tüm bu işlemler kişinin konuşması esnasında, çok ileri bir hızda gerçekleşmektedir.[3]

Videoda dikkat çekici bir özellik de, hologramın konuşma sesinin mekanik ya da robotik değil, bizzat konuşmacı kadının sesinin aynısı olması ve aynı aksan ve vurgularla konuşması idi. Bu özelliği sağlayan teknoloji ise 'Neural TTS' adı verilen yeni sistemdir. Bu sistemden önce de metni sözele döken sistem mevcut idi. Ancak bu Geleneksel TTS sistemin akıcı bir konuşma yaratabilmesi için 10 binden fazla ifadeyi 10 saatten fazla bir sürede incelemesi gerekiyordu. Bu inceleme sonucunda ortaya çıkan seslendirme ise doğal değil, robotik idi. Neural TTS sistemi ise 200-300 ifadeyi yarım saat analiz ederek daha akıcı ve gerçekçi bir seslendirme yapabilmektedir. Microsoft'un bu hizmetine abone olarak pek çok işinizin seslendirmesini şimdiden yapabilirsiniz.

Tekrar şu meşhur videoya dönecek olursak;

Karma Gerçeklik ve HoloLens teknolojisi ile kişinin hologram kopyası anında çıkartılıyor.

Kişinin konuşması, sözelde metne (STT) teknolojisi ile metne dönüştürülüyor.

Azure AI adı verilen yapay zekâ uygulaması hızla metini istenilen dile çeviriyor.

Metinden sözele (TTS) teknolojisi hızla bu çeviri metnini seslendiriyor.

Neural TTS adı verilen sistem ise kişinin aksan, tonlama ve vurgu gibi konuşma biçiminin unsurlarını inceleyerek, seslendirmeyi kişinin gerçek konuşma sesi ile yapılır hale getiriyor.

Elbette bunlar baş döndürücü bir hızda yapıldığından konuşmanın yabancı dilde seslendirilmesi eşzamanlı gerçekleşiyor.

Bu yeni gelişmeleri bazı karamsar görüşlüler Matrix çağı ya da Black Mirror çağının başlangıcı olarak nitelendirseler de ben hep bu gelişmelere bardağın dolu tarafından bakmaktan yanayım. Sonuçta bir asra yakın bir zamandır devletlerin elinde bulundurduğu nükleer silahlar bu yeni teknolojilerden daha fazla yok edici güce sahipler.

[1] https://www.youtube.com/watch?v=auJJrHgG9Mc

[2] Microsoft Azure, Speech to Text, URL: https://azure.microsoft.com/en-us/services/cognitive-services/speech-to-text/

[3] Microsoft, Unified Neural Text Analyzer: an innovation to improve Neural TTS pronunciation accuracy, URL: https://techcommunity.microsoft.com/t5/azure-ai/unified-neural-text-analyzer-an-innovation-to-improve-neural-tts/ba-p/2102187