Google, daha hızlı ve daha doğru hale getirmek için sesli arama arkasındaki teknolojiyi günceller

Google, sesli aramasını güçlendirmek için şirketin daha hızlı ve daha doğru hale getireceğini söylediği yeni bir teknoloji geliştirdi. Yeni teknoloji, Connectionist Temporal Classification (CTC) ve dizi ayırt edici eğitim tekniklerini kullanıyor. 2012'de Google, Gaussian Mixture Model'den (GMM), bir kullanıcının o anda hangi sesi çıkardığını daha iyi değerlendirmesine olanak sağlayan ve artan bir konuşma tanıma doğruluğu sağlayan Net Sinir Ağları'na (DNN) geçti.

Geliştirilmiş akustik modellerimiz, Tekrarlayan Sinir Ağlarına (RNN) dayanmaktadır. RNN'lerin topolojilerinde, geçici bağımlılıkları modellemelerine izin veren geri besleme döngüleri vardır: kullanıcı önceki örnekte / u / konuştuğunda, eklemsel aparatları, bir / j / sesten ve / m / sesten önce gelir. Yüksek sesle söylemeyi dene - "müze" - bir nefeste çok doğal bir şekilde akar ve RNN'ler bunu yakalayabilir. Burada kullanılan RNN tipi, bellek hücreleri ve sofistike bir geçiş mekanizması vasıtasıyla, bilgileri diğer RNN'lerden daha iyi ezberleyen Uzun Kısa Süreli Bellek (LSTM) RNN'dir. Bu tür modellerin benimsenmesi, tanıyıcımızın kalitesini önemli ölçüde arttırdı.

Teknolojideki değişiklik Google tarafından yapıldı ve şu anda hem iOS hem de Android'de Google uygulamasındaki sesli aramaları ve Android cihazlarında dikteyi güçlendirmek için kullanılıyor.

Kaynak: Google Research Blog