Merhabalar, OPENAI, Whisper adındaki konuşma tanıma modelini yayınladı. Geliştirdikleri sistem kaydettiğiniz bir ses kaydı veya video dosyasını girdi olarak alıyor ve size çıktı olarak ses kaydının transkriptini veriyor. Bu sistemlere genel adıyla Otomatik Konuşma Tanıma Sistemi deniyor. Kısaca (ASR).
Youtube, Meta, Amazon, Google gibi birçok dev şirket, ürünlerinde son derece yetenekli konuşma tanıma sistemlerini zaten kullanıyordu. O nedenle Whisper çok da büyük bir yenilik değil. Yoksa öyle mi?
Whisper’ı bu devasa şirketlerin ürünlerinden farklı kılan açık kaynak bir proje olması. Bunların üstüne bir de performansı ve sunduğu özellikler var.
00:00 Whisper Nedir?
01:28 Whisper'ın GitHub Sayfasında Paylaşılanlar
04:32 Whisper ile Şarkılar Üzerinde Deneme ve Model Karşılaştırması
10:08 Konuşma Tanıma Modellerinde Performans Metriği (WER)
13:35 WAV2VEC (53k - 960h) vs Whisper (base model)
17:07 Son Düşünceler
Bana özel olarak soru sormak isterseniz instagram adresimden DM atabilirsiniz: pumpingcode
Bu kanalda benimle birlikte ilerlemek adına;) Abone olmayı unutmayın:https://www.youtube.com/channel/UCOMA...
►Yeni Güncellemelerden Haberdar olun: https://goo.gl/akseKT
►Destek olmak istersen videolarımızı paylaşmayı unutma;);)
Bana özel olarak soru sormak isterseniz instagram adresimden DM atabilirsiniz: pumpingcode
Bu kanalda benimle birlikte ilerlemek adına;) Abone olmayı unutmayın:https://www.youtube.com/channel/UCOMA...
►Yeni Güncellemelerden Haberdar olun: https://goo.gl/akseKT
►Destek olmak istersen videolarımızı paylaşmayı unutma;);)