Czesc.
Szukam jakiegos programu (opensourcesowego) / informacji na temat /
tutoriala
na temat analizy dzwieku pod katem szukania w nim fonemow.
Karmie googla roznymi frazami ale nic ciekawego nie odnalazlem narazie
(poza cala masa komercyjnych rozwiazan oczywiscie i tutorialami jak to
zrobic przy pomocy
mayi / maxa / flaszki :))
Konkretnie mam sobie plik *.wav w ktorym lektor nagral sobie w jakims jezyku
(polski, angielski, niemiecki, francuski) kwestje, i potrzebuje dopasowac do
tego
pliku ruch ust postaci na ekranie (postac ma np. 20 predefiniowanych przez
grafika tzw. visemow
(czyli wizualizacji fonemow) miedzy ktorymi moge sie plynnie morphowac).
No wlasnie tylko musze wiedziec miedzy ktorymi ...
Parsowanie wav'a na fonemy nie musi byc realtime, ale musi dzialac dobrze w
wymienionych wyzej
jezykach, jakies moje tam experymenty z FFT i wylapywaniem okreslonych
czestotliwosci
narazie zadowalajacych efektow nie przyniosly, stad szukam jakiejs
dokumentacji na ten temat i
jak to robia programy pokroju face-fx i tym podobne.
Nie przygladalem sie blizej microsoftowemu SAPI (Speech API)
ale tam chyba nie ma niczego co by mi pomoglo ? :>
dzieki za jakies pomysly / podpowiedzi / linki.