import matplotlib
import IPython.display as ipd
import numpy as np
import soundfile as sf 
import matplotlib.pyplot as plt
import scipy as sp
import librosa
import librosa.display
from utils import plot_waveform, plot_spectrum, plot_spectrogram
%matplotlib inline
%load_ext autoreload
%autoreload 2

x_all, fs = sf.read('./data/aeiou_8k.wav')

print(fs)

plot_waveform(x_all, fs)

ipd.Audio(x_all, rate=fs)

t0vec = [int(0.25*fs), int(1.2*fs), int(2.2*fs), int(3.1*fs), int(4.1*fs)]

ind_vowel = 0

x = x_all[t0vec[ind_vowel]:t0vec[ind_vowel]+int(0.5*fs)]
T = x.shape[0]

x_dft = np.fft.fft(x)

plot_waveform(x, fs)
plot_spectrum(x_dft, fs)

ipd.Audio(x, rate=fs)

def autocov(x, P):
    """
    Calcule la fonction d'autocovariance empirique du signal.

    Entrées : 
        x : signal d'entrée, array numpy de dimension (T,)
        P : nombre de coefficients à calculer pour la fonction d'autocovariance
    Sorties : 
        r : coefficients de la fonction d'autocovariance empirique pour k=0,...,P, array numpy de dimension (P+1,)
    """
    
    r = np.zeros(P+1)

    ### A COMPLETER
    
    return r

# Test
P = 16
r = autocov(x, P)
print(r)

def yule_walker(x, P):

    a = np.zeros(P)
    sigma2 = 1
    
    # A COMPLETER

    return a, sigma2

# TEST
P = 16
a, sigma2 = yule_walker(x, P)
print(a)
print(sigma2)

def residuel(x, a):

    T = x.shape[0]
    e = np.zeros(T)
    x_pred = np.zeros(P)

    for t in np.arange(T):
        # A COMPLETER
        pass

    return e

res = residuel(x, a)

res_dft = np.fft.fft(e)

plot_waveform(e, fs)
plot_spectrum(e_dft, fs)
ipd.Audio(e, rate=fs)

perio_x_db = np.zeros(T//2+1)
spec_env_db = np.zeros(T//2+1)

# A COMPLETER

freq  = np.arange(0, T//2+1)*fs/T

plt.figure(figsize=(12,5))
plt.plot(freq, perio_x_db)
plt.plot(freq, spec_env_db)
plt.xlabel('fréquence (Hz)')
plt.ylabel('puissance (dB)')
plt.show()

source = 'non-voisee' # au choix : 'residuel', 'non-voisee', or "voisee"
f0 = 120
T0 = int(1/f0*fs)

if source=='voisee':
    w = np.zeros(T)
    w[0:T:T0] = np.sqrt(sigma2*T0)
elif source=='non-voisee':
    w = np.sqrt(sigma2)*np.random.randn(T)
elif source=='residuel':
    w = res  
    
def synthese(w, a):
    
    T = w.shape[0]
    x_gen = np.zeros(T)

    # A COMPLETER

    return x_gen

x_gen = synthese(w, a)

x_gen_dft = np.fft.fft(x_gen)

plot_waveform(x_gen, fs, title='Forme d\'onde du signal synthétisé')

plot_spectrum(x_gen_dft, fs, title='Spectre du signal synthétisé')

ipd.Audio(x_gen, rate=fs)

fs = 16000
x_all, fs_x = sf.read('./data/speakerM1_uttNum1459.wav')

if fs_x != fs:
    # resample to 8 kHz, if necessary
    ratio = float(fs) / float(fs_x)
    n_samples = int(np.ceil(x_all.shape[-1] * ratio))
    x_all = sp.signal.resample(x_all, n_samples, axis=-1)
    
x_all = x_all - np.mean(x_all)

ipd.Audio(x_all, rate=fs)

L = int(0.030*fs) # longueur de la fenêtre d'analyse
H = L//2 # pas d'analyse
P = 16 # ordre du modèle AR

voiced = True # booléen indiquant si la voix est voisée ou non
f0 = 120 # fréquence fondamentale en Hz (si voisée)
T0 = int(1/f0*fs) # prédiode associée

T = x_all.shape[0]

N = int(np.fix( (T-L)/H)) # nombre de trames

win = np.sin(np.arange(.5,L-.5+1)/L*np.pi); # fenêtre d'analyse sinusoidale

x_gen_all = np.zeros(T) # signal synthétisé
e_all = np.zeros(T) # résiduel

# Boucle sur les trames
for n in np.arange(N):

    # sélectionner une petite portion de signal et la multiplier par une fenêtre d'analyse
    n1 = ?
    n2 = ?
    x = x_all[n1:n2]*win
    
    # calculer les coefficients du filtre du modèle AR
    a = ?
    
    # calculer le résiduel et son énergie moyenne (moyenne du carré des coefficients)
    e = ?
    residual_energy = ?

    # synthétiser le signal source
    if voiced:
        w = ?
    else:
        w = ?

    # ajuster son énergie
    w = w / np.sqrt(np.mean(w**2)) * np.sqrt(residual_energy)

    # synthétiser le signal de parole
    x_gen = ?

    # effectuer l'addition-recouvrement
    x_gen_all[n1:n2] += x_gen*win

    # on stocke le résidu, au cas où
    e_all[n1:n2] += e*win

plot_waveform(x_gen_all, fs, title="Forme d\'onde du signal transformé")

ipd.Audio(x_gen_all, rate=fs)

fs = 16000

# w_all, fs_w = sf.read('./data/creak.wav')
w_all, fs_w = sf.read('./data/racing.wav')
# w_all, fs_w = sf.read('./data/bubbles.wav')

if w_all.ndim > 1:
    w_all = w_all[:,0]

if fs_w != fs:
    # resample to 8 kHz, if necessary
    ratio = float(fs) / float(fs_w)
    n_samples = int(np.ceil(w_all.shape[-1] * ratio))
    w_all = sp.signal.resample(w_all, n_samples, axis=-1)
    
w_all = w_all - np.mean(w_all)

w_all = w_all[:x_all.shape[0]]

ipd.Audio(w_all, rate=fs)

🚨 N'oubliez pas de mettre votre / vos nom(s) 🚨¶

TP de « Signaux aléatoires »¶

RoboVox - Algorithme d'analyse-synthèse de signaux de parole par modélisation autorégressive¶

Exercice 1 : Analyse d'une portion de signal stationnaire¶

Question 1 : Fonction d'autocovariance empirique¶

Question 2 : Résolution des équations de Yule-Walker¶

Question 3 : Calcul du résiduel¶

Réponse à la question 3¶

Question 4 : Calcul de l'enveloppe spectrale¶

Réponse à la question 4¶

Question 5 : Synthèse¶

Réponse à la question 5¶

Exercice 2 : Analyse à court terme d'un signal non stationnaire¶

Exercice bonus : Synthèse croisée¶

Références¶