Turbo Pascal projektowanie kart dĹşwiÄkowych

[ Pobierz całość w formacie PDF ]

wyjściach wartości w celu wyznaczenia mocy przepuszczanej" przez ka\dy z nich składowej.
Jak wspomniałem, najczęściej interesuje nas moc poszczególnych składowych sygnału. Co oznaczać jednak
mo\e moc w odniesieniu do ciągu dyskretnych próbek? Otó\ przez pojęcie mocy sygnału rozumieć będziemy
wartość średnią kwadratu amplitudy. Dla 4 próbek x(l), x(2), x(3) i x(4) moc wyrazimy więc następująco:
P= (x(l) *x(I)+x(2) *x(2) +x(3) ^x(3) +x(4) *x(4))/4
Pojęcie estymaty odnosi się do gęstości mocy, to znaczy określa, jaka moc przenoszona jest przez sygnały o
częstotliwościach zawierających się w przedziale l Hz (dlatego wyra\amy ją np. w W/Hz - wat na hertz). Je\eli
więc teraz wyobrazimy sobie np. filtr pasmowy o częstotliwości środkowej f, o szerokości pasma B, z którego
otrzymaliśmy n próbek, to estymatę wyznaczyć mo\emy ze wzoru:
G(f)=P(n)/B
Obliczanie estymat dla częstotliwości wyławianych" przez kolejne filtry o ró\nych częstotliwościach
środkowych pozwala na wyznaczenie widma prą\kowego mocy. W powy\szym wzorze znak równości
nale\ałoby w zasadzie zastąpić znakiem przybli\enia, a to z uwagi na to. \e w praktyce nie zrealizujemy filtru
o nieskończenie wąskim paśmie, a ilość uśrednianych wartości jest ograniczona. W większości zastosowań nie
ma to jednak większego znaczenia.
ROZDZIAA 6
6.5 Rozpoznawanie mowy ludzkiej
Rozpoznawanie mowy to dziedzina, w jakiej bez cyfrowego przetwarzania sygnałów trudno byłoby mówić o
jakichkolwiek wymiernych osiągnięciach. Tymczasem wydaje się, \e znalezienie prostych schematów
rozpoznawania dzwięków mowy ludzkiej przenieść nas mo\e w zupełnie nową erę komunikacji między
człowiekiem a maszyną. O ile dzwięk jako medium jest ju\ wykorzystywany przy przekazywaniu informacji przez
maszynę człowiekowi ( mówiące" zegarki, całe mnóstwo udzwiękowionych programów), o tyle ciągle Jeszcze
trudno jest mówić o dwukierunkowej komunikacji. O tym, \e zbli\amy się jednak do chwili, w której nowoczesne
programy obsługiwać będziemy wypowiadając polecenia do mikrofonu, świadczyć mo\e pojawienie się np.
specjalnych aplikacji dla systemu Windows, które mo\emy nauczyć" brzmienia prostych rozkazów wydawanych
naszym głosem. W tej części rozdziału postaram się przekazać w zarysie podstawowe informacje związane z
zagadnieniem rozpoznawania mowy.
Zło\oność dzwięków mowy jest pochodną skomplikowania procesu jego artykulacji. Jego brzmienie zale\y od
bardzo wielu czynników; własności osobniczych, intonacji, akcentu. Sygnał mowy niesie olbrzymią ilość
informacji - mózg ludzki potrzebuje zaledwie małej części, aby dokonać prawidłowego rozpoznania.
Zasadniczo biorąc najprostsza jest analiza sygnału w dziedzinie czasu - badamy wtedy jego amplitudę i szybkość
jej zmian. W odniesieniu do amplitudy stosujemy miarę logarytmiczną. Jest ona bardziej naturalna, poniewa\ dla
dzwięków o małym natę\eniu odczuwamy minimalną ich zmianę, a wra\liwość naszego narządu słuchu na
zmienność sygnału dzwiękowego spada wraz ze wzrostem jego natę\enia.
Je\eli w sygnale zawiera się wiele częstotliwości składowych (a tak jest w przypadku sygnałów mowy), warto
skupić się nad zmianami widma sygnału w funkcji czasu. Załó\my więc, \e mamy szereg wykresów widmowych
obrazujący zmiany widma w dziedzinie czasu. Naturalnie porównywanie na oko" wykresów widma nie ma
większego sensu. Dlatego nale\y wyró\nić kilka jego podstawowych parametrów.
Pierwszym jest średnia wa\ona amplitudy składowych w widmie. Wielkość tę rozumieć mo\na jako środek
cię\kości wykresu widmowego. W amatorskich zastosowaniach aproksymuje się go uśre-
141
SYGNAAY / ICH PHZETWARZANfE
dnioną częstotliwością sygnału w danym przedziale czasowym. Jej oszacowanie Jest bardzo proste -
wystarczy zliczyć ilość przejść przez zero (PPZ) sygnału. I tak - załó\my, \e mamy zapis dzwięku o czasie
trwania 10 ms (0,01 sekundy). Dzwięk próbkowaliśmy z częstotliwością 10 kHz. Mamy więc 100 próbek
(10000*0,01=100). Je\eli teraz wystąpienie przejścia przez zero notować będziemy wtedy, gdy z dwóch
sąsiadujących" próbek jedna będzie miała wartość poni\ej pewnej pewnej ustalonej wartości, druga -
powy\ej (będą miały przeciwne znaki), przy wystąpieniu n przejść przez zero powiemy, \e uśredniona
częstotliwość sygnału równa jest około n/ (2*0,01) [l/s=Hz], W praktyce mo\liwe jest przekonanie się, \e
parametr liczby przejść przez zero w zupełności wystarcza Judzkiemu mózgowi do rozpoznania dzwięku.
Aatwo przeprowadzić odpowiednie doświadczenie - wystarc/y graniczyć zakres zmian amplitudy do dwóch
wartości - jedynym zachowanym parametrem tak okaleczonego" sygnału będzie właśnie liczba PPZ. Rysunek
16 przedstawia dwa sygnały - w pierwszym zmiany amplitudy są ciągłe, w drugim nie - jej wartości zostały
ograniczone do dwóch poziomów.
Sygna-f- wejściowy
Sygnał po ograniczeniu zakresu zmian amplitudy
RysJ6 Ograniczenie zakresu zmian amplitudy [ Pobierz całość w formacie PDF ]

Archiwum