Peatükk 4 Helide esitamine ja salvestamine digitaalsel kujul
Pärismaailmas toimub enamasti liikumine katkematult. Ka helilaine on kontiinum, st õhuosakesed liiguvad sujuvalt, mitte ei ole jagatud sammudeks. Digitaalses maailmas tuleb aga neid liikumisi numbrites väljendada ja see tähendab, et tuleb pidevalt muutuvad väärtused kuidagi intervallideks jagada.
Et heli numbritena arvutile loetavaks teha, tuleb õhuosakeste võnkumist kirjeldada numbrijadana. St pidevalt kulgev aeg tuleb jagada mingi sammuga hetkedeks ja kirjeldada pidevat liikumist ühel ajahetkel mingi skaala väärtusega.
4.1 Dünaamiline ulatus
Heli salvestamisel teisendab mikrofon helirõhu muutuse elektrilaenguks. Heli kirjeldamisel arvuti jaoks registreeritakse see signaali väärtus kindla ajahetke tagant. Signaali väärtuste (helirõhu) skaalat iseloomustab arvutis bitisügavus (bit depth). Bitt (binary digit) on ühik, mille väärtus on kas 0 või 1. St bitil on 2 võimalikku väärtust. Helifaili bitisügavus määrab, kui täpselt on võimalik salvestatavat signaali kirjeldada: mitu bitti kokku on kogu skaala kirjeldamiseks, mis on väikseim helirõhku kirjeldav muutus, mis on miinimum ja maksimum.
Helifailide bitisügavus on tavaliselt 16 bitti. Kuna 1 bitil on kaks võimalikku väärtust, on skaalal 2^16 = 65 536 astet ehk võimalikku väärtust. Kuna helilaine liigub nullpunktist kahele poole, on helirõhu kirjeldamiseks 32 768 võimalikku väärtust. Kui sellega kirjeldada 120 dB skaalat, mis inimesele kuuldav on, on iga 1 dB vahemiku kohta 273 positsiooni. 16-bitine heli on üldiselt tänapäeva digitaalses helis standardiks, aga peenemad seadmed võimaldavad salvestada ka 24 või 32-bitist heli.
Ühegi seadme dünaamiline ulatus ei ole sama suur kui looduses esinevate helide amplituudide võimalik ulatus. Dünaamiline ulatus (dynamic range) salvestusseadmel on ühest otsast piiratud sellega, et signaal kaob müra sisse ära, teisest otsast sellega, et signaal moondub. Digitaalsel salvestusseadmel on ülemine piir olulisem kui analoogseadmel. Kui analoogseadmel liiga tugev signaal moondub, siis digitaalseadmel lõigatakse 0-punktist üle minev lihtsalt ära. Vähe sellest, et oluline informatsioon läheb kaduma, inimkõrv kuuleb seda koleda mürana. Helisalvestusterminoloogias nimetatakse salvestusseadme 0-punkti ületamist klippimiseks (clipping). Heli salvestades peaks jälgima, et salvestus klippima ei hakkaks, et sisse tulev heli ei oleks liiga tugev.
Joonisel 4.1 on näide sellest, mis juhtub 100-hertsise siinusheliga, kui salvestusnivoo on liiga kõrge. KUULA ja võrdle paraja salvestusnivooga heliga.]

Joonis 4.1: Siinusheli 100 Hz, paremal on lainekuju korrektselt esitatud, sest see amplituud jääb alla 0 dB, vasakul ületab amplituud salvestusseadme maksimumi ja lainesse tekivad moonutused.
4.2 Kvantimissagedus
Seda, millise ajaintervalliga helisignaali väärtus salvestatakse, nimetatakse kvantimissageduseks e sämplimissageduseks (sampling rate).
Nyquisti teoreem: kvantimissagedus peab olema kaks korda suurem, kui kõige kõrgem sagedus, mida soovime salvestada. St heli (või liitheli puhul kõige kõrgem osheli, mida tahame salvestada) peab olema salvestatud vähemalt kahest punktist ühe võnkeperioodi jooksul. Kuna inimkõne oluline informatsioon jääb umbes vahemikku 75-5000 Hz, piisab kõne salvestamisel kvantimissagedusest 10 kHz. Helifailide standardiks on kujunenud kvantimissagedus 44,1 kHz, see on nn CD-kvaliteet. Kõrgeim heli, mis CD-kvaliteediga on vähemalt kahest punktist salvestatud, on 22,050 kHz (mis on enam-vähem ülalpool inimese kuuldavate helide piiri).
Joonisel 4.2 on viiest osahelist koosneva heli kolm täisvõnkeperioodi nelja erineva kvantimissagedusega. Heli põhitoon on 440 Hz, osahelid on vastavalt f1 = 880 Hz, f2 = 1320 Hz, f3 = 1760 Hz, f4 = 2200 Hz. Mida suurem on kvantimissagedus, seda tihedamalt on punktid ja seda täpsemalt on ka kõrgemate sagedustega osahelid edasi antud.
- 44,1 kHz: ühe põhitooni täisvõnke kohta on 100 punkti ja f4 osaheli kohta 20 punkti.
- 10 kHz: ühe põhitooni täisvõnke kohta on 23 punkti ja f4 osaheli kohta 5 punkti.
- 4000 Hz: ühe põhitooni täisvõnke kohta on 9 punkti ja f4 osaheli kohta 2 punkti.
- 880 Hz: ühe põhitooni täisvõnke kohta on 2 punkti.

Joonis 4.2: Viie osaheliga liitheli (f0 = 400 Hz) kolm täisvõnkeperioodi nelja erineva kvantimissagedusega: a) 44 100 Hz, b) 10 000 Hz, c) 4000 Hz, d) 880 Hz. Igale sämplile vastab joonisel üks punkt.
Seega arvutis heli salvestades peame alustama sellest, et määrame salvestatava heli resolutsiooni.9 Ühelt poolt määrab see, kui kõrge kvaliteediga me heli salvestame (bitisügavus määrab, kui täpselt helisignaali muutusi registreeritakse, kvantimissagedus määrab, kui kõrge sagedusega helisid salvestatakse). Teiselt poolt määrab see salvestatava faili suuruse: mida kõrgem bitisügavus ja kvantimissagedus, seda suurem fail.
4.3 Helifaili formaadid
Kõige tavalisem helifaili formaat on WAV ehk PCM wave (ingl pulse-code modulation, impulsskoodmodulatsioon, faililaiend *.wav). Varasemast ajast oli WAV pigem Windowsis ja Macintoshis kasutati Aiff formaati (*.aiff), aga tänapäeval on pigem igal pool tavalisem WAV.
Helifailid on võrdlemisi suure andmemahuga: 16-bitises 44,1 kHz kvantimissagedusega helifailis on iga sekundi kohta 44 100 X 16 = 705 600 bitti =705,6 kb. Stereofaili puhul lausa 2 X 705,6 = 1411,2 kb. See teeb ühe minuti pikkuse faili kohta 84 672 kb.
Et failid võtaks arvutis vähem ruumi, on mõeldud välja erinevaid viise, kuidas neid kokku pakkida. Pakkimisalgoritmid kasutavad ära inimese kuulmistaju iseärasusi ja koondavad infot, mida inimene ei kuule. Näiteks kui me traktorimürina (see heli on madalas sageduspiirkonnas) taustal nagunii ei kuuleks linnulaulu (mis on kõrgetel sagedustel), siis selle linnulaulu arvelt hoiab pakitud helifail ruumi kokku. Niimoodi saab faile umbes 10 korda väiksemaks teha, ilma et me olulist erinevust kuuleksime.
Pakitud helifailidest on kõige tavalisemad mp3 ja wma (Windows Media Audio). Sarnastel põhimõtetel helisignaali pakkimist ja optimeerist kasutavad ka näiteks mobiilsidevõrgud, internetitelefonid ja videosuhtluskeskkonnad (nt Skype, Zoom jms).
Kuigi pakitud failid on tavaliselt peagu sama head kuulata kui pakkimata failid, siis pakitud signaalis võib puududa osa informatsioonist, mis kuulamisel ei pruugi olla märgatav, kuid mis akustilisel analüüsil võib siiski osutuda oluliseks.10 Seetõttu on soovitav akustiliseks analüüsiks salvestada failid pakkimata WAV formaadis.
See, kui palju me tegelikult kasutajana ise salvestatava heli resolutsiooni määrata saame, sõltub riistvarast ja tarkvarast – sageli on helikaardi bitisügavus 16 bitti ja seda muuta ei saa. Samuti on helikaardil kindel maksimaalne kvantimissagedus ja isegi kui tarkvara võimaldab sellest kõrgemat kvantimissagedust määrata, ei ole sel mõtet, sest helikaart registreerib signaali ikkagi oma tehniliste võimete piires.↩︎
Pakitud failiformaadid on üldjuhul kadudega (lossy compression), mis tähendab seda, et pakkimise käigus kaotatud informatsiooni ei ole võimalik taastada, kui failid tagasi WAV formaati teisendada.↩︎