Uued andmestruktuurid

Uusi tüüpe saab Idrises luua kahel viisil: võtmesõnaga ⁠data ja definitsiooniga, mille tulemus on tüüpi ⁠Type. Esmalt vaatame definitsioone.

8.1 Tüübifunktsioonid

Idris on n.n. sõltuvate tüüpidega programmeerimiskeel — me vaatame hiljem täpsemalt, mida see tähendab. Sõltuvate tüüpidega programmeerimiskeelte puhul on tavaline, et tüübid spetsifitseeritakse samasuguste avaldistega kui definitsioonid. Ehk siis tüübid võivad sisaldada lambdasid, funktsioonikutseid, tingimuslauseid jne.

Näiteks saame defineerida tüübisünonüümid, kus avaldised ⁠Pikkus ja ⁠Laius väärtustuvad täisarvutüübiks ⁠Int. Selline kood on hea koodi dokumenteerimiseks või kui me hiljem soovime definitsioone muuta.

Sellised tüübisünonüümid ei sobi aga kasutusjuhtudeks, kus tahame eristada väärtust tüübiga ⁠Pikkus väärtusest tüübiga ⁠Laius. Näiteks, kui meil on ⁠h⁠: Pikkus ja ⁠w⁠: Laius ning funktsioon ⁠rk_pindala⁠: Pikkus -> Laius -> Pindala siis saame seda välja kutsuda kui ⁠rk_pindala w h.

Saame teha ka funktsiooni, mis tagastab tüübi. Funktsioon ⁠Punkt : Nat -> Type võtab parameetriks naturaalarvu ja seab sellele vastavusse ujukomaarvude enniku, milles on parameetri jagu komponente. Vaata järgnevat koodi.

Sarnaselt saame teha ka funktsioone, mis võtavad parameetriteks ning tagastavad tüüpe. Näiteks funktsiooni ⁠Ennik : List Type -> Type, mis võtab parameetriks tüüpide listi ja seab sellele vastavusse enniku, mille komponendid on vastava parameetri listi elemendid. Vaata järgnevat koodi. Pane tähele, et nii ⁠Punkt 3 kui ka ⁠Ennik [⁠Double⁠,⁠Double⁠,⁠Double⁠] väärtustuvad tüübiks ⁠(⁠Double⁠,⁠Double⁠,⁠Double⁠).

8.2 Algebralised andmestruktuurid

Teine võimalus uute tüüpide loomiseks on ⁠data võtmesõnaga, kus loetletakse üles kõik väärtuste (vajadusel parametriseeritud) variandid. Selliselt defineeritud tüübis on variandid lõikumatud ja injektiivsed. Vaatame erinevaid võimalusi näidete põhjal. Esmalt vaatame, kuidas on Idrises defineeritud tõeväärtuste tüüp ⁠Bool.

Sellest koodireast loeme välja järgnevat: defineeritakse uus andmetüüp ⁠Bool⁠: Type, defineeritakse konstruktor ⁠True⁠: Bool,defineeritakse konstruktor ⁠False⁠: Bool. Lähtudes lõikumatusest, teame et tõesus ⁠True ja väärus ⁠False on erinevad. Ning kuna loetleti üles kõik variandid, siis tähendab, et kõik tõeväärtused on kas ⁠True või ⁠False. Seetõttu on põhjendatud, miks saame kasutada mustrisobitust.

Tõeväärtustest ⁠Bool veel lihtsama struktuuriga andmetüüp on ühiktüüp, mis on standardteegis defineeritud järgnevalt. Pane tähele, et Idrise kompilaator asendab ⁠() vastavalt vajadusele kas ⁠Unit-ga või ⁠MkUnit-ga. Väärtusele tüübiga ⁠() on võimalik teha mustrisobitust, aga see ei anna praktikas infot juurde.

Jätkates ühe konstruktoriga andmetüüpidega, vaatame paari tüübipere definitsiooni standardteegis. Tüübipere tähendab siinkohal seda, et ⁠Pair iseseisvalt ei ole tüüp vaid vajab tüübiks saamiseks kaht argumenti. Tüübil on üks konstruktor ⁠MkPair : a -> b -> Pair a b. Siin Idrise kompilaator asendab ⁠(,) vastavalt vajadusele kas ⁠Pair-ga või ⁠MkPair-ga. Seega ⁠MkPair-i tüübiks võib kirjutada ka ⁠a -> b -> (⁠a⁠, b⁠).

Tähtis andmestruktuur on ka ⁠Either a b, mille väärtus sisaldab kas ⁠a väärtust või ⁠b väärtust. Konstruktor ⁠Left : a -> Either a b võtab argumendiks ⁠Either-i esimese parameetri tüübiga väärtuse ja ⁠Right : b -> Either a b võtab argumendiks ⁠Either-i teise parameetri tüübiga väärtuse.

Teeme kõrvalpõike algebrasse. Paaride tüüp ⁠Pair a b on mingis mõttes tüüpide ⁠a ja ⁠b (otse)korrutis, kuna paari väärtuste arv on komponent-tüüpide väärtuste arvude korrutis ehk |⁠Pair A B| = |⁠A| * |⁠B|, kus |·| on funktsioon, mis seab tüübile vastavusse tema väärtuste arvu. Lisaks, ühiktüüp ⁠() on selle korrutise ühikelement. Algebrast tuntud struktuuri ringi saamiseks oleks vaja teada ka, mis on tüüpide summa. Selleks ongi tüübipere ⁠Either, mis vastab väärtuste hulkade lõikumatu ühendi operatsioonile. Kehtib |⁠Either A B| = |⁠A| + |⁠B|.

Naturaalarvud on standardteegis defineeritud kahe konstruktori ⁠Z ja ⁠S kaudu. Kusjuures konstruktoril ⁠S on argument tüübiga ⁠Nat. Seega naturaalarvud on defineeritud induktiivselt: ⁠Z on naturaalarv ja iga naturaalarvu ⁠n : Nat kohta teame, et ⁠S n on naturaalarv.

Kuigi konstruktoril ⁠S on funktsioonitüüp ⁠Nat -> Nat siis tegemist pole suvalise funktsiooniga vaid injektiivse konstruktoriga. Injektiivne tähendab siin kontekstis seda, et rakenduse informatsioon ei lähe kaduma. See tähendab muuhulgas, et ⁠S (⁠S Z⁠) erineb väärtusest ⁠S Z.

Tüüpide algebraga (⁠Pair, ⁠Unit ja ⁠Either) ning funktsioonitüübiga saame luua väga palju kasulikke andmetüüpe ilma ise ⁠data võtmesõna kasutamata. Näiteks tõeväärtuste asemel võtta ⁠Either () (). Probleem tekib aga rekursiivsete andmetüüpidega. Näiteks naturaalarve võiks saada defineerida kui ⁠MyNat = Either () MyNat. See aga kahjuks Idrises ei tööta.

Listide definitsioon on väga sarnane naturaalarvudele — lisatud on parameeter tüübile ja teisele konstruktorile. Listid ⁠List a on standardteegis defineeritud kahe konstruktori ⁠Nil ja ⁠(::) kaudu. Kusjuures konstruktoril ⁠(::) on argumendid tüübiga ⁠a ja ⁠List a.

Idrise kompilaator asendab ⁠[] konstruktoriga ⁠Nil ja konstantide listi ⁠[x₁⁠, … ⁠, x_n⁠] konstruktsiooniga x₁ ⁠:: … ⁠:: x_n ⁠:: Nil .

Nüüd vaatme väga kasulikku tüübiperet ⁠Maybe : Type -> Type. Esimene võimalus ⁠Maybe a tüüpi väärtuse loomiseks on konstruktoriga ⁠Nothing. Teine võimalus on konstruktoriga ⁠Just, millele tuleb argumendiks anda ⁠a tüüpi väärtus.

Tüüp ⁠Maybe lisab väärtsute hulgale ühe väärtuse, mida kasutatakse tihtipeale nurjumise tähistamiseks. Näiteks paaride listist otsimise funktsioon ⁠lookup kasutab tulemuses väärtust ⁠Nothing tähistamaks, et listis otsitavat paari ei leidu.

8.3 Kirjed

Algebraliste andmestruktuuride loomise süntaks on väga võimas ja paindlik. Samas, on selle abil tüütu kirjutada andmestruktuure, kus on üks konstruktor ja sellel palju argumente. Sellise erijuhu jaoks on loodud n.n. kirjete süntaks.

Selline süntaks loob tüübid ⁠Punkt⁠: Type ja ⁠Ring⁠: Type ning andmekonstruktorid ⁠MkPunkt⁠: Double -> Double -> Punkt ja ⁠MkRing⁠: Punkt -> Double -> Ring. Pane tähele, et konstruktori argumendid tulevad väljadest.

Kirjete loomiseks on kaks võimalust: tavaline konstruktori süntaks (kasutatud ⁠test_punkt puhul) ja kirje loomise süntaks (kasutatud ⁠test_ring puhul). Kirje loomise süntaks algab konstruktori nimega, millele järgnevad väljade väärtuste kirjeldused loogeliste sulgude vahel. Väljade väärtused defineeritakse nimede järgi suvalises järjekorras — see ongi kirje süntaksi peamine eelis.

Argumendi väärtuse edastamine nime kaudu pole tegelikult seotud ainult kirjetega. Saame ka ise teha funktsiooni, mille argumentidel on nimed, ning kutsusda see funktsioon välja andes parameetritele nimeliselt väärtused.

Kirjete puhul on eriline aga see, et saab kasutada kirje uuendamise süntaksit. See võimaldab luua uue kirje vana kirje baasilt, kus mõned väljad on muudetud. See töötab nagu järgnevas väites. Esmalt loogelistes sulgudes muudatused ja selle järel (nagu funktsioonirakendus) kirje. Uuendus ‘’:=’-ga kirjutab vana väärtuse üle. Uuendus ‘’$=’-ga rakendab vanale väärtusele funktsiooni. Pane tähele, et uuendatav väli võib minna läib mitme kirje kihi.

Lisaks konstruktori mustrisobitusele defineeritakse kirjete puhul ka selektorid. Punktide puhul siis ⁠(.⁠x⁠): Punkt -> Double ja ⁠(.⁠y⁠): Punkt -> Double ning ringide tüübi jaoks ⁠(.⁠kesk⁠): Ring -> Punkt ja ⁠(.⁠raadius⁠): Ring -> Double. Punktiga algavad funktsioonid on erilised, kuna neid saab rakendada Java meetoditele sarnaselt argumendist paremal.

8.4 Ülesanded

Ülesanne 1 Defineerige tüüp ⁠Email ja implementeerige sellele ⁠Show, et kuvada aadress kujul ⁠``⁠nimi@domeen⁠''.

Ülesanne 2 Defineerige e-maili kirjale vastav kirje tüüp ⁠Kiri ning sellele vastav funktsioon ⁠pealkiri⁠: Kiri -> String.

Ülesanne 3 Tüübi ⁠Tree a = Leaf | Branch (⁠Tree a⁠) a (⁠Tree a⁠) jaoks implementeerige puu kõrgus ⁠height, elemetide arv ⁠size. Implementeerige rekursiooniga funktsioon ⁠fold ja kasutage ⁠fold-i puu konventeerimiseks listiks ⁠tree2list⁠: Tree a -> List a (ilma eksplitsiitselt rekursiooni kasutamata).

Ülesanne 4 Võtame binaarseks otsingupuu struktuuriks tüübi ⁠Tree (⁠Int⁠,⁠a⁠). S.t. hargnemise juhul on vasakus alampuus on väiksema võtmega väärtused ja paremas suuremad. Implementeerige sõnastiku operatsioonid ⁠lookup, ⁠insert ja ⁠remove.

Peatükk 8 Uued andmestruktuurid

8.1 Tüübifunktsioonid

8.2 Algebralised andmestruktuurid

8.3 Kirjed

8.4 Ülesanded