Andmeteaduse eelteadmised käsurea vaates
Selles peatükis seome kokku, milliseid teadmisi andmeteaduse või andmeanalüüsi suund tavaliselt eeldab ja kuidas käsurida aitab neid praktiliselt toetada.
Loogika
Kui räägitakse andmeteaduse eelteadmistest, siis tavaliselt mõeldakse vähemalt neid plokke:
- programmeerimine, eriti Python
- andmebaasid, SQL ja relatsiooniline mõtteviis
- failivormingud nagu
CSV,JSONjaXML - statistika, tõenäosusteooria ja matemaatiline mõtlemine
Käsurida ei asenda neid kõiki, aga ta aitab neid kokku siduda.
Just siin on käsurea suur väärtus:
- näed kiiresti, mis failid sul üldse on
- saad kontrollida andmete kuju enne, kui lähed suuremasse tööriista
- saad teha väikseid filtreid, loendusi ja ümberkujundusi
- õpid töövoogu, mis on hiljem kasulik ka Pythonis, SQL-is ja Dockeris
See õpik katab tugevamalt:
- käsurea loogika
- failide ja voogude töötluse
- Pythoni keskkonnad
- SQLite'i ja SQL-i alguse
- arendustöövoo, Git-i ja Dockeri
See õpik ei püüa eraldi õpetada põhjalikult:
- statistikat
- tõenäosusteooriat
- lineaaralgebrat
R-i
Kiirspikker
- Pythoni venv ja eraldatud keskkonnad aitab projektid korras hoida
- CSV, JSON ja XML käsureal aitab andmete kuju kiiresti näha
- Andmebaasi algus: sqlite ja Python annab esimese SQL-i ja relatsioonilise mudeli tunnetuse
- Teksti teisendamine ja Vood ja tabelid annavad väikeste andmetööde baasi
Hea rusikareegel on:
- enne suurt tööriista vaata andmeid väikese käsuga
- enne keerulist analüüsi kontrolli, et saad aru, mis kujul andmed üldse on
Kõige tavalisemad vajadused
Programmeerimine
Andmetöö juures tähendab see sageli:
- väikest automaatikat
- andmete lugemist failist
- tulemuste salvestamist
- skriptide korduvat käivitamist
See tuleb kõige rohkem välja Pythoni, shelliskriptide ja töövoogude peatükkides.
Andmevormingud
Väga tihti ei ole probleem kohe mitte statistikas, vaid selles, et:
- fail on vales vormingus
- veerud ei ole seal, kus arvasid
- kirjed on pesastatud
- andmed on teksti sees, mitte tabelina
Seetõttu on CSV, JSON ja XML mõistmine väga praktiline baasoskus.
SQL ja relatsiooniline mõtteviis
SQL ei tähenda ainult "käsk andmebaasile", vaid ka teatud andmemudelit.
Kasulikud põhiküsimused on:
- mis on tabel
- mis on rida ja veerg
- mis on primaarvõti
- kuidas kaks tabelit omavahel seotakse
Kui see loogika on olemas, on ka keerulisemad päringud palju vähem müstilised.
Statistika ja matemaatiline mõtlemine
Seda osa ei saa käsurea või SQL-iga asendada.
Oluline aus mõte on:
- käsurida aitab andmeid ette valmistada
- Python või
Raitab neid töödelda - statistiline mõtlemine aitab tulemusi mõista
Kõik kolm on eri asjad.
Näited
Väga tüüpiline väike andmetöö rada võib olla selline:
- vaata faili esimesi ridu
- kontrolli, mis väljad seal on
- tee lihtne filtreerimine või loendus
- pane andmed SQLite tabelisse
- tee esimene SQL päring
- loe tulemus Pythoniga sisse
See tähendab, et päris tööriistajoon võib olla:
fail -> head/less/grep -> column/cut/tr -> sqlite3 -> python3
Ja just selle pärast on käsurida andmeteaduse stardis kasulik:
- ta aitab väikeste sammudega kiiresti pilti ette saada
- ta ei sunni kohe suurt keskkonda avama
- ta teeb veaallikad nähtavamaks
Minitest
- Nimeta neli plokki, mida andmeteaduse eelteadmistena kõige sagedamini mainitakse.
- Selgita ühe lausega, miks
CSV,JSONjaXMLei ole sama asi. - Selgita ühe lausega, miks SQL ja statistika ei ole asendatavad oskused.
- Pane kirja üks väike töövoog, kus kasutaksid nii käsurida, SQLite'i kui Pythonit.