Mustand: sisu ei ole veel tehniliselt ega keeleliselt täielikult kontrollitud ega toimetatud.

Peatüki vaade

Linux/Unix/macOS käsurea kiirõpik

Praegu loed peatükki Andmeteaduse eelteadmised käsurea vaates, mis kuulub osasse Osa V: Arendus ja töövood.

Andmeteaduse eelteadmised käsurea vaates

Selles peatükis seome kokku, milliseid teadmisi andmeteaduse või andmeanalüüsi suund tavaliselt eeldab ja kuidas käsurida aitab neid praktiliselt toetada.

Loogika

Kui räägitakse andmeteaduse eelteadmistest, siis tavaliselt mõeldakse vähemalt neid plokke:

  • programmeerimine, eriti Python
  • andmebaasid, SQL ja relatsiooniline mõtteviis
  • failivormingud nagu CSV, JSON ja XML
  • statistika, tõenäosusteooria ja matemaatiline mõtlemine

Käsurida ei asenda neid kõiki, aga ta aitab neid kokku siduda.

Just siin on käsurea suur väärtus:

  • näed kiiresti, mis failid sul üldse on
  • saad kontrollida andmete kuju enne, kui lähed suuremasse tööriista
  • saad teha väikseid filtreid, loendusi ja ümberkujundusi
  • õpid töövoogu, mis on hiljem kasulik ka Pythonis, SQL-is ja Dockeris

See õpik katab tugevamalt:

  • käsurea loogika
  • failide ja voogude töötluse
  • Pythoni keskkonnad
  • SQLite'i ja SQL-i alguse
  • arendustöövoo, Git-i ja Dockeri

See õpik ei püüa eraldi õpetada põhjalikult:

  • statistikat
  • tõenäosusteooriat
  • lineaaralgebrat
  • R-i

Kiirspikker

Hea rusikareegel on:

  • enne suurt tööriista vaata andmeid väikese käsuga
  • enne keerulist analüüsi kontrolli, et saad aru, mis kujul andmed üldse on

Kõige tavalisemad vajadused

Programmeerimine

Andmetöö juures tähendab see sageli:

  • väikest automaatikat
  • andmete lugemist failist
  • tulemuste salvestamist
  • skriptide korduvat käivitamist

See tuleb kõige rohkem välja Pythoni, shelliskriptide ja töövoogude peatükkides.

Andmevormingud

Väga tihti ei ole probleem kohe mitte statistikas, vaid selles, et:

  • fail on vales vormingus
  • veerud ei ole seal, kus arvasid
  • kirjed on pesastatud
  • andmed on teksti sees, mitte tabelina

Seetõttu on CSV, JSON ja XML mõistmine väga praktiline baasoskus.

SQL ja relatsiooniline mõtteviis

SQL ei tähenda ainult "käsk andmebaasile", vaid ka teatud andmemudelit.

Kasulikud põhiküsimused on:

  • mis on tabel
  • mis on rida ja veerg
  • mis on primaarvõti
  • kuidas kaks tabelit omavahel seotakse

Kui see loogika on olemas, on ka keerulisemad päringud palju vähem müstilised.

Statistika ja matemaatiline mõtlemine

Seda osa ei saa käsurea või SQL-iga asendada.

Oluline aus mõte on:

  • käsurida aitab andmeid ette valmistada
  • Python või R aitab neid töödelda
  • statistiline mõtlemine aitab tulemusi mõista

Kõik kolm on eri asjad.

Näited

Väga tüüpiline väike andmetöö rada võib olla selline:

  1. vaata faili esimesi ridu
  2. kontrolli, mis väljad seal on
  3. tee lihtne filtreerimine või loendus
  4. pane andmed SQLite tabelisse
  5. tee esimene SQL päring
  6. loe tulemus Pythoniga sisse

See tähendab, et päris tööriistajoon võib olla:


fail -> head/less/grep -> column/cut/tr -> sqlite3 -> python3

Ja just selle pärast on käsurida andmeteaduse stardis kasulik:

  • ta aitab väikeste sammudega kiiresti pilti ette saada
  • ta ei sunni kohe suurt keskkonda avama
  • ta teeb veaallikad nähtavamaks

Minitest

  1. Nimeta neli plokki, mida andmeteaduse eelteadmistena kõige sagedamini mainitakse.
  2. Selgita ühe lausega, miks CSV, JSON ja XML ei ole sama asi.
  3. Selgita ühe lausega, miks SQL ja statistika ei ole asendatavad oskused.
  4. Pane kirja üks väike töövoog, kus kasutaksid nii käsurida, SQLite'i kui Pythonit.