Massiivi lugemine lihtsaimast tekstifailist

Lihtsaim inimloetav failiformaat on selline struktureeritud tekstifail, kus igas reas on üks kirje, ja kirje sisaldab ühe või mitu arvu, mis on eraldatud tühiku, tabulatsioonisümboli või komaga (nt esimeses veerus aeg ja teistes veergudes andurite näidud sel hetkel):

0.00	0.00	0.000	0.08
0.05	0.00	0.000	0.25
0.10	0.00	0.012	0.49
0.15	0.00	0.039	0.86
0.20	0.00	0.126	0.85
0.25	0.02	0.136	0.99
0.30	0.02	0.116	3.39
0.35	0.02	0.349	8.25
0.40	0.03	0.950	13.03
0.45	0.10	1.755	15.75
0.50	0.21	2.608	16.61
0.55	0.37	3.452	16.58
0.60	0.56	4.237	16.96
0.65	0.79	5.110	17.99

Inglise keeleruumis on kümnenderaldajaks punkt. Sellise faili lugemiseks sobib funktsioon numpy.loadtxt. See tagastab kahemõõtmelise NumPy massiivi, kus esimese mõõtme sihis kulgevad read ja teise mõõtme sihis tulbad, nii et tulpade eraldamiseks tuleb saadud massiiv transponeerida:

aeg, koordinaat, kiirus, kiirendus = np.loadtxt('andmed.txt').T

Vaikimisi eeldatakse, et andmeveerud on eraldatud tühiku- või tabulatsioonisümboliga. Seda saab vajadusel muuta parameetriga delimiter.

Kui siiski on kümnenderaldajaks koma (nagu Eesti keeleruumis), võib kasutada funktsiooni pandas.read_csv, mis lubab kümnenderaldaja määrata parameetriga decimal:

from pandas import read_csv

andmed = read_csv('andmed.txt',
                   decimal = ',',
                   delimiter = '\t',
                   usecols = (0, 1),
                   dtype = float,
                   header = None).values

Siin parameeter usecols võib vajalik olla juhul kui mõni andmetulp failis on tühi või sisaldab mittearvulise tähendusega teksti. Lisaks võiks ette anda ka andmetüübi (dtype), et funktsioon ei peaks seda faili sisu baasil ise määrama.

Vaata lisaks

Sisukord