RNZ2TBPPMSMFQ
Futurystyczny obraz przedstawiający uporządkowane zbiory informacji jako wykres kolumnowy i siatkę punktów w przestrzeni.

I_R_W08_M08 Analiza dużych zbiorów danych cz. I

Źródło: Ilustracja wygenerowana za pomocą narzędzia Leonardo.ai. Opublikowana na licencji CC0 (Public Domain).

Czasami, aby efektywnie pracować z informacjami, musimy umieć  importować dane do różnych narzędzi - takich jak arkusze kalkulacyjne, programy analityczne czy bazy danych. Dzięki temu możemy je łatwo analizować, przetwarzać i przedstawiać w czytelnej formie. Umiejętność importu – np. z plików CSV, TXT czy z internetu – pozwala zaoszczędzić czas i lepiej wykorzystać dostępne zasoby. To jedna z podstawowych kompetencji w pracy z danymi.

Wybierz narzędzie, w którym pracujesz i kliknij odpowiednią zakładkę.

1
Microsoft Excel

Importowanie danych z plików tekstowych

Może się okazać, że dane, które otrzymaliśmy, znajdują się w plikach o innym rozszerzeniu niż *.xlsx czy *.xls. Mogą być to np. pliki *.txt, *.csv czy *.prn. W takim przypadku musimy wykorzystać importowanie danych do arkusza. Proces importowania danych do arkusza, z plików o podanym wyżej rozszerzeniu, w każdym wypadku wygląda podobnie.

Otrzymany plik możemy otworzyć za pomocą programu Microsoft Excel, jednak wszystkie dane znajdują się w jednej kolumnie. Musimy je w odpowiedni sposób rozdzielić. Możemy to zrobić, zaznaczając kolumnę, w której znajdują się dane, a następnie ze wstążki wybieramy Dane i z obszaru Narzędzia danych opcję Tekst jako kolumny.

W zależności od sposobu otwarcia pliku, import danych może wyglądać trochę inaczej. Jeśli otworzymy najpierw program Microsoft Excel, a następnie wybierzmy polecenie Otwórz, to od razu wyświetli się okno Kreator importu tekstu. Kreator ten wygląda w ten sam sposób co kreator konwersji tekstu na kolumny, jedyną różnicą między krokami pokazanymi poniżej jest to, że w pierwszym kroku jesteśmy dodatkowo proszeni o określenie, od którego wiersza chcemy rozpocząć import danych oraz pochodzenie pliku.

Wyświetlony zostanie kreator konwersji tekstu na kolumny. Składa się on z trzech kroków, w pierwszym określamy, czy dane rozdzielone są specjalnym znakiem czy stałą szerokością.

RO3BPB1Z9U1M7
Źródło: Contentplus.pl Sp. z o.o.

Jeśli plik oddzielany jest znakami, np. tabulator, średnik, przecinek czy spacja, to w następnym kroku określamy ten znak.

Jeśli plik oddzielany jest znakami, np. tabulator, średnik, przecinek czy spacja, to w następnym kroku określamy ten znak.

R9XZHGEDR6251
Źródło: Contentplus.pl Sp. z o.o.

Jeśli jednak dane oddzielone są równymi odstępami (stała szerokość), to w kroku drugim określamy szerokość pól, klikając na „linijkę”. Strzałki poniżej określają miejsce, w którym zastosowane zostanie oddzielenie danych. Więc w tym przypadku w każdym wierszu zastosowany zostanie odstęp po 8, 23, 34 oraz 40 znaku.

R1RBZRPC25ROE
Źródło: Contentplus.pl Sp. z o.o.

W ostatnim kroku określamy, jaki typ danych znajduje się w kolejnych kolumnach konwertowanego tekstu.

R14GHAPFZ1ZZZ
Źródło: Contentplus.pl Sp. z o.o.
Ważne!

Zwróć uwagę, że po konwersji plik, na którym pracujemy, nadal jest zapisany ze swoim pierwotnym rozszerzeniem. Przed kontynuacją zapisz arkusz z rozszerzeniem *.xlsx. Możesz to zrobić, wybierając Plik ze wstążki, a następnie wybierając opcję Zapisz jako. W górnym polu wpisz nazwę, pod którą chcesz zapisać plik, następnie z listy wybierz Skoroszyt programu Excel (*.xlsx) i potwierdź zapisywanie przyciskiem Zapisz.

R7NTVF7QSDOR4
Źródło: Contentplus.pl Sp. z o.o.
R1VA6QN7LQNH5
Źródło: Contentplus.pl Sp. z o.o.
LibreOffice Calc

###Importowanie danych z plików tekstowych.###

Może się okazać, że dane, które dostaliśmy znajdują się w plikach o innym rozszerzeniu niż *.ods. Mogą być to np. pliki *.txt, *.csv czy *.prn. W takim przypadku musimy wykorzystać importowanie danych do arkusza. Proces importowania danych do arkusza, z plików o podanym wyżej rozszerzeniu, w każdym wypadku wygląda podobnie.

Otrzymany plik możemy otworzyć za pomocą programu LibreOffice Calc. Zostanie wyświetlone okno importowania tekstu. Składa się ono z czterech sekcji, w pierwszej określamy pochodzenie pliku oraz w jakim języku został napisany. Poprawne określenie tych wartości pozwoli na pozbycie się błędów w pobieraniu danych z pliku. Jeśli nie jesteśmy pewni, czy poprawnie określiliśmy te wartości, w oknie importowania znajdziemy podgląd pobieranych danych, jeśli znajdują się tam wartości, które możemy bez problemu przeczytać, oznacza to, że prawdopodobnie poprawnie określiliśmy pochodzenie pliku. W tym polu znajduje się jeszcze pole, w którym możemy określić od którego wiersza chcemy rozpocząć pobieranie danych.

R11S2DFTH6KHJ
Źródło: Contentplus.pl Sp. z o.o.

W kolejnym polu – Opcje separatora – określamy, w jaki sposób arkusz kalkulacyjny będzie oddzielał kolejne kolumny. Jeśli wybierzemy opcję Rozdzielony, to musimy określić, za pomocą jakiego znaku – tabulator, przecinek, średnik czy spacja. Możemy wybrać kilka lub tylko jeden typ separatora.

RL2A5AHUJ4J7D
Źródło: Contentplus.pl Sp. z o.o.

Jeśli jednak dane oddzielone są równymi odstępami (stałą szerokość), to w kroku drugim określamy szerokość pól, klikając na „linijkę”. Czerwone kropki poniżej oznaczają miejsca, w których zastosowane zostanie oddzielenie danych. W przypadku z poniższej ilustracji, rozdzielenie nastąpi po 7, 12 oraz 17 znaku.

R1ZABF9CMQRRZ
Źródło: Contentplus.pl Sp. z o.o.

W polu Inne opcje znajdują się opcje, które pozwolą na uniknięcie błędów podczas importowania. Opcja Formatuj pola w cudzysłowie jako tekst sprawi, że informacje znajdujące się między znakami „ będą traktowane jako tekst, a jeśli między tymi znakami znajduje się znak separatora, np. tabulator, to zostanie on zignorowany. Włączenie opcji Identyfikuj liczby specjalne pozwoli na wykrycie wszystkich formatów liczb, w tym daty, godziny, notacji naukowej. Opcja Szacuj formuły sprawi, że gdy w pliku zawarte są formuły, np. =SUMA(C1:C10), to zostanie rozpoznana.

RBXBFLBS9O7PP
Źródło: Contentplus.pl Sp. z o.o.

W ostatnim polu – Pola – określamy, jaki typ danych znajduje się w kolejnych kolumnach importowanego tekstu.

R1FLL8AOZO8TU
Źródło: Contentplus.pl Sp. z o.o.
Ważne!

Zwróć uwagę, że po konwersji plik, na którym pracujemy, nadal jest zapisany ze swoim pierwotnym rozszerzeniem. Przed kontynuacją zapisz arkusz z rozszerzeniem *.ods. Możesz to zrobić, wybierając Plik z menu głównego, a następnie wybierając opcję Zapisz jako. W górnym polu wpisz nazwę, pod którą chcesz zapisać plik, następnie z listy wybierz Arkusz kalkulacyjny ODF (*.ods) i potwierdź zapisywanie przyciskiem Zapisz.

R1HATDL6MOSF8
Źródło: Contentplus.pl Sp. z o.o.
Polecenie 1

W pliku lista_ocen.txt są zapisane oceny uczniów z wybranych przedmiotów. W każdym wierszu zapisane jest imię ucznia, ocena z matematyki, ocena z języka polskiego i ocena z języka angielskiego, oddzielone od siebie znakami tabulacji. Pierwszy wiersz zawiera nagłówki kolumn. Zamiast przepisywać wszystko ręcznie, zaimportuj dane do arkusza kalkulacyjnego. Zadbaj o czytelność zestawienia.

R1PQMU1HS6QCJ

Przycisk do pobrania pliku txt z danymi do polecenia

Źródło: Zespół ORE, licencja: CC BY 4.0.
Plik TXT o rozmiarze 452.00 B w języku polskim