Metų pradžia yra puikus metas kalbėti apie buvusias, esamas ir būsimas tendencijas. Šiais metais, kaip ir pernai, duomenų analitiko darbas bus vienas geidžiamiausių, specialistų trūks vis labiau, todėl norint juo tapti, reikia žinoti, kokie įgūdžiai yra svarbiausi ir reikalingiausi duomenų analitikui ar mokslininkui šiuo metu.

Tikimybių teorija ir statistika

Kadangi, kaip jau minėjome, duomenų mokslo esmė yra daryti išvadas, vertinti ar numatyti, tikimybių teorijos ir statistikos žinios čia neišvengiamos. Ir neužteks išmanyti tik kažką vieną, nes statistika yra tampriai susijusi su tikimybių teorija.

Ką gali daryti su duomenimis, gerai išmanydamas šiuos dalykus?

  1. Suprasti ir tyrinėti duomenis daug aiškiau.
  2. Atrasti daugiau ryšių ir sąsajų tarp kelių kintamųjų.
  3. Lengviau nuspėti ateities tendencijas, remiantis jau turimais duomenimis.
  4. Aptikti netikslius ir klaidingus duomenis.

 

Daugiamatis skaičiavimas ir tiesinė algebra

Jei studijavai matematiką ar informatiką, šie terminai tau ne naujiena. Daugiamatis skaičiavimas ypač praverčia kuriant mašininio mokymosi modelius, nes čia dažnai susiduriama su nežinomais kintamaisiais.

Ką gali nuveikti su duomenimis, išmanydamas šiuos matematikos mokslus?

  1. Apskaičiuoti kryptinę išvestinę ir gradientus.
  2. Apskaičiuoti sąnaudų funkciją.
  3. Apskaičiuoti minimalias ir maksimalias funkcijos reikšmes.
  4. Apskaičiuoti vektorius, matricą, tenzoriaus ir skaliarinę funkciją.

 

Programavimo įgūdžiai

Žinoma, duomenų mokslui ir analitikai labiausiai reikia programavimo žinių. Būtent programavimas sujungia visas kitas turimas žinias ir įgūdžius bei leidžia iš „žalių duomenų“ išgauti svarbias įžvalgas. Ir nors dirbti su duomenimis puikiai tinka tokios kalbos kaip JAVA ar SQL, visgi pati tinkamiausia ir dažniausiai pasirenkama yra „Python“ . Taigi, jei tik planuoji mokytis analizuoti duomenis, geriausia būtų pradėti nuo „Python“ kalbos įvaldymo.

 

Duomenų išrinkimas

Neretai ypač didelėse įmonėse pasitaiko duomenų, netinkamų analizei, todėl labai svarbu mokėti atpažinti netinkamus duomenis ir juos atrinkti. Duomenų išrinkimas (angl. Data Wrangling) – tai procesas, kai surinkti duomenys yra paruošiami būsimai analizei.

Ką gali nuveikti išmanydamas duomenų išrinkimą?

  1. Pateikti labai tikslią duomenų reprezentaciją.
  2. Sutrumpinti laiką, kuris būna sugaištamas sistemizuojant surinktus duomenis prieš juos analizuojant.
  3. Suteikti galimybę duomenų mokslininkams susitelkti į duomenų analizę.
  4. Užtikrinti, kad duomenys, reikalingi tam tikriems sprendimams priimti, būtų atrinkti itin tikslingai.

 

Duomenų bazių valdymas

Duomenų bazių valdymą iš esmės sudaro programos, kurias naudojant gali redaguoti, rūšiuoti ir kitaip valdyti duomenų bazes. Duomenų bazių valdymo sistema apdoroja jai pateiktas užklausas ir pateikia reikalingus ieškomus duomenis. Vienos populiariausių duomenų bazių valdymo sistemų yra: „SQL“, „MySQL”, „SQL Server“, „Oracle“, „IBM DB2“, „PostgreSQL“ ir „NoSQL“.

Kaip mokėjimas valdyti duomenų bazes praverčia dirbant su didžiaisiais duomenimis?

  1. Tu gali atrasti ir tvarkyti duomenis, esančius duomenų bazėje.
  2. Gali keisti duomenų formatą, laukelių pavadinimus, įrašų ar failų struktūrą.
  3. Gali sukurti taisykles duomenų įrašymui ir testavimui.

Gali sukurti keliems vartotojams prieinamą aplinką.

 

Duomenų vizualizavimas

Visi iš surinktų duomenų padaryti atradimai taps beprasmiai, jei nesugebėsi aiškiai jų pavaizduoti ir perteikti kitiems. Būtent todėl mokėjimas apipavidalinti surinktą informaciją yra būtinas įgūdis duomenų analitikui.

Mokėdamas gražiai perteikti savo išvadas tu gali:

  1. Padėti atrasti svarbias įžvalgas.
  2. Rasti ryšius tarp nežinomų kintamųjų.
  3. Išskirti sritis, kurioms reikia išskirtinio dėmesio ir patobulinimo.
  4. Išsiaiškinti veiksnius, turinčius įtakos klientų elgesiui.
  5. Išsiaiškinti, kur dėti kokius produktus.
  6. Pavaizduoti įvairias tendencijas.
  7. Pavaizduoti informacijos apimtis.

 

Vieni populiariausių įrankių duomenų vizualizacijai yra: „Tableau“, „PowerBI“, „QlikView“, „Google Analytics (For Web)“, „MS Excel“, „Plotly“, „Fusion Charts“, SAS.

 

Mašininis / gilusis mokymasis

Jei planuoji dirbti ar dirbi įmonėje ar įstaigoje, kurioje surenkami ypač dideli duomenų kiekiai, tuomet tau tikrai pravers mašininio mokymosi žinios.

Išmanydamas dirbtinį intelektą ir mašininį mokymąsi, tu gali:

  1. Nustatyti apgavystes ir rizikas.
  2. Dirbti sveikatos priežiūros įstaigose.
  3. Planuoti lėktuvų maršrutus.
  4. Filtruoti šlamštą el. paštuose.
  5. Kurti veido ir balso atpažinimo sistemas.
  6. Dirbti su automatiniais vertimais.

 

Debesų kompiuterija

Darbas su dideliais duomenų kiekiais yra neatsiejamas nuo debesų kompiuterijos. Duomenų mokslininkai būtent „debesyse“ ieško duomenų ir valdo juos. Todėl kiekvienas duomenų analitikas ar mokslininkas turėtų mokėti dirbti su tokiom platformom kaip „Google Cloud“ ar „Windows Azure“.

Ką gali daryti mokėdamas dirbti su debesų kompiuterija?

  1. Rasti ar įsigyti reikiamus duomenis.
  2. Analizuoti, atrinkti, keisti duomenis.
  3. Išbandyti galimus dėsningumų ir tendencijų modelius.
  4. Optimizuoti modelių veikimą.

 

Microsoft Excel

Taip taip, senas geras „Excel‘is“ yra labai patogus įrankis duomenims analizuoti, kur tu gali rūšiuoti surinktus duomenis kaip tik nori ir išsaugoti kiek nori įvairių versijų. Be to, „Excel‘is“ puikiai veikia su „Python“ programavimo kalba. Iš tiesų, daugybė žmonių, kurie nėra niekaip susiję su duomenų mokslu, kasdienybėje naudoja „Excel‘į“ būtent analizuoti ir rūšiuoti jiems aktualius duomenis.

Ką gali daryti pasitelkęs „Excel‘į“ dirbamas su didžiaisiais duomenimis?

  1. Filtruoti, rūšiuoti, sujungti, karpyti duomenis.
  2. Sukurti „Pivot“ lenteles ir diagramas.
  3. Ieškoti reikiamų duomenų tarp tūkstančių įrašų.
  4. Pasinaudoti VBA („Visual Basic for Applications“) programavimo kalbos, skirtos programuoti „Excel“ failus, privalumais.

 

Gali būti, kad kai ką iš šiame įraše išvardintų dalykų tu jau puikiai išmanai, bet niekada nesusimąstei, jog šias žinias gali pritaikyti duomenų mokslui ar analitikai. O galbūt tu jau pradėjai mokytis dirbti su didžiaisiais duomenimis, bet vis pritrūkdavo įgūdžių atlikti tam tikras užduotis. Abiem atvejais tikimės, kad įrašas tau buvo naudingas!