Jei mokaisi duomenų analitikos, turbūt neretai prireikia padaryti asmeninį projektą. Paprastai tokios užduotys būna įdomios, tačiau neretai pirmas sudėtingas darbas yra gauti duomenų, kuriuos galėtum analizuoti. Visa laimė, kad yra tinklapių, kurie pateikia savo duomenų rinkinius. Šiame įraše norime pasidalinti net 19 tokių tinklapių, kuriuose rasi medžiagos įvairiausiems duomenų analitikos projektams.

 

Kas yra duomenų rinkiniai?

Paprastai kalbant, tai tiesiog surinkti duomenys. Pats primityviausias pavyzdys būtų kad ir bet kuri Excel lentelė, kurioje eilutėse ir stulpeliuose yra surašyta tam tikra informacija. Duomenys gali būti saugomi įvairiais formatais ir dažnai net ne viename faile, o, tarkim, kataloge su daug lentelių, kuriose yra tarpusavyje susijusi informacija.

 

Kaip sukuriami duomenų rinkiniai?

Skirtingi rinkiniai kuriami naudojantis skirtingais metodais. Kai kurie būna sugeneruoti automatiškai, kai kurie būna surinkti ir surūšiuoti žmonių – apklausos, garso įrašai ir t. t. Taip pat duomenys gali būti išgauti iš tinklapių. Dirbant su duomenimis, svarbu atsižvelgti į tai, kaip šie duomenys buvo surinkti, nes tik gerai suprasdamas duomenis, su kuriais dirbi, galėsi padaryti teisingas išvadas.

 

Duomenų vizualizavimo projektams skirti duomenų rinkiniai

Duomenys, skirti duomenų vizualizavimo projektams, turėtų būti ganėtinai tvarkingi, kad nereikėtų skirti daug laiko jų tvarkymui. Taip pat jie turėtų būti tinkami kelti į aiškias ir suprantamas lenteles bei diagramas.

 

  1. FiveThirtyEight

Šis portalas yra skirtas naujienoms bei informacijai apie sportą skelbti. Duomenis, panaudotus savo straipsniams, jie skelbia Github portale, pavyzdžiui:

  1. BuzzFeed

Šiame portale gali rasti ne tik įvairių sensacingų naujienų, bet ir įvairių tyrimų. Duomenis, panaudotus straipsniams, šis portalas talpina Github, pavyzdžiui:

  1. NASA

NASA yra vyriausybinė organizacija, todėl visi jos skelbiami duomenys yra vieši. NASA kuruoja puslapius, kur visi gali atsisiųsti informaciją, susijusią su moksliniais tyrimais apie žemę bei moksliniais tyrimais apie kosmosą.

 

Duomenų apdorojimo projektams skirti duomenų rinkiniai

Jei vykdai projektą, kuriame reikia dirbti su dideliais duomenų rinkiniais, tuomet pats procesas yra daug svarbiau nei galutinis duomenų analizavimas. Tam reikia itin aiškių ir įdomių duomenų. Žemiau dalinamės keliais tokiais tinklapiais.

 

  1. AWS vieši duomenų rinkiniai

Didžiausia parduotuvė internete Amazon savo duomenims kaupti naudoja „Amazon Web Service“ platformą. Čia gali rasti informacijos įvairiomis temomis, tarkim, palydovinių žemės nuotraukų rinkinius.

 

  1. Google vieši duomenų rinkiniai

Kaip ir Amazon, Google turi savo duomenų platformą, kuri vadinasi „Google Cloud Platform“. Šioje platformoje gali naršyti naudojantis įrankiu BigQuery.

 

  1. Wikipedia

Wikipedijoje informacijos gali rasti turbūt apie viską. Kadangi ją kurti gali bet kas, duomenys čia yra atviri ir prieinami visiems. Taip pat čia gali sekti visą redagavimo istoriją ir tai panaudoti savo projektams. Čia gali rasti visus Wikipedijos duomenų rinkinius.

 

  1. Kaggle

Šiame portale vyksta įvairios mašininio mokymosi varžybos ir čia galima rasti visų įvykusių varžybų duomenis. Duomenis gali atsisiųsti sudalyvaudamas varžybose arba gali parsisiųsti vartotojų pasidalintus duomenų rinkinius.

 

  1. UCI mašininio mokymosi saugykla

Šis portalas yra vienas seniausių duomenų rinkinių internete šaltinių. Čia esantys duomenų rinkiniai itin tinka pradedantiesiems, nes nėra dideli, tačiau įdomūs ir naudingi bei tinkami mašininio mokymosi projektams.

 

  1. Quandl 

Quandl yra duomenų ekonomikos ir finansų temomis saugykla. Dalis čia esančios informacijos pateikiama nemokamai, dalį reikėtų įsigyti. Šioje paieškoje gali rasti tave dominančias temas.

 

Duomenų tvarkymo projektams skirti duomenų rinkiniai

Tokiuose projektuose visų pirma reikia duomenis suskirstyti atskirais failais, ištrinti visą nereikalingą informaciją ir tik tada vykdyti analizę. Kartais gali paaiškėti, kad visi duomenys buvo netinkami, ir tenka pradėti iš naujo. Duomenų rinkiniai, tinkami tokiam darbui, turi būti skirtinguose failuose, kuo įvairesni ir kuo mažiau sutvarkyti.

 

  1. world

Šiame portale gali rasti visokių duomenų rinkinių, kurie talpina didelius kiekius informacijos. Portalas bendradarbiauja su įvairiausiomis organizacijomis, taigi čia gali rasti itin didelį duomenų rinkinių temų pasirinkimą.

 

  1. gov

Tai gana naujas JAV portalas, kurio tikslas yra kurti atvirą žmonėms valdžią. Čia gali parsisiųsti informaciją iš įvairių valdžios tarnybų. Norint naršyti šiame portale nereikia jokios registracijos, tiesiog ieškok dominančių temų.

 

  1. The World Bank

Ši organizacija teikia paskolas ir patarimus besivystančioms šalims. Jų duomenų rinkiniuose kaupiama informacija apie visas vykdomas programas.

 

  1. /r/datasets

Diskusijų portalas Reddit turi savo duomenų rinkinių bazę, kur gali rasti duomenis įvairiomis diskutuotomis temomis.

 

  1. Academic Torrents

Šiame portale dalinamasi duomenimis iš įvairių mokslinių straipsnių. Tačiau kadangi tai yra torentų portalas, norint parsisiųsti duomenis, tau reikės torentų siuntimo programos.

 

Duomenų srauto projektams skirti duomenų rinkiniai

Dažniausiai darant duomenų analizės projektą dirbama su atsisiųstais duomenimis, tačiau gali pasitaikyti projektų, kuomet reikia analizuoti realaus laiko duomenis. Tinklapių, kur galima gauti tokių duomenų, nėra daug, tačiau keliais galime pasidalinti.

 

  1. Twitter

Naudojantis Twitterio duomenų bazėje kaupiamais duomenimis galima analizuoti tokius dalykus, kaip, tarkim, kuri šalis yra laimingiausia, kuri kalba yra sudėtingiausia ir pan.

 

  1. Wunderground

Ši orų svetainė kaupia duomenis apie orus, taigi vykdydamas projektą apie orų istoriją ar statistiką, būtinai pasinaudok jų duomenų baze.

 

Asmeninę informaciją analizuoti skirti duomenų rinkiniai

Norint sukurti tikrai unikalų duomenų analizės projektą, galima analizuoti savo asmeninius duomenis. Dalinamės keliais portalais, kurie leidžia tai daryti.

 

  1. Amazon

Jei mėgsti apsipirkti šioje parduotuvėje, tuomet turi puikią progą pasinaudoti jų suteikiama galimybe analizuoti asmeninius duomenis. Paspausk čia, prisijunk prie savo paskyros ir „Accounts and Lists“ skirsnyje pasirink „Ordering and Shopping“, o tada „Download Order Reports“.

 

  1. Facebook

Socialinis tinklas Facebook taip pat leidžia parsisiųsti asmeninius aktyvumo duomenis. Spausk čia ir pasirink, kokius duomenis norėtum parsisiųsti.

 

  1. Netflix

Internetinė televizija Netflix suteikia galimybę parsisiųsti savo asmeninius duomenis. Nors čia pateikiama informacija yra gana ribota, tačiau jos užteks nedideliam projektui.

 

Tikimės, kad šiame įraše esanti informacija bus naudinga tau, kad ir kokį duomenų analitikos projektą vykdytum. Linkime sėkmingų paieškų ir gerų analizių!