Category Archives: Big Data

Big Data sprendimų technologinės naujienos ir įžvalgos

Big Data duomenų formatai. Kurį pasirinkti?

Big Data sprendimų populiarumas vis didėja, todėl nenuostabu, kad atsiranda su tuo susijusių problemų. Viena iš esminių, kurį duomenų formatą pasirinkti duomenų importavimui į Hadoop infrastruktūrą? Paprasčiausi bandymai visada pradedami text (csv) formatu arba reliaciniu pagrindu sukurtų lentelių struktūra, kaip Hive arba Parquet. Kodėl verta pamąstyti ir apie kitas galimybes, pavyzdžiui avro formatą?

Avro formatas palaiko schemos istoriškumą, kadangi jis yra organizuotas Json struktūros pagalba. Tai leidžia koreguoti esamą struktūrą, o ne tik atlikti esamos struktūros papildymą pradinių duomenų pasikeitimų atveju. Šis formatas puikiai archyvuojamas ir išskaidomas.

 

Detaliau apie formatų palygnimus įskaitant greitaveikos vertinimus skaitykite: http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015

Spark SQL vs Apache Drill

Jau neabejojama, kad didžiųjų duomenų (angl. Big Data) platformos – ateities technologijos, kurios supaprastins ir atpigins darbą daugelyje IT sričių. Tačiau šios technologijos nėra lengvai integruojamos ir suderinamos su dabartine IT infrastruktūra ir priemonėmis, įskaitant ir veiklos analizės ir analitikos sritis. Paprastesnei integracijai naudojami tarpiniai SQL sluoksniai, kurių pagalba didžiųjų duomenų platformos tampa prieinamos daugeliui daugeliui IT įrankių. 2016 Hadoop Summit konferencijoje buvo palygintos populiariausios technologijos, tokios kaip Spark SQL ir Apache Drill. Visos detalės šiame video:

Kaip išnaudoti Power BI Big Data analizei?

Microsoft pristačius Azure ML (trump. Machine Learning) technologiją, atsirado poreikis paprastai ir aiškiai atlikti galimų rezultatų analizę. Kadangi Azure ML yra Cortana Intelligence Suite dalis, o šios platformos vizualizacijai skirta Power BI priemonė, atsirado tiesioginė galimybė integruoti šias technologijas.Šaltinis: http://www.v3.co.uk/v3-uk/news/2461303/microsoft-shows-how-to-link-power-bi-and-azure-ml-to-visualise-big-data

Power BI palaikys Apache Spark Streaming

Puiki naujiena Big Data sprendimų naudotojams. Apache Spark Summit konferencijoje, vykusioje 2016 birželio 6-8 d., pristatyta dar viena naujovė susijusi su ko gero labiausiai vystoma self-service BI priemone – PowerBI. Ši priemonė iki šiol turėjo integravimo galimybes su Apache Spark, tačiau konferencijos metu pristatyta, kad PowerBI planuose numatoma galimybė tiesioginei prieigai prie Apache Spark Streaming.

Šaltinis: https://blogs.technet.microsoft.com/dataplatforminsider/2016/06/06/microsoft-announces-major-commitment-to-apache-spark