Big Data duomenų formatai. Kurį pasirinkti?

Tweet about this on TwitterShare on LinkedInShare on FacebookShare on Reddit

Big Data sprendimų populiarumas vis didėja, todėl nenuostabu, kad atsiranda su tuo susijusių problemų. Viena iš esminių, kurį duomenų formatą pasirinkti duomenų importavimui į Hadoop infrastruktūrą? Paprasčiausi bandymai visada pradedami text (csv) formatu arba reliaciniu pagrindu sukurtų lentelių struktūra, kaip Hive arba Parquet. Kodėl verta pamąstyti ir apie kitas galimybes, pavyzdžiui avro formatą?

Avro formatas palaiko schemos istoriškumą, kadangi jis yra organizuotas Json struktūros pagalba. Tai leidžia koreguoti esamą struktūrą, o ne tik atlikti esamos struktūros papildymą pradinių duomenų pasikeitimų atveju. Šis formatas puikiai archyvuojamas ir išskaidomas.

 

Detaliau apie formatų palygnimus įskaitant greitaveikos vertinimus skaitykite: http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *