Apache Parquet est un format de données "colonnaires" de stockage qui a été spécifiquement créé pour la Apache Hadoop famille de projets.
Parquet est recommandé pour être utilisé avec des données importantes, principalement parce qu'il utilise un système de compression de données complexes, en se fondant sur une série d'algorithmes disque de déchiquetage et de ré-assemblage optimisées.
Ceci permet aux données d'être ventilées, organisée dans un format imbriqué, et réassemblés chaque fois interrogé.
Le format Parquet peut également être utilisé en dehors de l'écosystème Hadoop, étant spécifiquement conçu pour être aussi agnostique que possible, travailler avec tout type de cadre de traitement de données et modèle de stockage de données.
< strong> Quoi de neuf dans cette version:
- Renommer packages et maven coordonnées à org.apache
- Ajoutez les statistiques de codage à ColumnMetaData li>
- streaming API d'épargne
- De nouveaux types logiques
Ce qui est nouveau dans la version 2.3.0:
- Renommer packages et maven coordonnées à org.apache
- Ajoutez les statistiques de codage à ColumnMetaData li>
- streaming API d'épargne
- De nouveaux types logiques
Limites :
- Le projet est encore en cours de développement dans le référentiel Apache Incubator et pourrait changer radicalement de la version à la version.
Commentaires non trouvées