Spark Apache a été conçu pour améliorer la vitesse de traitement des programmes d'analyse de données et de manipulation.
Il a été écrit en Java et Scala et offre des fonctionnalités ne trouve pas dans d'autres systèmes, principalement parce qu'ils ne sont pas grand public ni que utile pour les applications de traitement non-données.
Spark a été créé à l'UC Berkeley AMP Lab puis remis à la Apache Software Foundation
Ce qui est nouveau dans cette version:.
- gestion de la mémoire unifiée -. la mémoire partagée pour l'exécution et la mise en cache au lieu de la division exclusive des régions
- Parquet Performance - Améliorer Parquet performances d'analyse lors de l'utilisation des schémas plats .
- Amélioration de planificateur de requêtes pour les requêtes éprouvent des agrégations distinctes -. Les plans de requête de agrégations distinctes sont plus robustes lorsque les colonnes distinctes ont une grande cardinalité
- d'exécution des requêtes Adaptive -. Le support initial pour sélectionner automatiquement le nombre de réducteurs pour jointures et agrégations
- Éviter les filtres doubles dans l'API Data Source -. Lorsque la mise en œuvre d'une source de données avec filtre pushdown, les développeurs peuvent désormais dire Spark SQL pour éviter la double évaluation d'un filtre poussé vers le bas
- Fast null-safe - Joint en utilisant l'égalité null-safe (& # x3C; = & # X3e;) va maintenant exécuter à l'aide SortMergeJoin au lieu de calculer un produit cartisian .
- En mémoire Performance Columnar Cache - significative (jusqu'à 14x) accélérer la mise en cache lorsque les données qui contient des types complexes dans DataFrames ou SQL .
- l'exécution de SQL Utilisation Off-Heap Memory - Support pour la configuration de l'exécution des requêtes de se produire en utilisant la mémoire hors tas pour éviter les frais généraux GC
rejoint
Qu'est-ce que les nouvelles dans la version 1.5.2:
- L'API de base prend désormais en charge les arbres d'agrégation multi-niveaux pour aider à accélérer coûteux de réduire les opérations.
- Amélioration des rapports d'erreur a été ajoutée pour certaines opérations gotcha.
- Spark est maintenant ombrée pour aider à éviter les conflits avec les programmes utilisateur.
- Spark prend désormais en charge le cryptage SSL pour certains paramètres de communication.
- métriques en temps réel du GC et le nombre d'enregistrements ont été ajoutés à l'interface utilisateur.
Jetty la dépendance
Qu'est-ce que les nouvelles dans la version 1.4.0:
- L'API de base prend désormais en charge les arbres d'agrégation multi-niveaux pour aider à accélérer coûteux de réduire les opérations.
- Amélioration des rapports d'erreur a été ajoutée pour certaines opérations gotcha.
- Spark est maintenant ombrée pour aider à éviter les conflits avec les programmes utilisateur.
- Spark prend désormais en charge le cryptage SSL pour certains paramètres de communication.
- métriques en temps réel du GC et le nombre d'enregistrements ont été ajoutés à l'interface utilisateur.
Jetty la dépendance
Ce qui est nouveau dans la version 1.2.0:
- L'opérateur de tri de PySpark supporte maintenant renverser externe pour les grands ensembles de données .
- PySpark prend désormais en charge les variables de diffusion plus de 2 Go et exécute déversement externe pendant toutes sortes.
- Spark ajoute une page de niveau d'emploi des progrès dans l'interface utilisateur de Spark, une API stable pour les rapports d'avancement et la mise à jour dynamique des paramètres de sortie que les emplois complet.
- Spark a maintenant un support pour la lecture de fichiers binaires pour les images et les autres formats binaires.
Ce qui est nouveau dans la version 1.0.0:
- Cette version étend les bibliothèques standard de Spark, l'introduction d'une nouvelle package SQL (SQL Spark) qui permet aux utilisateurs d'intégrer des requêtes SQL dans les flux de travail Spark existantes.
- MLlib, la bibliothèque d'apprentissage de la machine de Spark, est élargie avec le soutien de vecteur creux et plusieurs nouveaux algorithmes.
Ce qui est nouveau dans la version 0.9.1:
- bug de collision de hachage fixe dans déversement externe
- conflit fixe avec log4j de Spark pour les utilisateurs comptent sur d'autres backends forestières
- Graphx fixe manquant de pot d'assemblage de Spark à maven construit
- échecs silencieux fixes en raison de la carte état de sortie supérieure à la taille d'image Akka
- inutile dépendance directe de Spark Supprimé sur ASM
- Suppression des paramètres-ganglion de construction par défaut en raison de LGPL conflit de licence
- Correction d'un bug dans la distribution tarball ne contenant pas de pot d'assemblage d'allumage
Ce qui est nouveau dans la version 0.8.0:
- Développement a déménagé à la Fondation Apache sowftware comme projet d'incubateur.
Ce qui est nouveau dans la version 0.7.3:
- Python performances: le mécanisme de Spark pour le frai Python VM a été améliorée de le faire plus rapidement lorsque la JVM a une grande taille de tas, en accélérant l'API Python.
- Mesos fixe: JAR ajoutée à votre travail sera désormais sur le classpath lorsque désérialisation résultats de la tâche dans Mesos .
- rapports d'erreur:. L'amélioration des rapports d'erreur pour les exceptions non-sérialisables et trop grands résultats de la tâche
- Exemples:. Ajout d'un exemple de traitement de flux stateful avec updateStateByKey
- Mensuration:. Spark streaming ne dépend plus de la prise en pension de Twitter4J, qui devrait lui permettre de construire en Chine
- Correction de bugs dans foldByKey, streaming comte, méthodes statistiques, de la documentation, et l'interface utilisateur Web.
Ce qui est nouveau dans la version 0.7.2:.
- Version Scala mis à jour 2.9.3
- Plusieurs améliorations Bagel, y compris les correctifs de performance et un niveau de stockage configurable.
- Nouvelles méthodes de l'API:. SubtractByKey, foldByKey, CarteAvec, filterWith, foreachPartition, et d'autres
- Une nouvelle métrique de rapports interface, SparkListener, pour recueillir des informations sur chaque étape de calcul:. Longueurs de tâches, les octets mélangées, etc
- Plusieurs nouveaux exemples en utilisant l'API Java, y compris K-means et calcul pi.
Ce qui est nouveau dans la version 0.7.0:
- Spark 0.7 ajoute une API Python appelé PySpark <. / li>
- Emploi Spark lance maintenant un tableau de bord Web pour surveiller l'utilisation de la mémoire de chaque jeu de données distribué (RDD) dans le programme.
- Spark peut maintenant être construit en utilisant Maven en plus de SBT.
Ce qui est nouveau dans la version 0.6.1:
- Message trop agressif fixe les délais d'attente qui pourraient entraîner les travailleurs à déconnecter du cluster.
- Correction d'un bug dans le mode de déploiement autonome qui n'a pas exposer hostnames à ordonnanceur, affectant HDFS localité.
- Amélioration de la réutilisation de connexion aléatoire, ce qui peut grandement accélérer les petits remaniements.
- Correction de quelques blocages potentiels dans le gestionnaire de blocs.
- Correction d'un bug obtenir ID d'hôtes échoué de Mesos.
- Plusieurs améliorations de script EC2, comme un meilleur traitement des cas ponctuels.
- Fait l'adresse IP locale Spark se lie à personnalisable.
- Support pour Hadoop 2 distributions.
- Support pour localiser Scala sur les distributions Debian.
Ce qui est nouveau dans la version 0.6.0:.
- déploiement Simpler
- la documentation Spark a été élargi avec un nouveau guide de démarrage rapide, des instructions de déploiement supplémentaires, guide de configuration, guide de mise au point, et l'amélioration de la documentation de l'API Scaladoc.
- Un nouveau gestionnaire de communication utilisant asynchrone Java NIO permet des opérations de brassage et de courir plus vite, en particulier lors de l'envoi de grandes quantités de données ou lorsque les emplois ont de nombreuses tâches.
- Un nouveau gestionnaire de stockage prend en charge par-ensemble de données des paramètres de niveau de stockage (par exemple si vous souhaitez conserver l'ensemble de données en mémoire, désérialisé, sur le disque, etc, ou même répliqué sur les nœuds).
- débogage amélioré.
Commentaires non trouvées