Apache Spark

Logiciel capture d'écran:
Apache Spark
Détails logiciels:
Version: 1.3.1 Mise à jour
Date de transfert: 12 May 15
Développeur: UC Berkeley AMP Lab
Licence: Gratuit
Popularité: 195

Rating: 4.0/5 (Total Votes: 2)

Spark a été conçu pour améliorer la vitesse de traitement pour l'analyse des données et des programmes de manipulation.
Il a été écrit en Java et Scala et fournit des fonctionnalités ne se trouvent pas dans d'autres systèmes, principalement parce qu'ils ne sont pas ordinaires ni très utile pour les applications de traitement non des données.

Ce qui est nouveau dans cette version:.

  • L'API de base prend désormais en charge les arbres d'agrégation multi-niveaux pour aider à accélérer coûteux de réduire les opérations
  • Amélioration des rapports d'erreur a été ajoutée pour certaines opérations gotcha.

  • Jetty la dépendance de
  • Spark est désormais grisé pour aider à éviter les conflits avec les programmes de l'utilisateur.
  • Spark prend désormais en charge le cryptage SSL pour certains paramètres de communication.
  • métriques en temps réel du GC et les comptes d'enregistrements ont été ajoutées à l'interface utilisateur.

Qu'est-ce que les nouvelles dans la version 1.3.0:

  • L'API de base prend désormais en charge les arbres d'agrégation multi-niveaux pour aider à accélérer coûteux de réduire les opérations.
  • Amélioration des rapports d'erreur a été ajoutée pour certaines opérations gotcha.

  • Jetty la dépendance de
  • Spark est désormais grisé pour aider à éviter les conflits avec les programmes de l'utilisateur.
  • Spark prend désormais en charge le cryptage SSL pour certains paramètres de communication.
  • métriques en temps réel du GC et les comptes d'enregistrements ont été ajoutées à l'interface utilisateur.

Ce qui est nouveau dans la version 1.2.1:

  • l'opérateur de tri de PySpark prend désormais en charge de renverser externe pour les grands ensembles de données .
  • PySpark prend désormais en charge les variables de diffusion de plus de 2GB et effectue renverser externe pendant sortes.
  • Spark ajoute une page au niveau de l'emploi des progrès dans l'interface utilisateur de Spark, une API stable pour les rapports d'avancement et la mise à jour dynamique des paramètres de sortie que les emplois complète.
  • Spark a maintenant un support pour lire les fichiers binaires pour les images et autres formats binaires.

Ce qui est nouveau dans la version 1.0.0:

  • Cette version étend les bibliothèques standards de Spark, lance un nouveau package SQL (SQL Spark) qui permet aux utilisateurs d'intégrer des requêtes SQL dans des workflows Spark existantes.
  • MLlib, la bibliothèque de l'apprentissage de la machine de la Spark, est élargi avec le soutien de vecteur creux et plusieurs nouveaux algorithmes.

Ce qui est nouveau dans la version 0.9.1:

  • bug de collision de hachage fixe à renverser externe
  • Correction d'un conflit avec le log4j de Spark pour les utilisateurs comptent sur d'autres backends de journalisation
  • Graphx fixe absent de pot d'assemblage de Spark à Maven
  • échecs silencieux fixes dues à cartographier l'état de sortie supérieure à la taille d'image Akka
  • inutiles dépendance directe de Spark Enlevée sur ASM
  • Suppression des paramètres-ganglions de construction par défaut en raison de conflit de licence LGPL
  • Correction d'un bug dans la distribution archive ne contenant pas de pot d'assemblage d'allumage

Ce qui est nouveau dans la version 0.8.0:

  • Développement a déménagé à la Fondation Apache sowftware comme un projet d'incubateur.

Ce qui est nouveau dans la version 0.7.3:

  • Python performances: le mécanisme de Spark pour le frai Python VM a été améliorée de le faire plus rapidement lorsque la JVM a une grande taille du tas, en accélérant l'API Python.
  • Mesos fixe: JAR ajoutés à votre travail seront désormais sur le chemin de classe quand désérialisant résultats de la tâche dans Mesos
  • .
  • rapports d'erreur:. Amélioration des rapports d'erreur pour les exceptions non sérialisables et trop grands résultats de la tâche
  • Exemples:. Ajouté un exemple de traitement de flux stateful avec updateStateByKey
  • Construire:. Spark streaming ne dépend plus de la prise en pension de Twitter4J, qui devrait lui permettre de construire en Chine
  • Correction de bugs dans foldByKey, streaming comptage, des méthodes statistiques, de la documentation, et l'interface utilisateur Web.

Quoi de neuf dans la version 0.7.2:.

  • Version Scala mis à jour 2.9.3
  • Plusieurs améliorations à Bagel, y compris les correctifs de performances et un niveau de stockage configurable.
  • De nouvelles méthodes de l'API:. SubtractByKey, foldByKey, CarteAvec, filterWith, foreachPartition, et autres
  • Une nouvelle métriques déclaré interface, SparkListener, à recueillir des informations sur chaque étape de calcul:. Longueurs de la tâche, les octets mélangées, etc
  • Plusieurs nouveaux exemples utilisant l'API Java, y compris K-means et informatique pi.

Quoi de neuf dans la version 0.7.0:

  • Spark 0.7 ajoute une API Python appelé PySpark <. / li>
  • Emploi Spark lancent maintenant un tableau de bord Web pour surveiller l'utilisation de la mémoire de chaque ensemble de données distribuée (RDD) dans le programme.
  • Spark peut maintenant être construit en utilisant Maven, en plus de SBT.

Ce qui est nouveau dans la version 0.6.1:

  • Message trop agressif fixe les délais d'attente qui pourraient entraîner les travailleurs à déconnecter du cluster.
  • Correction d'un bug dans le mode de déploiement autonome qui n'a pas exposer les noms d'hôtes à ordonnanceur, affectant HDFS localité.
  • Amélioration de la réutilisation de connexion dans shuffle, ce qui peut grandement accélérer petits remaniements.
  • Correction de quelques blocages potentiels dans le gestionnaire de blocs.
  • Correction d'un bug obtenir les identifiants d'hôtes à partir de Mesos échoué.
  • Plusieurs améliorations de script EC2, comme une meilleure gestion des cas ponctuels.
  • Fait l'adresse IP locale Spark se lie à personnalisable.
  • Support pour Hadoop 2 distributions.
  • Support pour localiser Scala sur les distributions Debian.

Ce qui est nouveau dans la version 0.6.0:.

  • le déploiement plus simple
  • la documentation de Spark a été élargi avec un nouveau guide de démarrage rapide, instructions de déploiement supplémentaires, guide de configuration, guide de réglage, et une meilleure documentation de l'API de Scaladoc.
  • Une nouvelle responsable de la communication asynchrone en utilisant Java NIO permet des opérations de brassage et de courir plus vite, en particulier lors de l'envoi de grandes quantités de données ou lorsque les emplois ont de nombreuses tâches.
  • Un nouveau gestionnaire de stockage prend par-ensemble de données des paramètres de niveau de stockage (par exemple, si vous voulez garder l'ensemble de données en mémoire, désérialisés, sur le disque, etc, ou même répliqué entre les nœuds).
  • débogage amélioré.

Logiciel similaire

Apache Helix
Apache Helix

13 Apr 15

Packer
Packer

10 Dec 15

Harp
Harp

10 Dec 15

Commentaires à Apache Spark

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!