DataFu a été développé à LinkedIn et est entièrement écrit en Java.
DataFu inclut des fonctions / bibliothèques pour travailler avec:
- Statistiques
- Estimation
- Échantillonnage
- Sessions
- Analyse des liens
- opérations Set
- Sacs
DataFu est parfait pour l'exploration de données et les applications statistiques de travail sur des bases de données Hadoop ou de porc.
Ces fonctions permettent aux développeurs de profiter pleinement de toutes les données stockées dans un Hadoop ou Pig base de données sans avoir à traiter avec les exigences du système massives afin de le faire.
ce qui est nouveau dans cette version:.
- Paire de UDFs pour l'échantillonnage aléatoire simple avec remplacement
- Plus de dépendances emballés maintenant DataFu dépendances donc moins JAR requis.
- SetDifference UDF pour calculer définir la différence (par exemple A-B ou A-B-C).
Ce qui est nouveau dans la version 1.2.0:
- Paire de UDFs pour l'échantillonnage aléatoire simple avec remplacement.
- Plus de dépendances emballés maintenant DataFu dépendances donc moins JAR requis.
- SetDifference UDF pour calculer définir la différence (par exemple A-B ou A-B-C).
Ce qui est nouveau dans la version 1.1.0:.
- Ajout SHA hash UDF
- InUDF et AssertUDF ajoutés pour Pig compatibilité 0,12. Ce sont les mêmes que dans et Assert.
- SimpleRandomSample, qui met en œuvre un algorithme simple d'échantillonnage aléatoire évolutive.
Commentaires non trouvées