DataCleaner est une open source et solution totalement gratuit pour les organisations et les entreprises qui souhaitent accroître et de mesurer la qualité de leurs données.
Avec DataCleaner, les utilisateurs seront en mesure de profil, comparer, valider les données contre les règles de gestion, et de surveiller la progression de ces mesures dans le temps.
Parmi ses caractéristiques, on peut citer la surveillance des données, le profilage et analyse des données DQ, nettoyage des données et d'enrichissement, de détecter et de fusionner les doublons, la qualité des données des clients, ainsi que ETLightweight ultra-rapide (Extract-Transform-Load).
Pour en savoir plus sur les fonctions et les capacités de DataCleaner, ainsi que la façon de travailler avec elle, s'il vous plaît se référer à http://eobjects.dk/docs
What est nouveau dans cette version:
- améliorations et nouvelles fonctionnalités:
- Nous avons fait possible de créer et de supprimer des tables via l'interface utilisateur de bureau de DataCleaner. Notez que le terme & quot; Table & quot; ici couvre en fait plus que les tables de base de données relationnelles juste. Il comprend également des feuilles dans les banques de données MS Excel, Collections dans MongoDB, les types de documents dans CouchDB et ElasticSearch et ainsi de suite ... Fondamentalement, tous les types de banques de données qui prennent en charge les opérations d'écriture-datastores, sauf une seule table, tels que les banques de données CSV, en charge cette fonctionnalité! La fonctionnalité est exposée via:
- & quot; Créer la table & quot; activé via le menu contextuel des schémas dans l'arborescence sur le côté gauche de l'application.
- & quot; Créer la table & quot; permis également via les entrées de table de sélection dans des composants tels que Insérer dans le tableau, le tableau recherche et table de mise à jour.
- & quot; & quot tableau goutte; activé via le menu contextuel des tables dans l'arborescence sur le côté gauche de l'application.
- Nous avons ajouté (en option) la capacité de spécifier votre service Web Salesforce.com Endpoint URL. Cela vous permet d'utiliser DataCleaner pour se connecter à des environnements de sandbox de Salesforce.com et à vos propres paramètres personnalisés.
- Le soutien ElasticSearch a été améliorée, ce qui permet des mappages personnalisés ainsi que la réutilisation des définitions de datastore ElasticSearch maintenant aussi pour la recherche et l'indexation.
- L'échantillonnage des dossiers et la sélection des doublons potentiels dans la fonction de détection en double a été améliorée, conduisant à une configuration plus rapide parce que les décisions prises au cours de la session de formation sont plus représentatifs.
- Le format de fichier de modèle de détection en double a été mis à jour qui a supprimé la nécessité d'un fichier de «référence» séparée pour sauver les décisions de formation passées. Compatibilité avec l'ancien format a été retenu, mais en utilisant le nouveau format ajoute de nombreux avantages pour l'expérience de l'utilisateur.
- Bugfixes:
- Une question fil de la faim a été fixé dans le moniteur DataCleaner. L'impact de cette question était grande, mais il est arrivé que dans des cas rares et très personnalisés. Si l'auditeur personnalisé des objets sur l'écran DataCleaner jetterait une erreur, il en résulterait une ressource ne jamais être libéré et en prenant un fil de la piscine Quartz-horaire sur le serveur. Si cela se produirait de nombreuses fois le serveur pourrait éventuellement manquer de discussions dans ce pool.
- Le menu vertical sur l'écran de résultat est en train de faire un bon travail d'afficher les étiquettes des composants qui ont des résultats. Cela rend plus facile de reconnaître quel élément de menu des points à ce résultat article.
Ce qui est nouveau dans la version 3.5.5:
- La transformation 'Synonyme recherche' a maintenant une option pour rechercher tous les signes de l'entrée. Ceci est utile si vous faites le remplacement des synonymes dans les valeurs d'un champ de texte long.
- Blocage exécution de travaux DataCleaner par le service Web du moniteur pour cela pourrait parfois échouer avec un bug causé par le fil de blocage. Ce problème a été corrigé.
- Une amélioration a été faite dans la façon dont les emplois et la séquence des composants sont fermés / nettoyé après l'exécution.
- La JNLP / version Java WebStart de DataCleaner a été exposé par un bogue dans le runtime Java causant certains fichiers ne pas être reconnus par le lanceur de WebStart JAR, dans certaines circonstances. Ce problème a été résolu en faisant de légères modifications à ces fichiers JAR.
- Quelques liens morts dans la documentation a été fixé.
Ce qui est nouveau dans la version 3.5.4:
- Il est maintenant possible de masquer les colonnes de sortie des transformations . Hiding ne sera pas affecter le flux de traitement du tout, mais simplement les cacher à l'interface utilisateur, et donc potentiellement rendre l'expérience plus propre, lors de l'interaction avec d'autres composants.
- Un nouveau service web a été ajouté à l'application de surveillance Web, qui fournit un moyen pour interroger l'état de l'exécution d'une tâche particulière.
- Un bug a été corrigé, ce qui provoque le rapport HTML à l'échec pour certains types d'analyse quand aucun enregistrement avaient été traitées.
- Et 6 autre bug mineur a été adressé.
Ce qui est nouveau dans la version 3.5.1:
- Capturer changé enregistrements:
- Un nouveau filtre a été ajouté pour permettre le traitement incrémentiel des enregistrements qui ne sont pas traitées avant, par exemple pour le profilage ou la copie des documents que modifié. Le nom des nouveaux filtres est Capturer changé les enregistrements, se référant à la notion de capture de données modifiées.
- exécution en attente d'emplois:
- Le moniteur DataCleaner maintenant la file d'attente de l'exécution du même travail, si elle est déclenchée à plusieurs reprises. Cela garantit que vous ne lancez accidentellement pas le même travail en même temps ce qui peut conduire à toutes sortes de questions, en fonction de ce que le travail fait.
- bugfixes mineurs:
- Plusieurs corrections de bugs a été mis en œuvre.
Ce qui est nouveau dans la version 3.5:
- Plusieurs assistants sont maintenant disponibles pour l'enregistrement datastores; y compris de téléchargement de fichier sur le serveur pour les fichiers CSV, entrée de connexion de base de données, l'enregistrement guidée des titres de compétences Salesforce.com et plus encore.
- Les assistants de construction de l'emploi ont également été étendues avec plusieurs fonctionnalités améliorées; Sélection de la distribution de la valeur et le modèle de trouver des champs dans l'assistant d'analyse rapide, un tout nouvel assistant pour la création EasyDQ emplois de nettoyage à la clientèle sur la base et un nouvel assistant d'emploi pour le tir d'emplois Pentaho Data Integration (lire la suite ci-dessous).
- Vous pouvez maintenant ad-hoc interroger un datastore directement dans l'interface utilisateur Web. Cela rend plus facile d'obtenir un aperçu rapide ou sporadique dans les données sans la mise en place d'emplois ou d'autres approches gérées de traitement des données.
- Une fois les emplois ou les banques de données sont créés, l'utilisateur est guidé à prendre des mesures avec l'objet nouvellement construit. Par exemple, vous pouvez très rapidement exécuter un travail juste après il est construit, ou interroger un datastore après son enregistrement.
- Les administrateurs peuvent désormais télécharger directement des emplois dans le dépôt, ce qui est particulièrement pratique si vous souhaitez modifier manuellement le contenu XML des fichiers de travail.
- Une grande partie du cruft technique est maintenant caché en faveur de montrer des dialogues simples. Par exemple, quand un travail est déclenché un grand indicateur de chargement est affiché, et lorsque vous avez terminé le résultat sera affiché. L'écran de journalisation avancée qui était auparavant il peut encore être affiché lorsque vous cliquez sur un lien pour plus de détails.
Ce qui est nouveau dans la version 3.1.2:
- Nous avons ajouté un service Web dans le suivi l'application pour obtenir une (liste de valeurs) métriques. Cela rend le contrôle encore plus utilisable comme un élément clé de l'infrastructure, comme un moyen de surveiller les données (qualité) et d'exposer les résultats à des applications tierces.
- La composante «recherche Table» a été améliorée par l'ajout de rejoindre la sémantique comme une propriété configurable. Utilisation de la jointure sémantique vous pouvez modifier si vous souhaitez que la recherche fonctionne sémantiquement comme un LEFT JOIN ou un INNER JOIN.
- Les composants EasyDQ ont été mis à jour, l'ajout d'autres options de configuration et une interface de résultat de la déduplication plus riche.
- Amélioration des performances ont été un thème spécifique de cette version. Des améliorations ont été apportées dans le moteur de DataCleaner à utiliser en outre une approche de traitement en continu dans certains cas d'angle qui n'a pas été couvert précédemment.
Ce qui est nouveau dans la version 3.1.1:
- La date et l'heure liées à des options d'analyse ont été élargis , en ajoutant des analyseurs de distribution pour les numéros de semaine, des mois et des années. Tous les analyseurs liés à la date et l'heure sont désormais regroupées au sein d'un sous-menu appelé & quot; Date et heure & quot; sous & quot; Analyse & quot;.
- Une option & quot; & quot statistiques descriptives; option a été ajoutée à l'analyseur de numéro et la date / heure analyseur. Cette option ajoute des paramètres supplémentaires pour les résultats de ces analyseurs, comme médian, Asymétrie, percentiles et Kurtosis. Ces paramètres sont facultatifs depuis leur empreinte mémoire est un peu plus grande que les mesures existantes.
- Les lignes dans les tableaux de la chronologie de l'application Web de surveillance ont maintenant des petits points en eux. Ceci est particulièrement utile pour les cartes avec quelques (ou même un seul) observations en eux -. Pour pointer exactement où les points d'observation sont
- L'analyseur de requête lors de l'appel des requêtes ad-hoc ont également été considérablement améliorée. les requêtes peuvent maintenant contiennent des clauses DISTINCTS, * -wildcards, et les sous-requêtes sont à tolérance de pannes vers les questions de texte cas.
- Deux nouveaux transformateurs ont été ajoutées pour générer UUID et pour générer des horodateurs.
Ce qui est nouveau dans la version 3.1:
- formules métriques - élaborées Qualité des données KPI:
- Il est maintenant possible de construire beaucoup plus d'élaborer la qualité des données KPI dans l'application web de suivi de DataCleaner. L'interface utilisateur vous permet de construire des formules complexes dans un style de formule tableur; en utilisant des variables collectées par des emplois DataCleaner.
- formules métriques peut combiner un certain nombre de mesures, les constantes et les opérations, tant qu'elle peut être exprimée dans une équation mathématique.
- Par exemple - mesurer le taux d'enregistrements en double en pourcentage de la nombre total d'enregistrements. Ou mesurer la quantité de codes de produits qui sont conformes à un ensemble de multiples modèles de chaîne.
- Ad-hoc interrogation - de tout datastore:
- Avec DataCleaner 3.1, vous pouvez désormais effectuer des requêtes ad-hoc à tout datastore! Les requêtes peuvent être exprimées en SQL simple et seront appliqués à des bases de données ainsi que des fichiers, des bases de données NoSQL et plus, fournissant un mécanisme de requête vraiment utile d'étendre dans votre expérience de découverte et des données de profilage.
- L'option de requête est également disponible via un service Web pour les utilisateurs de suivi avec le rôle ADMIN. La requête est fournie en tant que paramètre de HTTP ou POST corps, et le résultat est fourni sous forme de table XHTML.
- Valeur matcher - une nouvelle option d'analyse:
- Souvent, vous avez une idée solide sur laquelle les valeurs doivent être autorisées et attendues pour un domaine particulier. En DataCleaner il y a toujours eu l'option d'analyse Valeur de distribution qui vous aiderait faire valoir vos hypothèses. Dans DataCleaner 3.1 cependant, vous avez une offre plus précise - la valeur matcher. Cette option d'analyse vous permet de spécifier un ensemble de valeurs attendues, puis effectuez une distribution des valeurs comme l'analyse, en particulier pour valider et identifier des valeurs inattendues.
- Copie, suppression et la gestion des emplois:
- Gestion des emplois et des résultats dans l'application du moniteur DataCleaner a été grandement améliorée. Vous pouvez maintenant cliquer sur un emploi dans la page de planification de l'écran, et de trouver des options de gestion disponibles pour des opérations telles que le renommage, la copie, la suppression et plus. Chaque opération respecte les liens avec d'autres objets dans l'écran, tels que les résultats d'analyse, les horaires et plus. Cela signifie que la gestion du référentiel de surveillance est devenu beaucoup plus facile et mature.
- Gérer l'historique de la qualité des données:
- Parfois, vous êtes confronté à des situations où vous voulez réellement faire le suivi avec les données historiques! Il serait peut-être que vous avez des sauvegardes historiques ou des sauvegardes de bases de données, que vous souhaitez montrer et raconter l'histoire de. Vous pouvez maintenant faire l'analyse de ces données historiques, le télécharger sur le moniteur DataCleaner, et en utilisant un nouveau service web, définissez des données historiques de ce résultat d'analyse particulier. Cela signifie que vos échéances seront correctement tracer les résultats en utilisant leur date prévue, mais avec les résultats que vous avez recueillis peut-être à un moment ultérieur.
- le soutien du planificateur en cluster (EE seulement):
- Le planificateur de moniteur DataCleaner a été extériorisée, de sorte qu'il peut être remplacé par les moyens de configuration simple. Dans l'Enterprise Edition (EE) de DataCleaner, nous fournissons un planificateur en cluster, offrant la possibilité d'équilibrer la charge et distribuer vos exécutions sur un cluster de machines.
- Single-signon (SSO) en utilisant CAS (EE seulement):
- Dans l'Enterprise Edition (EE) de DataCleaner nous offrons maintenant une option mono-signon pour l'application du moniteur. Maintenant DataCleaner peut être une partie intégrante de votre infrastructure informatique, aussi la sécurité-sage.
- ... Et beaucoup plus:
- Ce qui précède est juste un résumé. Plus de trente problèmes ont été résolus dans cette version. Nous avons résolu plusieurs demandes en provenance des forums et de la communauté, et nous encourageons tout le monde à utiliser ce moyen comme un véhicule pour le changement. Nous sommes très heureux de faire le développement de DataCleaner être fortement influencé par les cours d'eau dans la communauté.
Ce qui est nouveau dans la version 3.0.3:
- Ajoute un service pour renommer des emplois dans le référentiel de surveillance .
- Vous pouvez accéder à ce qu'un service Web RESTful ou de manière interactive dans l'interface utilisateur.
- Un service Web a été ajouté pour changer la date historique d'un résultat d'analyse dans le référentiel de surveillance.
- L'application Web a été rendue compatible avec les conteneurs héritage JSF.
- Caching de configuration dans l'application Web a été grandement améliorée, conduisant à la page plus rapide chargement et d'initialisation de l'emploi fois.
Ce qui est nouveau dans la version 3.0.2:
- Lorsque le déclenchement d'un emploi dans l'application Web de surveillance, le panneau auto-rafraîchit chaque seconde pour obtenir le dernier état de l'exécution.
- datastores basés sur des fichiers (tels que CSV ou Excel des feuilles de calcul) avec des chemins absolus sont maintenant correctement résolus dans l'application web monitoring.
- Le & quot; Choisissez parmi clé / valeur map & quot; Transformer supporte maintenant expressions select imbriquées comme & quot; Address.Street & quot; ou & quot; les lignes de commande [0] .product.name & quot;.
- Le mécanisme table de consultation ont été optimisés pour une performance, en utilisant des instructions préparées lors de l'exécution des bases de données JDBC.
- Les administrateurs peuvent maintenant télécharger datastores à base de fichiers directement à partir du & quot; Datastores & quot; page.
- La gestion des exceptions dans l'application de surveillance Web a été amélioré un peu, ce qui rend les messages d'erreur plus précise et intuitive.
Ce qui est nouveau dans la version 3.0.1:
- La bugfix principale de cette version était de restaurer la la cartographie des colonnes et des catégorisations énumérables spécifiques. Par exemple, dans le nouvel analyseur de complétude, nous avons constaté que, après le rechargement d'un travail sauvegardé, le mappage n'a pas toujours correct.
- En outre quelques améliorations internes ont été faites, ce qui rend plus facile à déployer l'application Web de moniteur DataCleaner dans des environnements utilisant le framework Spring.
- Last but not least, les paramètres de visualisation dans l'application de bureau ont été améliorées en prenant automatiquement un regard sur le travail étant visualisés et basculement affiche des artefacts en fonction de la taille de l'écran et la quantité de détails nécessaires pour montrer bien.
Ce qui est nouveau dans la version 3.0:
- Affichage de la chronologie et les tendances des indicateurs de la qualité des données
- Référentiel centralisé pour la gestion et contenant des emplois, les résultats, les calendriers, etc.
- Planification et vérification des emplois DataCleaner
- Fourniture de services Web pour appeler des transformations DataCleaner
- Sécurité et multi-location
- Alertes et notifications lorsque des mesures de la qualité des données sont hors de leurs zones de confort attendues.
- Il y a un nouvel analyseur de complétude qui est très utile pour identifier simplement les enregistrements qui ont des champs incomplets.
- Vous pouvez maintenant exporter DataCleaner résultats au beau rapports HTML que vous pouvez donner à votre gestionnaire, ou envoyer à votre analyseur XML!
- Le nouvel environnement de surveillance est également étroitement intégré à l'application de bureau. Ainsi, l'application de bureau a maintenant la possibilité de publier des emplois et des résultats sur le moniteur référentiel, et d'être utilisé comme un éditeur interactif pour le contenu déjà dans le référentiel.
- De nouvelles transformations axées sur la date sont maintenant disponibles: filtre Date de gamme, qui vous permet de sous-ensemble des ensembles de données basés sur des plages de dates, et la date de format, ce qui permet de formater une date en utilisant un masque de date .
- Le Regex Parser (qui était auparavant disponible uniquement à travers le ExtensionSwap) a été inclus dans DataCleaner. Cela rend très pratique pour analyser et normaliser riches champs de texte utilisant des expressions régulières.
- Il y a un nouveau cas transformateur de texte disponible. Avec cette transformation, vous pouvez facilement convertir entre majuscules / minuscules et la bonne capitalisation des phrases et des mots.
- Deux nouvelles recherche / remplacement des transformations ont été ajoutées:. Recherche Plaine / remplacer et recherche Regex / remplacer
- L'expérience utilisateur de l'application de bureau a été amélioré. Nous avons ajouté plusieurs messages dans l'application d'aide, faites les couleurs semblent plus lumineux et plus clair et amélioré la gestion des polices.
Ce qui est nouveau dans la version 2.5.2:
- Support Apache CouchDB:
- Nous avons ajouté le support pour la base de données NoSQL Apache CouchDB. DataCleaner prend en charge la lecture, l'analyse et l'écriture dans vos instances CouchDB.
- Tableau de mise à jour écrivain:
- Suite à nos précédents efforts pour apporter des fonctionnalités ETLightweight de style en DataCleaner, nous avons ajouté un écrivain qui met à jour des enregistrements dans une table. Vous pouvez utiliser ceci par exemple pour insérer ou mettre à jour les dossiers en fonction des conditions spécifiques.
- Comme l'insertion dans la table écrivain, le nouveau DataCleaner Update Table écrivain ne se limite pas aux bases de données SQL, mais tout type de datastore qui supporte l'écriture (actuellement les bases de données relationnelles, fichiers CSV, des feuilles de calcul Excel, bases de données MongoDB et bases de données MongoDB), mais la sémantique sont les mêmes que d'une instruction UPDATE TABLE traditionnelle dans SQL.
- Perceuse à détail des informations enregistrées dans les fichiers de résultat:
- Lorsque vous utilisez le résultat Enregistrer caractéristique de DataCleaner 2.5, certains utilisateurs expérimentés que leurs informations de forage à détail a été perdu. Dans DataCleaner 2.5.2 nous maintenant persistons également ces informations, ce qui rend vos archives DQ beaucoup plus précieux lors d'enquêtes sur les incidents historiques de données.
- la gestion des erreurs EasyDQ Amélioration:
- Les composants EasyDQ ont été améliorées en termes de gestion des erreurs. Si un problème de réseau momentanée ou d'une autre question similaire provoque quelques enregistrements à l'échec, les composants EasyDQ vont maintenant récupérer gracieusement et surtout -. Votre travail par lots prévaudra même en dépit d'erreurs
- cartographie de table pour datastores NoSQL:
- Depuis CouchDB et MongoDB ne sont pas de table à base, mais ont une structure plus dynamique, nous proposons deux approches pour travailler avec eux: La valeur par défaut, qui est de laisser DataCleaner détecter automatiquement une structure de table, et avancé qui vous permet de spécifier manuellement votre structure de la table souhaitée. Auparavant, l'option avancée était uniquement disponible via la configuration XML, mais maintenant l'interface utilisateur contient des boîtes de dialogue appropriées pour ce faire directement dans l'application.
Ce qui est nouveau dans la version 2.4.1:
- améliorations de fonction:
- caractéristiques lot de chargement nous a grandement amélioré lors de l'écriture des données aux tables de base de données. Attendez-vous à voir de nombreuses commandes d'améliorations de magnitude ici.
- L'écriture des données a été plus facilement mis à la disposition en ajoutant les options du menu de la fenêtre.
- Vous pouvez maintenant facilement renommer les composants d'un travail en double cliquant sur leurs onglets.
- Le transformateur Javascript a maintenant la coloration syntaxique, de sorte que vos Javascripts sont plus faciles à inspecter et modifier.
- Bugfixes:
- Lors de la lecture et l'écriture sur le même datastore (par exemple. La zone de transit de DataCleaner), nous avons fait en sorte que le cache de table de cette banque de données est actualisée. Auparavant, certains scénarios ont permis de voir une vue out-of-date des tables.
- Un éventuel blocage lors du démarrage de l'application a été résolu. Cette impasse est une conséquence d'un problème dans la JVM, mais nous avons travaillé autour d'elle en synchronisant tous les appels à l'API notamment en Java.
Ce qui est nouveau dans la version 2.4: (. Aka Deduplication ou fuzzy matching d'enregistrements)
- La détection des doublons , qui est libre d'utiliser jusqu'à 500.000 valeurs.
- la validation des données d'adresse et de nettoyage. Cela vous permet de vérifier si les adresses existent, si elles sont correctement formatées et même de suggérer des corrections dans le cas où vous avez des erreurs.
- la validation des données Nom et nettoyage. Avec le service de nom, EasyDQ ne formate pas seulement vos noms constamment, mais vérifie également les fautes d'orthographe et interprète les parties du nom.
- Email et validation de téléphone et de nettoyage. Ces services fournissent la vérification des données de courrier électronique et téléphone, veillant à ce que les domaines de messagerie existent, que les codes de pays sont corrects et bien plus encore.
Ce qui est nouveau dans la version 2.3:
- Support de données International:
- Si vous travaillez avec des données internationales, alors vous pourriez avoir différents jeux de caractères dans vos données, par exemple chinois ou en hébreu. Nous avons ajouté l'analyseur de distribution de jeu de caractères, ce qui est une option de profilage qui vous permet de comprendre ce qui les jeux de caractères sont utilisés dans vos données.
- Travailler avec des données contenant différents jeux de caractères peut être problématique. En utilisant le nouveau transformateur Transliterate vous pouvez maintenant translittération chaînes de différents systèmes d'écriture en caractères latins.
- Il y a aussi une nouvelle démonstration webcast, en mettant l'accent sur les capacités de données internationales de DataCleaner 2.3 dans la section documentation.
- Regroupement des résultats d'analyse par une colonne secondaire:
- L'analyseur de modèle est maintenant en mesure de modèles de groupe basé sur une colonne secondaire. Ceci est utile pour des analyses comme:
- Obtenir des modèles de numéros de téléphone, regroupés par pays.
- Obtenir des modèles de courrier électronique basés sur le nom d'utilisateur email domaine.
- Quelque chose de semblable a été fait pour l'analyseur Valeur de distribution; ce qui permet des analyses telles que:
- tous les noms de ville sont distincts, lorsque regroupés par code postal?
- Quelle est la répartition des sexes au sein de certains types de clients?
- graphiques améliorés:
- Les résultats Motif finder peuvent maintenant être présentés dans un tableau. Cela rend la distribution visible et montre à quel point d'un & quot; longue queue & quot; des motifs, il est.
- La sortie de l'analyseur de distribution de valeur a été améliorée dans quelques domaines:
- La lisibilité de la carte a été améliorée.
- Il indique le nombre total de lignes et le nombre distinct sur ces lignes: le nombre de valeurs différentes qui existent dans les lignes. Cela aide à déterminer à quelle fréquence les valeurs en double existent.
- S'il y a des chaînes vides, nous utilisons le mot-clé pour elle, de sorte qu'il est plus facile de les reconnaître.
- Sortie:
- Suivant les formats déjà existants de sortie (fichiers CSV et datastores H2), nous avons ajouté l'écriture sortie des feuilles de calcul Excel.
- Après l'écriture d'un datastore, il est désormais possible de prévisualiser la sortie, de sorte que vous pouvez vérifier si la sortie est en fonction de vos attentes.
- Il est maintenant également possible d'ajouter la sortie en tant que nouveau datastore, de sorte qu'il peut être utilisé comme entrée pour un nouvel emploi.
- Autres améliorations:
- Documentation a été généralement améliorée. En particulier, les descriptions de l'exploitation forestière et de l'interface de ligne de commande ont été ajoutés.
- Le mécanisme d'extension a été améliorée par modularisation plusieurs morceaux de l'application et l'introduction de Google Guice en tant que cadre de l'injection de dépendance généralement disponible pour les développeurs d'extension.
- Et bien sûr, nous avons fait plus de vingt petites améliorations et corrections de bugs.
Ce qui est nouveau dans la version 2.2:
- Le principal moteur de cette version a été une histoire sur l'extensibilité . Tout en libérant l'application que nous publions simultaniously un site Web une nouvelle DataCleaner qui dispose d'une importante nouvelle zone: Le ExtensionSwap. L'idée de la ExtensionSwap est de permettre le partage des extensions à DataCleaner et l'installation en cliquant simplement sur un bouton dans le navigateur!
- L'API d'extension DataCleaner a été beaucoup amélioré dans cette version, ce qui permet de créer vos propres transformateurs, analyseurs et filtres. Si vous sentez que vos extensions pourraient être d'intérêt pour les autres utilisateurs, s'il vous plaît le partager sur le ExtensionSwap et nous fournissons un canal pour vous de distribuer facilement à des milliers d'utilisateurs. L'API d'extension et ExtensionSwap est en outre expliqué dans notre nouvelle démonstration de webdiffusion pour les développeurs et autres techniciens ayant un intérêt.
- Nous sommes également la libération d'un ensemble d'extensions initiales sur le ExtensionSwap: Les contacts HiQuality pour l'extension DataCleaner qui fournit Nom avancée, téléphone et e-mail de nettoyage, sur la base des services Web traitement DQ en langage naturel Inférences humain. Nous sommes également expédions une extension de l'échantillon qui servira d'exemple pour les développeurs qui veulent essayer le développement d'extensions eux-mêmes. Dans les mois à venir, nous ferons en sorte de publier encore plus extensions provenant de notre portefeuille interne d'outils que nous utilisons à des équipes de collecte de connaissances de Human Inference.
- En plus de l'extensibilité, nous nous concentrons également sur plongeabilité. Nous voulons être en mesure d'intégrer DataCleaner facilement dans d'autres applications pour faire le profilage et l'analyse de données possible partout! Nous avons créé une nouvelle API d'amorçage qui permet aux applications de regrouper DataCleaner et bootstrap avec une configuration dynamique ou l'exécuter dans un & quot; seul mode & quot datastore ;, où la demande est accordée à tout inspecter un seul datastore (généralement défini par l'application qui incorpore DataCleaner). Nous avons déjà quelques cas très intéressants de l'intégration DataCleaner dans les œuvres -. À la fois dans d'autres applications open source, ainsi que des applications commerciales
- Nous avons ajouté le support pour l'analyse des ensembles de données SAS. Ceci est quelque chose que nous sommes très fiers que nous sommes, à notre connaissance, la première application majeure open source pour fournir une telle fonctionnalité, finalement libérer un grand nombre d'utilisateurs SAS. La partie d'interopérabilité SAS a été créée comme un projet distinct, SassyReader, donc nous nous attendons à voir l'adoption dans les communautés gratuits open source de DataCleaner bientôt aussi!
- Nous avons également ajouté le support pour un autre type de datastore: Correction des fichiers de largeur. fichiers largeur fixes sont des fichiers texte où chaque colonne a une largeur fixe. Il n'y a pas de séparateur ou une citation de caractère, comme des fichiers CSV, au lieu de chaque ligne sont égaux en longueur et chaque ligne sera segmenté selon un ensemble de longueurs de valeur.
- Une option & quot; échouer sur des incohérences & quot; a été ajouté à un fichier CSV et datastores de fichiers largeur fixe. Ces drapeaux ajouter un contrôle d'intégrité de format lors de l'utilisation de ces banques de données à base de fichiers texte.
- Un bug a été corrigé, ce qui a provoqué des paramètres de séparation CSV ne pas être retenus dans l'interface utilisateur, lors de l'édition d'un datastore CSV.
- les caractères japonais et d'autres ne sont pas pris en charge dans l'interface utilisateur. This & quot; bug & quot; était une question d'enquêter sur les polices disponibles sur le système et la sélection d'une police qui peut rendre les caractères particuliers. Sur la plupart des systèmes modernes, il y aura des polices capables disponibles, mais sur certaines branches Unix / Linux, il pourrait encore y avoir des limites.
- La section de documentation a été mise à jour! Depuis la première version 2.0 de la documentation ont été loin derrière, mais nous avons finalement réussi à l'obtenir à jour. Il y a encore des pièces manquantes dans la documentation, mais il devrait certainement être utile pour l'utilisation de base ainsi qu'une référence pour la plupart des sujets.
- temps de démarrage de l'application a été améliorée par la parallélisation de la configuration de chargement et en retardant l'initialisation de ces parties de la configuration qui ne sont pas nécessaires à l'affichage initial de la fenêtre.
- La phonétique similitude finder analyseur ont été retirés de la distribution principale, comme cela était tout à fait expérimental et sert la plupart du temps comme une preuve de concept et un apéritif à la communauté pour créer des analyseurs correspondants plus avancés. Vous pouvez maintenant trouver et installer la similitude phonétique sur le finder ExtensionSwap.
- Annulés ou la manipulation errornous du travail a été amélioré et l'interface utilisateur répond plus correctement par des boutons et des indicateurs de progrès désactivant, si un travail est arrêté.
- Correction de quelques problèmes d'interface mineures relatives à la table de dimensionnement et l'utilisation des barres de défilement.
Ce qui est nouveau dans la version 2.1.1:
- Améliorations:
- Ajout d'un champ de texte de recherche / filtrage sur la liste des banques de données. Cela vous permet de trouver rapidement votre datastore si vous avez enregistré plus datastores que disponible sur l'écran.
- Les données de référence pour les codes de pays a été ajouté à la distribution standard, merci à Graham Rhind pour fournir ceux-ci.
- Ajout d'une barre de défilement horizontale pour les données de prévisualisation des fenêtres d'il y a plus de 10 colonnes.
- Possibilité d'ajouter un paquetage d'extension avec de nouvelles fonctionnalités dans la boîte de dialogue Options à l'exécution. Plus d'accent sur les extensions suivra dans les prochaines versions.
- Nous avons exposé un aperçu rapide de notre ligne de commande Interface (CLI) en vous permettant d'invoquer l'application avec le & quot; -usage & quot; paramètre qui affiche les options de la CLI.
- Options de formatage Numéro Ajout de la & quot; Convert to Number & quot; transformateur.
- Bugfixes:
- Correction d'un problème hors de la mémoire lors de l'interrogation des tables avec beaucoup de colonnes (150 +).
- Correction d'un problème qui cause le & quot; Analyse limite & quot; case à cocher pour ne pas être vérifié correctement lorsqu'un travail a été ré-ouvert après l'enregistrement.
- Pas vraiment un bugfix car il n'a jamais été une caractéristique officielle, mais maintenant, nous soutenons la restauration de préférences de l'utilisateur (le fichier de userpreferences.dat) des versions précédentes de DataCleaner.
Ce qui est nouveau dans la version 2.1:
- Il y avait beaucoup de travail effectué sur l'interface utilisateur ( voir page des médias):
- Nous avons décidé de retirer la vitre latérale de gauche contenant les options de configuration de l'environnement.
- Au lieu de toutes ces options ont maintenant été déplacé vers la fenêtre du bâtiment de l'emploi afin que l'utilisateur ne dispose que de se concentrer sur un guichet unique pour toutes les interactions nécessaires à la construction d'un emploi.
- La boîte de dialogue de bienvenue / login a également été supprimée en faveur d'un panneau plus discret qui peut être tiré ou caché de la fenêtre principale.
- sélection et la gestion Datastore est considérée comme la première activité dans l'application, ce qui explique pourquoi elle est aussi la première étape pour gérer dans la fenêtre principale.
Commentaires non trouvées