mrjob

Logiciel capture d'écran:
mrjob
Détails logiciels:
Version: 0.4
Date de transfert: 20 Feb 15
Développeur: David Marin
Licence: Gratuit
Popularité: 66

Rating: 2.0/5 (Total Votes: 2)

mrjob est un module Python qui vous aide à écrire et exécuter emplois Hadoop streaming.
mrjob soutient pleinement Elastic MapReduce (EMR) le service d'Amazon, qui vous permet de gagner du temps sur un cluster Hadoop sur une base horaire. Il travaille également avec votre propre cluster Hadoop.
Installation:
python setup.py install
Mise en place de DME sur Amazon
& Nbsp; * créer un compte Amazon Web Services: http://aws.amazon.com/
& Nbsp; * vous inscrire à Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Obtenez votre accès et les clés secrètes (aller à http://aws.amazon.com/account/ et cliquez sur "Lettres de créance de sécurité») et définir les variables d'environnement $ AWS_ACCESS_KEY_ID et AWS_SECRET_ACCESS_KEY $ conséquence

Essayez-le!

# Localement
python mrjob / examples / mr_word_freq_count.py README.md> Chiffres
# Sur le DME
python mrjob / examples / mr_word_freq_count.py README.md -r emr> Chiffres
# Sur votre cluster Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> Chiffres
Configuration avancée
Pour exécuter dans d'autres régions AWS, télécharger votre arbre source, lancez make, et utiliser d'autres fonctions de mrjob avancées, vous aurez besoin de mettre en place mrjob.conf. mrjob cherche son fichier de conf:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf ne importe où dans votre $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Voir mrjob.conf.example pour plus d'informations

Caractéristiques :.

  • travaux se exécutent sur EMR, votre propre cluster Hadoop, ou localement (pour les tests).
  • Ecrire emplois multi-étapes (une carte-étape réduire alimente la prochaine)
  • Dupliquer votre environnement de production à l'intérieur Hadoop
  • Téléchargez votre arbre source et le mettre dans votre travail de $ PYTHONPATH
  • Exécuter et autre configuration scripts
  • variables d'environnement définies (par exemple $ TZ)
  • installer facilement des paquets de python à partir des archives (EMR seulement)
  • Configuration gérés de manière transparente par le fichier de configuration mrjob.conf
  • interpréter automatiquement les journaux d'erreurs de DME
  • tunnel SSH pour tâche d'Hadoop tracker sur EMR
  • Configuration minimale
  • Pour exécuter le DME, réglez $ et $ AWS_ACCESS_KEY_ID AWS_SECRET_ACCESS_KEY
  • Pour exécuter sur votre cluster Hadoop, définissez $ HADOOP_HOME

Exigences :

  • Python

Logiciel similaire

OplogReplay
OplogReplay

20 Feb 15

cloud-calculator
cloud-calculator

12 May 15

ClusterControl
ClusterControl

3 Jun 15

D'autres logiciels de développeur David Marin

doloop
doloop

11 May 15

Commentaires à mrjob

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!