miércoles, 24 de julio de 2013

Instalación de Hadoop



La instalación de Hadoop es un poco más tediosa. Hadoop tiene distribución para Windows pero es más recomendable instalarlo en Linux, entre otras cosas, porque funciona de forma más rápida, fiable y su instalación es más limpia.
Para proceder a la instalación descargaremos el software de la web oficial de Hadoop http://hadoop.apache.org/
 


Una vez hemos descargado el fichero “hadoop-1.1.1-bin.tar.gz” crearemos una carpeta “Hadoop” dentro del directorio “c:\cygwin\usr\local”.




En este directorio descomprimimos el contenido del fichero “hadoop-1.1.1-bin.tar.gz”, una vez descomprimido, dentro del directorio “conf” podemos observar que tenemos el fichero “hadoop-env.sh”. Este archivo es el que contiene la configuración de Hadoop, en este caso vamos a modificar los parámetros para usar un nodo único y se podrían personalizar muchas otras opciones (que investigaremos en un futuro).
Lo primero que hay que configurar en el fichero es la ruta de acceso a Java (que hemos instalado al principio del trabajo), para ello modificaremos el valor de la Variable “JAVA_HOME” con nuestro directorio “c:\\java\\jre” y además quitamos la almohadilla “#” de comentario de inicio de la línea para activar el parámetro.
Nota: Dado que “\” es un carácter especial por eso agregamos una “\” más en cada nivel para que la ruta sea reconocida correctamente.


Guardamos los cambios y probamos que realmente funciona Hadoop, para ello seguimos los siguientes pasos:
·         Paso 1: Abriremos una Shell de cygwin
·         Paso 2: En esta Shell navegamos por el directorio hasta llegar a “/usr/local/hadoop” (que es el directorio de instalación de Hadoop)
·        
Paso 3: Ejecutamos la orden “bin/hadoop version”.


Comprobamos que el mensaje que nos devuelve es la información de la versión de Hadoop (Hadoop 1.1.1), lo que nos permite asegurar que Hadoop está activo.

Una vez llegado a este punto el sistema está preparado con ambas herramientas instaladas (MongoDb y Hadoop) de una manera básica, a partir de aquí ya se puede evolucionar en la mejora de configuración y ampliación de ambas herramientas, se podrían aprovechar las capacidades de Hadoop para trabajar en clusters replicados.
Para ello podemos apoyarnos en toda la documentación y guías disponibles en la web algunas de la cuales reflejamos en la bibliografía adjunta.

No hay comentarios:

Publicar un comentario

Esperando tu comentario...