Ensalada de Bits: Hadoop

Bibliografia Haddop y MongoDB

Para la realización del trabajo se han consultado las siguientes fuentes de información.

· http://www.mongodb.org/downloads

· http://docs.mongodb.org/manual/MongoDB-Manual.pdf

· http://docs.mongodb.org/manual/tutorial/install-mongodb-on-windows/

· http://www.mongodb.org/display/DOCS/PHP+Language+Center

· http://us3.php.net/manual/en/mongo.installation.php

· http://dy3g0.wordpress.com/2008/12/09/activar-curl-en-windows/

· http://es1.php.net/curl

· http://blog.jam.net.ve/2011/01/09/usos-basicos-de-mongodb-console/

· http://blog.sqltrainer.com/2012/01/installing-and-configuring-apache.html

· http://hayesdavis.net/2008/06/14/running-hadoop-on-windows/

· http://hadoop.apache.org/docs/r0.20.2/quickstart.html

· http://www.taringa.net/posts/linux/15562479/Configuracion-de-OpenSSH-en-Windows-7-_SSH-Cygwin-_-Putty_.html

La instalación de Hadoop es un poco más tediosa. Hadoop tiene distribución para Windows pero es más recomendable instalarlo en Linux, entre otras cosas, porque funciona de forma más rápida, fiable y su instalación es más limpia.

Para proceder a la instalación descargaremos el software de la web oficial de Hadoop http://hadoop.apache.org/

Una vez hemos descargado el fichero “hadoop-1.1.1-bin.tar.gz” crearemos una carpeta “Hadoop” dentro del directorio “c:\cygwin\usr\local”.

En este directorio descomprimimos el contenido del fichero “hadoop-1.1.1-bin.tar.gz”, una vez descomprimido, dentro del directorio “conf” podemos observar que tenemos el fichero “hadoop-env.sh”. Este archivo es el que contiene la configuración de Hadoop, en este caso vamos a modificar los parámetros para usar un nodo único y se podrían personalizar muchas otras opciones (que investigaremos en un futuro).

Lo primero que hay que configurar en el fichero es la ruta de acceso a Java (que hemos instalado al principio del trabajo), para ello modificaremos el valor de la Variable “JAVA_HOME” con nuestro directorio “c:\\java\\jre” y además quitamos la almohadilla “#” de comentario de inicio de la línea para activar el parámetro.

Nota: Dado que “\” es un carácter especial por eso agregamos una “\” más en cada nivel para que la ruta sea reconocida correctamente.

Guardamos los cambios y probamos que realmente funciona Hadoop, para ello seguimos los siguientes pasos:

· Paso 1: Abriremos una Shell de cygwin

· Paso 2: En esta Shell navegamos por el directorio hasta llegar a “/usr/local/hadoop” (que es el directorio de instalación de Hadoop)

·
Paso 3: Ejecutamos la orden “bin/hadoop version”.

Comprobamos que el mensaje que nos devuelve es la información de la versión de Hadoop (Hadoop 1.1.1), lo que nos permite asegurar que Hadoop está activo.

Una vez llegado a este punto el sistema está preparado con ambas herramientas instaladas (MongoDb y Hadoop) de una manera básica, a partir de aquí ya se puede evolucionar en la mejora de configuración y ampliación de ambas herramientas, se podrían aprovechar las capacidades de Hadoop para trabajar en clusters replicados.

Para ello podemos apoyarnos en toda la documentación y guías disponibles en la web algunas de la cuales reflejamos en la bibliografía adjunta.

Instalando Cygwin

Como en el caso de Java la instalación no es objeto del trabajo solo daremos las indicaciones esenciales para guiarse.

Cygwin es un software que emula en Windows la consola de Linux. Podemos descargarlo de su página oficial http://www.cygwin.com/

La instalación es sencilla siguiendo las instrucciones

Durante el proceso de instalación (si es la primera vez que instalamos el software) nos puede salir este mensaje de aviso, en ese caso pulsaremos “aceptar” para continuar.

Una vez instalado cygwin se nos abre una ventana donde podemos ver un registro por líneas que corresponden a programas.

Para nuestro trabajo necesitamos instalar ssh y para ello seguiremos los siguientes pasos:

· Paso 1: En el cuadro “Search” teclearemos “ssh” y en la ventana nos aparecerá un árbol donde expandiremos la rama “Net”.

· Paso 2: Buscamos la librería openssh

·
Paso 3: Hacemos click sobre el símbolo “ “ varias veces y nos va mostrando las versiones que puede instalar, buscamos hasta que aparece la versión 6.1p1-1.

· Paso 4: Pulsamos en siguiente para continuar la instalación y nos saldrá la siguientes ventana.

· Paso 5: Pulsamos en siguiente para finalizar la instalación.

Una vez instalado el “ssh” hay que preparar el sistema para que pueda trabajar, para ello prepararemos el sistema para ello seguiremos los siguientes pasos:

· Paso 1: Abriremos una Shell de cygwin

· Paso 2: En esta Shell ejecutamos las siguientes instrucciones:

o chmod +r /etc/passwd

o chmod u+w /etc/passwd

o chmod +r /etc/group

o chmod u+w /etc/group

o chmod 755 /var

o touch /var/log/sshd.log

o
chmod 664 /var/log/sshd.log

Con esto conseguimos:

· Crear el fichero de log en la ruta necesaria para que lo pueda usar Hadoop.

· Que cygwin pueda crear un usuario con los permisos necesarios para Hadoop y que no tengamos problemas cuando lo instalemos.

Ahora necesitamos configurar el “ssh”, para ello ejecutamos la orden “ssh-host-config”.

Nota: hay que esperar un poco para que se muestre configurador, no es necesario volver a ejecutarlo.

El configurador nos hará varias preguntas a las que contestaremos de la siguiente forma:

· Query: Should privilege separation be used? à NO

· Query: Do you want to install sshd as a service? àYES

· Query: Enter the value of CYGWIN for the daemon: CYGWIN (el nombre es solo una etiqueta para reconocer el servicio lanzado en windows)

Nota: En caso que ya hayamos ejecutado el configurador anteriormente nos hará dos preguntas que contestaremos en base a lo que deseemos. En nuestro caso serían estas las respuestas.

· Query: Overwrite existing /etc/ssh_config file? (yes/no) à no

· Query: Overwrite existing /etc/sshd_config file? (yes/no) à no

El configurador nos sigue haciendo preguntas para la configuración:

· Query: Do you want to use a different name? à YES

· Query: Enter the new user name: à ssh

· Query: Reenter à ssh

· Query: Create new privileged user account ‘ssh’ à YES

· Query: Please enter the password (en nuestro caso hemos puesto 12345)

· Query: Reenter:

Para finalizar hay que levantar el servicio, para ello abrimos seguimos los siguientes pasos:

· Abrimos el Menú de inicio de Windows, hacemos “click” con el botón derecho encima de “mi PC” o “equipo”.

· En el submenú que aparece seleccionaremos “Administrar”

· En la nueva ventana seleccionaremos “Servicios” y en la parte derecha buscaremos el servicio “CYGWIN sshd”.

· Ahora tenemos que iniciar el servicio para ello pulsaremos con el botón derecho encima del servicio y en el nuevo menú seleccionaremos “iniciar”

Con esto ya tenemos el servicio funcionando y para comprobarlo en una consola de CYGWIN ejecutaremos el comando “ssh localhost”.

El ssh ha respondido por lo tanto esta activo. Ahora ya podemos proceder a la instalación de Hadoop

Ensalada de Bits

miércoles, 24 de julio de 2013

Bibliografia Haddop y MongoDB

Instalación de Hadoop

Instalando Cygwin