3.1. ¿Qué es Hadoop?
Apache Hadoop es un framework de software que soporta
aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones
trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los
documentos Google para MapReduce y Google File System (GFS). ( http://es.wikipedia.org/wiki/Hadoop)
3.2. Usos
Hadoop se utiliza no
solo como almacenamiento básico en un sistema de archivos potente también para:
- Registro y/o análisis de fuentes de clics (clickstream) de varios tipos
- Analíticas de marketing
- Aprendizaje automático y/o extracción de datos sofisticados (data mining)
- Procesamiento de imágenes
- El tratamiento de mensajes XML
- Web de rastreo y/o procesamiento de textos
- Archivado general, incluidos los relacionales y datos tabulares.
Hadoop es actualmente utilizado por muchas empresas de la más
variada índole como:
- Yahoo! Search Webmap, resultados de búsqueda de Yahoo.
- Jaspersoft, la empresa creadora de la plataforma de inteligencia de negocio (BI) más extendida del mundo.
- Facebook Red social con millones de usuarios.
- Wal-Mart una de las mayores empresas de retail del mundo.
- Disney, GE y Nokia son otros ejemplos.
3.3. Herramientas adicionales
Para instalar y poder manejar correctamente Hadoop primero
instalaremos los siguientes programas:
3.3.1.1. Java SDK
Dado que la instalación de Java no es objeto del trabajo
solo daremos las indicaciones esenciales para guiarse.
El software lo
descargamos desde su web oficial: http://www.oracle.com/technetwork/es/java/javase/downloads/index.html
Una vez descargado procederemos a la instalación,
Nota: es
importante tener en cuenta que hay que instalarlo en una ubicación diferente a
la que se usa por defecto (“Program Files”) ya que los espacios en blanco de
los directorios generarían problemas en el arranque de Hadoop. Para nuestro
trabajo hemos realizado la instalación en “c:\”
No hay comentarios:
Publicar un comentario
Esperando tu comentario...