Big Data: conceptos, información


Suprimiendo el sesgo en la contratación


big data en RRHH podrían hacer más equitativa la contratación y mejorar la diversidad reduciendo el sesgo, dice Zoe Jervier Hewitt de EQT Ventures a Protocol. Eso empieza incluso antes que los candidatos sean entrevistados identificando qué criterios deben cumplir. Trato de hacer que el sistema de evaluación sea realmente hermético, y encuentro que hay menos espacio a fin de que el sesgo no útil se introduzca en el proceso de esa forma, dice Jervier Hewitt. Agrega que una tarjeta de puntuación de la evaluación puede centrar la atención en la competencia de un candidato y tener un efecto positivo en la diversidad de la cañería y la diversidad de las contrataciones.

Creando nuevas situaciones


RRHH asimismo podría introducir nuevas situaciones enfocadas a los datos, como el detective de datos, Richard Binder escribe en Benefits Pro. Pensando que los equipos de RRHH inevitablemente aceptarán más funciones basadas en datos ... los investigadores (del Centro de Conocimiento para el Futuro del Trabajo y el Lugar de Trabajo Futuro) se imaginan a un detective de datos de RRHH que sintetizaría flujos de datos como portales de beneficios y encuestas a empleados con el objetivo de resolver problemas empresariales, escribe Binder. El Detective podría ir desde una inmersión en big data a explicar los conocimientos de la gran imagen a los menos versados en datos, ayudando en última instancia a prosperar el rendimiento de los empleados.

Actualizando el almacen de big data, ha llegado el instante


En el espacio de la tecnología y el análisis de datos, me recuerdan continuamente que la única incesante es el cambio. A esta industria le chifla innovar. Una y otra vez innovamos para superar los retos inmediatos y futuros - con soluciones que abordan la necesidad de más datos, análisis más rápidos y una mejor arquitectura.

La innovación acostumbra a proseguir una trayectoria de algo renovador, seguida de años de mejoras incrementales que maduran la oferta y la hacen aplicable a las masas. Si bien estos cambios incrementales son en general fáciles de incorporar, el problema es que primero debemos incorporar la innovación renovadora. Esta transición en general requiere cambios en los procesos, capacitación, re-estructuración y una larga y dolorosa migración. En último término, esto conduce a los ciclos de exageración tecnológica, en los que las compañías evalúan individualmente en qué momento o aun si el peligro y la lucha por hacer un cambio vale la pena.

cuatro grandes desarrollos tecnológicos


Cuatro desarrollos tecnológicos imprescindibles afectan al gran acervo de información de las compañías de hoy en día:

  1. La contenedorización y los kubernetes son un cambio en el juego. 
    Los contenedores (y la orquestación de los kubernetes) pueden ofrecer muchos beneficios para los grandes ambientes de datos. Con los contenedores, puede separar la computación del almacenamiento. Esta capacidad le deja dimensionar adecuadamente su solución, impulsar una mayor eficacia y optimizar la utilización de su ordenador. Los contenedores asimismo le permiten englobar el ecosistema en constante evolución de las herramientas de código abierto, lo que deja a los analistas y científicos de datos crear sus herramientas preferidas en cuestión de minutos, a la vez que consiguen acceso a los datos que necesitan. Además, se consigue portabilidad, flexibilidad y agilidad de las aplicaciones, lo que quiere decir que se pueden desplegar rápida y de manera fácil aplicaciones de datos intensivos en las instalaciones o en cualquier nube.

  2. Los datos están en todas y cada una partes - en prem, nube híbrida, multi-nube, y en el borde.
    Originalmente, el enorme conjunto de datos de la mayoría de las empresas estaba plantado de manera firme en las instalaciones. Mas se están desplegando más aplicaciones en la nube pública y con frecuencia en múltiples nubes públicas. Y con el volumen cada vez mayor de datos generados en el borde (junto con las mejoras en internet), es preciso pensar en los datos de forma global - desde el borde hasta la nube. Su próxima gran plataforma de datos debe adaptarse a las necesidades de su negocio y a los datos de todas y cada una partes. Y debe ser flexible para adaptarse a las instalaciones, a la nube híbrida, a la multi-nube y a los despliegues de computación en el borde.

  3. El ecosistema de código abierto prosigue evolucionando.
    Las compañías necesitan probar sus grandes inversiones en datos a futuro. Con el tiempo, ciertos distribuidores se han centrado en el modelo de código abierto puro. Otros han proporcionado software comercial de valor añadido basado en la tecnología de código abierto. Resulta que ambos enfoques son adecuados. Usted quererá herramientas optimizadas de su proveedor de soluciones cuando tenga sentido, mas su futuro gran acervo de datos también precisa evolucionar con la velocidad de la innovación de código abierto. Al implementar una solución con la capacidad de desplegar cualquier marco de trabajo de código abierto, usted está listo para esta incesante evolución, al tiempo que da a sus científicos de datos acceso a los últimos conjuntos de herramientas de código abierto.

  4. Hacer invisible la infraestructura - al paso que se garantiza el desempeño, la resistencia, la seguridad y la alta disponibilidad. 
    Recuerdo un comentario que un CTO me hizo hace varios años. Al discutir un punto sobre de qué forma progresar el rendimiento de los lagos de datos, dijo: A les importa la infraestructura; a nosotros no nos importa la infraestructura. Desde entonces he abrazado este mantra (tras todo, los equipos de ciencias de los datos no quieren tener que preocuparse por el almacenaje subyacente, la computación y las redes), mas la infraestructura prosigue siendo importante. Podemos esconder la complejidad de la infraestructura, haciendo que la implementación de las aplicaciones sea tan fácil y tan perfecta como resulte posible. Pero si no diseña su solución para asegurar la seguridad, el rendimiento y otros requisitos de nivel empresarial, no podrá entrar en producción. Y, en último término, no proporcionará valor empresarial.




¿El peligro vale la recompensa?


Las distribuciones de hadoop luchan por seguir siendo relevantes, pero han surgido plataformas de datos y opciones alternativas de despliegue. Muchas organizaciones empresariales están reevaluando su camino cara adelante, embarcándose en una nueva estrategia para actualizar su gran acervo de datos. Así que, ahora es el instante de hacer las preguntas difíciles:

  • ¿Estoy consiguiendo el valor que esperaba de mi lago de datos? ¿Qué valor extra consigo en el momento en que me actualizo?

  • ¿De qué manera va a ser la solución integrada? ¿Qué características/apariciones seguirán estando ahí?

  • ¿Qué es el mapa de senda? ¿Cambiará si mi distribución es adquirida?

  • ¿Tengo que actualizar? ¿De qué manera lo hago? ¿Cuánto tiempo va a tomar? ¿Cuánto costará? ¿En qué momento perderé el soporte de mi versión actual?

  • ¿Estaré bloqueado en las aplicaciones dueñas de mi distribución? ¿Qué tan simple es traer las últimas herramientas de código abierto que mis equipos de ciencia de datos desean?

  • ¿Está Apache Ozone listo para el horario de máxima audiencia? ¿Debo confiar en él con mis datos?

  • ¿Merece la pena el riesgo o debería estimar otra solución estratégica (y otro socio estratégico) para actualizar mi gran acervo de datos?






Las 4 V de el big data


Para los científicos de datos, el concepto de big data se puede descomponer en lo que ellos llaman las 4 V. Aunque ciertas escuelas de pensamiento dicen que podría haber hasta 10 V's, aquí están los 4 primordiales calificadores que ayudan a explicar en el momento en que un flujo de datos se convierte en un gran flujo de datos.

Volumen


Gracias a la gran cantidad de datos disponibles a diario, el big data tienden a ocupar un sinnúmero de ancho de banda y almacenamiento. Miles de bytes pueden atravesar la Internet, singularmente con el empleo generalizado de la Internet de banda ancha. En verdad, según una encuesta de IBM, se calcula que este año se crearán 40 zettabytes de datos, lo que supone un aumento del trescientos por cien respecto a 2005. Estas enormes cantidades requieren una tecnología de datos de gran tamaño que pueda manejar grandes conjuntos de datos.

Velocidad


Los datos fluyen mediante Internet a tal velocidad que si intentaras examinarlos por tu cuenta, sería como intentar beber de la manguera de agua más grande y poderosa del planeta. La rapidez con la que se mueven los datos aumenta exponencialmente dependiendo del número de conexiones que la gente tiene entre sí, en tanto que es probable que estés mandando mensajes de texto, que te gusten los mensajes de los medios sociales y que hagas acuerdos comerciales con ellos. La velocidad a la que los datos entrantes precisan ser procesados es un sello distintivo de el big data.

Variedad


Los datos pueden reunirse de muchas fuentes diferentes, como las distintas redes sociales, las transacciones comerciales y de consumo, y la proliferación de dispositivos inteligentes que recogen datos de los usuarios (frecuentemente involuntarios). De forma análoga, esos datos pueden presentarse en diferentes formatos y estructuras del archivo, desde información de bases de datos rigurosamente categorizada hasta trasferencias de archivos y comunicaciones en tiempo real.

Veracidad


Los datos inexactos son datos inútiles. Además de esto, los datos inexactos le cuestan a la economía de los EE.UU. aproximadamente 3,1 billones de dólares americanos de año en año, según la encuesta de IBM. Muchos líderes empresariales consideran que el big data son una apuesta, con 1 de cada tres encuestados diciendo que no confían en la información que proporcionan el big data. No obstante, la tecnología de el big data trata de mitigar ese inconveniente tanto como sea posible.



¿De qué forma se almacenan y regulan el big data?


Dado lo grande que son los datos, la instalación de almacenaje de dicha información debe ser igualmente masiva, ¿cierto?? Bueno, depende de la cantidad de dinero y espacio que su empresa tenga libre. Ciertos centros de datos más grandes del mundo engloban millones de metros cuadrados y albergan miles de millones de dólares en equipos de servidores. Para su pequeña empresa, no obstante, un rack de servidores con terabytes de almacenamiento podría ser suficiente.

Si bien es probable que encuentre muchas empresas que dependen de soluciones físicas para alojar sus sistemas de ficheros, como un gran almacén de datos o un servidor a gran escala, otras empresas han recurrido a soluciones de almacenamiento basadas en la nube, como las que ofrecen Google y Amazon Web Services. En los dos casos, los datos pueden almacenarse mientras tengan espacio.

En cuanto a la regulación de big data, el gobierno federal de los EE.UU. ha tomado un enfoque de no intervención en el tema. En cambio, las leyes de privacidad existentes tienden a observar el big data y las corporaciones que procuran participar en ellos. Las leyes de privacidad en Estados Unidos acostumbran a centrarse en industrias concretas que tratan con información sensible, como las instituciones financieras que emplean información personal no pública, que debe ajustarse a la Ley Gramm-Leach-Bliley. De igual modo, los proveedores de servicios de salud que usan big data deben asegurarse de que los datos estén asegurados en cumplimiento de la Ley de Portabilidad y Responsabilidad de los Seguros Médicos (HIPAA).

Jacqueline Klosek, letrada senior de Goodwin Procter LLP, dijo en un blog post para Taylor Wessing que las compañías a menudo alteran los datos para eliminar cualquier información de identificación sensible. Ese paso se da en general antes que los científicos examinen los datos o antes que se envíen a un tercero.

Bajo el GLBA, la definición de 'información financiera identificable personalmente' excluye específicamente: 'la información que no identifica a un consumidor, como la información agregada o los datos ciegos que no poseen identificadores personales como números de cuenta, nombres o direcciones', escribió Klosek. Asimismo existen salvedades a los requisitos de privacidad para los datos no identificados en razón de la HIPAA. Las compañías que utilicen datos rigurosamente anonimizados deberán continuar asegurándose de que su conducta cumple con sus políticas de privacidad y obligaciones establecidos y, como es lógico, deberán asegurarse de que los datos en cuestión sean verdaderamente anónimos.

A medida que el big data aumentan en alcance, es solo cuestión de tiempo antes de que la legislación rija los usos de los datos privados. A nivel estatal, ciertas unas partes del país ya han comenzado a tomar medidas.



Big data: ¿Qué tan amplio ha de ser tu lente? Depende de su uso


La cantidad de datos que entran en su sistema puede marcar gran diferencia en su almacenaje, ancho de banda y presupuesto. Considere la posibilidad de reducir su apertura.

Con big data que llegan a las organizaciones de todo el mundo a razón de 2,5 quintillones de bytes de datos día a día, corresponde a las organizaciones determinar qué cantidad de estos big data es esencial y necesaria, y qué porciones de el big data son excesivas y pueden eliminarse antes que los datos lleguen a los sistemas corporativos. Si las compañías no lo hacen, el ancho de banda, el almacenaje y las capacidades de procesamiento se pueden sobrepasar, junto con los presupuestos.

Para cada operación y análisis que las compañías realizan con big data, la clave es acotar cada caso de uso comercial por adelantado y predeterminar la cantidad de datos que realmente precisará para abordar el caso comercial. Inevitablemente, va a haber ciertos datos que sencillamente no se precisan. Separar estos datos de su proceso de ingestión de datos es lo que yo llamo estrechar la apertura de la lente mediante la que los datos fluyen hacia su depósito de datos.

Acá hay dos ejemplos divergentes de ajuste de la lente de datos:

IBM RoboRXN y la mecánica de la formulación molecular


Cuando IBM diseñó su proyecto RoboRXN, que recoge enormes cantidades de datos no editados de la comunidad mundial de código abierto y otros sobre posibles combinaciones moleculares para la formulación de productos, hubo que tomar decisiones sobre la cantidad de esos datos que era pertinente para el proyecto en el que trabajaban.

El proyecto RoboRXN se centró en el diseño de nuevas moléculas para soluciones farmacéuticas, como la vacuna COVID-diecinueve. Esto significaba que no se necesitaban libros blancos, resultados de investigaciones estadísticas y otras fuentes de investigación que no tenían relación directa con el proyecto de formulación molecular en el que se estaba trabajando. Lo que IBM decidió hacer fue implementar la inteligencia artificial (IA) al frente del proceso de ingestión de datos mientras que este enorme tesoro de datos no editados se estaba amontonando.

El algoritmo de IA planteó una pregunta importante: ¿Cada elemento de los datos entrantes contenía algo relevante para el enfoque del proyecto? Para las investigaciones que no estaban en absoluto relacionadas con el proyecto, o que sólo estaban relacionadas de forma distante y tangencial, la IA eliminó los datos, con lo que jamás fueron aceptados en el depósito de datos. En otras palabras, la apertura de la lente de datos al repositorio de datos del proyecto se estrechó, admitiendo solo aquellos elementos de datos que eran relevantes para el proyecto. Como resultado, se redujo el almacenamiento y el procesamiento de datos, y también el costo.

El SETI y la busca de vida extraterrestre


Fundado en 1984, la misión del Instituto SETI era buscar Bonus vida extraterrestre. Esto se hizo a través de la vigilancia de las señales de radio y las emisiones del espacio para determinar si había algún patrón repetitivo que pudiese significar una comunicación de otra manera de vida. Científicos y voluntarios participaron en la iniciativa del SETI, examinando meticulosamente montañas de señales de radio sin editar que fluían sin cesar.

En este esmero, se pudieron hacer pocas suposiciones de antemano sobre los datos buenos frente a los malos, por el hecho de que absolutamente nadie estaba completamente seguro de lo que procuraba. En consecuencia, había pocas maneras de estrechar la apertura de la lente de datos, que debía sostenerse abierta. Esto dio sitio a altos niveles de procesamiento, almacenamiento y trabajo manual.

Lo que el Instituto pudo hacer fue reducir los datos después de haberlos buscado en conjunto para localizar señales potenciales que pudieran apuntar formas de vida inteligentes. En este punto, sólo las señales con potencial de vida necesitaban ser guardadas en bases de datos considerablemente más pequeñas.


Los cinco pasos principales para una buena ciencia de los datos


Bastante gente habla de la ciencia de los datos. Pocos saben de qué están hablando y aún menos son siendo conscientes de cómo funciona. Pero, se emplea en todas partes en nuestros días, así que aun si no eres un científico de datos, es bueno saber cuáles son los pasos básicos. Aquí hay cinco pasos básicos para la ciencia de los datos.

  1. ¿Por qué lo haces? ¿Estás resolviendo un problema? ¿Qué inconveniente es? La ciencia de los datos no es una salsa que se esparce sobre las cosas para mejorarlas de alguna forma. Es una forma de abordar los problemas. Sepa qué inconveniente procura resolver su empresa ya antes de solicitarle a la ciencia de los datos que lo resuelva.

  2. Recopile los datos. Una vez que conozca la razón de su negocio, su científico de datos puede empezar a averiguar qué datos pertenecen a él y recogerlos. No se limite a escoger los datos libres o bien se arriesgue a introducir un corte.

  3. Analice los datos. El análisis exploratorio de datos (EDA) es el enfoque más frecuente. Revela lo que los datos pueden decirle. El EDA suele ser bueno para revelar las áreas en las que se quiere recopilar más datos. Un buen EDA utiliza un conjunto predefinido de indicaciones y umbrales para ayudar a superar el sesgo.

  4. Edifique sus modelos y pruebe si son válidos. Una vez que haya analizado los datos puede hacer su modelo de aprendizaje automático que tiene como objetivo suministrar una buena solución al problema de la empresa. Ya antes de establecer un modelo, asegúrese de probar con ciertas opciones y ciclos de validación adecuados.

  5. Resultados. Ejecute el modelo y también interprete los resultados. Bastante gente no se da cuenta de que la inteligencia artificial no solo le dice la solución a su problema. Los modelos de aprendizaje automático ofrecen resultados que los humanos interpretan. Los conocimientos de los científicos de datos son los que hacen que el resultado sea algo sobre lo que se pueda actuar.


Seguro que esto hace que suene de esta forma de fácil, y evidentemente cualquier científico de datos sabe que la prueba está en todo ese trabajo para hacer que estas cosas sucedan, pero conocer lo básico puede ayudar a tomar mejores resoluciones que van a ayudar a sus científicos de datos a hacer mejor su trabajo. Todo el planeta gana. Aun la máquina.

Certificaciones en ciencias de la información para prosperar tu currículum y tu salario.


A finales de agosto, Glassdoor tenía más de 53.000 ofertas de trabajo que mencionaban el aprendizaje automático (ML) y 20.000 trabajos que incluían la ciencia de los datos con salarios que iban de 50.000 a más de 180.000 dólares americanos. Cada vez más empresas están haciendo del análisis de datos y del aprendizaje automático un elemento central del desarrollo de nuevos productos y de las oportunidades de ingresos futuros.

Las grandes empresas de tecnología, así como las organizaciones tecnológicas independientes, ofrecen programas de formación para personas que son nuevas en la ciencia de los datos, de este modo para profesionales que desean dominar la tecnología más reciente. Cada programa de esta lista de los mejores cursos en línea para la ciencia de los datos ampliará su experiencia y agregará un valioso elemento de línea en forma de certificación de ciencia de los datos a su currículum.

Ingeniero profesional de aprendizaje automático de Google


Si puedes pasar este examen que está en versión beta, eres certificado por Google Cloud. Google recomienda que los examinandos tengan por lo menos tres años de experiencia práctica con los productos y soluciones de Google Cloud.

El examen dura 4 horas y cuesta ciento veinte dólares. Las 6 secciones del examen cubren:

  • Enmarcar el problema del ML

  • Arquitectura de la solución ML

  • Preparación y procesamiento de datos

  • Desarrollo del modelo de ML

  • Automatización y orquestación del oleoducto de ML

  • Monitoreo, optimización y mantenimiento de la solución de ML




Mesa de especialista de escritorio


El análisis de datos es inútil a menos que motive la acción. Eso de manera frecuente requiere hacer un caso basado en este análisis y presentarlo a los colegas de otros departamentos. Visualizar los datos en vez de confiar sólo en los números puede ayudar a ganarse a quienes no tratan con datos diariamente. Tableau puede asistirte a hacer eso.

El certificado de Especialista en Escritorio de Tableau mostrará que usted tiene una comprensión básica de esta herramienta de visualización de datos. La compañía sugiere que los examinadores tengan cuando menos tres meses de experiencia con la plataforma. El programa de preparación para el examen de Especialista en Escritorio Tableau es un programa de seis semanas de adiestramiento interactivo, lecciones y hasta dos intentos para el examen de certificación.

El examen tiene 30 preguntas y ha de ser completado en sesenta minutos. Los examinandos deben conseguir un 70 por ciento para aprobar. El examen mide estas habilidades:

  1. Crear y guardar conexiones de datos

  2. La administración de las propiedades de los datos

  3. Creando gráficos básicos

  4. Aplicar el análisis a una hoja de trabajo

  5. Crear y modificar un tablero de mandos

  6. Entendimiento de las dimensiones y medidas

  7. Dominar los campos prudentes y continuos


Leave a Reply

Your email address will not be published. Required fields are marked *