Big Data: conceptos, informaciÃ³n

Suprimiendo el sesgo en la contrataciÃ³n

big data en RRHH podrÃan hacer mÃ¡s equitativa la contrataciÃ³n y mejorar la diversidad reduciendo el sesgo, dice Zoe Jervier Hewitt de EQT Ventures a Protocol. Eso empieza incluso antes que los candidatos sean entrevistados identificando quÃ© criterios deben cumplir. Trato de hacer que el sistema de evaluaciÃ³n sea realmente hermÃ©tico, y encuentro que hay menos espacio a fin de que el sesgo no Ãºtil se introduzca en el proceso de esa forma, dice Jervier Hewitt. Agrega que una tarjeta de puntuaciÃ³n de la evaluaciÃ³n puede centrar la atenciÃ³n en la competencia de un candidato y tener un efecto positivo en la diversidad de la caÃ±erÃa y la diversidad de las contrataciones.

Creando nuevas situaciones

RRHH asimismo podrÃa introducir nuevas situaciones enfocadas a los datos, como el detective de datos, Richard Binder escribe en Benefits Pro. Pensando que los equipos de RRHH inevitablemente aceptarÃ¡n mÃ¡s funciones basadas en datos ... los investigadores (del Centro de Conocimiento para el Futuro del Trabajo y el Lugar de Trabajo Futuro) se imaginan a un detective de datos de RRHH que sintetizarÃa flujos de datos como portales de beneficios y encuestas a empleados con el objetivo de resolver problemas empresariales, escribe Binder. El Detective podrÃa ir desde una inmersiÃ³n en big data a explicar los conocimientos de la gran imagen a los menos versados en datos, ayudando en Ãºltima instancia a prosperar el rendimiento de los empleados.

Actualizando el almacen de big data, ha llegado el instante

En el espacio de la tecnologÃa y el anÃ¡lisis de datos, me recuerdan continuamente que la Ãºnica incesante es el cambio. A esta industria le chifla innovar. Una y otra vez innovamos para superar los retos inmediatos y futuros - con soluciones que abordan la necesidad de mÃ¡s datos, anÃ¡lisis mÃ¡s rÃ¡pidos y una mejor arquitectura.

La innovaciÃ³n acostumbra a proseguir una trayectoria de algo renovador, seguida de aÃ±os de mejoras incrementales que maduran la oferta y la hacen aplicable a las masas. Si bien estos cambios incrementales son en general fÃ¡ciles de incorporar, el problema es que primero debemos incorporar la innovaciÃ³n renovadora. Esta transiciÃ³n en general requiere cambios en los procesos, capacitaciÃ³n, re-estructuraciÃ³n y una larga y dolorosa migraciÃ³n. En Ãºltimo tÃ©rmino, esto conduce a los ciclos de exageraciÃ³n tecnolÃ³gica, en los que las compaÃ±Ãas evalÃºan individualmente en quÃ© momento o aun si el peligro y la lucha por hacer un cambio vale la pena.

cuatro grandes desarrollos tecnolÃ³gicos

Cuatro desarrollos tecnolÃ³gicos imprescindibles afectan al gran acervo de informaciÃ³n de las compaÃ±Ãas de hoy en dÃa:

La contenedorizaciÃ³n y los kubernetes son un cambio en el juego.Â
Los contenedores (y la orquestaciÃ³n de los kubernetes) pueden ofrecer muchos beneficios para los grandes ambientes de datos. Con los contenedores, puede separar la computaciÃ³n del almacenamiento. Esta capacidad le deja dimensionar adecuadamente su soluciÃ³n, impulsar una mayor eficacia y optimizar la utilizaciÃ³n de su ordenador. Los contenedores asimismo le permiten englobar el ecosistema en constante evoluciÃ³n de las herramientas de cÃ³digo abierto, lo que deja a los analistas y cientÃficos de datos crear sus herramientas preferidas en cuestiÃ³n de minutos, a la vez que consiguen acceso a los datos que necesitan. AdemÃ¡s, se consigue portabilidad, flexibilidad y agilidad de las aplicaciones, lo que quiere decir que se pueden desplegar rÃ¡pida y de manera fÃ¡cil aplicaciones de datos intensivos en las instalaciones o en cualquier nube.

Los datos estÃ¡n en todas y cada una partes - en prem, nube hÃbrida, multi-nube, y en el borde.
Originalmente, el enorme conjunto de datos de la mayorÃa de las empresas estaba plantado de manera firme en las instalaciones. Mas se estÃ¡n desplegando mÃ¡s aplicaciones en la nube pÃºblica y con frecuencia en mÃºltiples nubes pÃºblicas. Y con el volumen cada vez mayor de datos generados en el borde (junto con las mejoras en internet), es preciso pensar en los datos de forma global - desde el borde hasta la nube. Su prÃ³xima gran plataforma de datos debe adaptarse a las necesidades de su negocio y a los datos de todas y cada una partes. Y debe ser flexible para adaptarse a las instalaciones, a la nube hÃbrida, a la multi-nube y a los despliegues de computaciÃ³n en el borde.

El ecosistema de cÃ³digo abierto prosigue evolucionando.
Las compaÃ±Ãas necesitan probar sus grandes inversiones en datos a futuro. Con el tiempo, ciertos distribuidores se han centrado en el modelo de cÃ³digo abierto puro. Otros han proporcionado software comercial de valor aÃ±adido basado en la tecnologÃa de cÃ³digo abierto. Resulta que ambos enfoques son adecuados. Usted quererÃ¡ herramientas optimizadas de su proveedor de soluciones cuando tenga sentido, mas su futuro gran acervo de datos tambiÃ©n precisa evolucionar con la velocidad de la innovaciÃ³n de cÃ³digo abierto. Al implementar una soluciÃ³n con la capacidad de desplegar cualquier marco de trabajo de cÃ³digo abierto, usted estÃ¡ listo para esta incesante evoluciÃ³n, al tiempo que da a sus cientÃficos de datos acceso a los Ãºltimos conjuntos de herramientas de cÃ³digo abierto.

Hacer invisible la infraestructura - al paso que se garantiza el desempeÃ±o, la resistencia, la seguridad y la alta disponibilidad.Â
Recuerdo un comentario que un CTO me hizo hace varios aÃ±os. Al discutir un punto sobre de quÃ© forma progresar el rendimiento de los lagos de datos, dijo: A les importa la infraestructura; a nosotros no nos importa la infraestructura. Desde entonces he abrazado este mantra (tras todo, los equipos de ciencias de los datos no quieren tener que preocuparse por el almacenaje subyacente, la computaciÃ³n y las redes), mas la infraestructura prosigue siendo importante. Podemos esconder la complejidad de la infraestructura, haciendo que la implementaciÃ³n de las aplicaciones sea tan fÃ¡cil y tan perfecta como resulte posible. Pero si no diseÃ±a su soluciÃ³n para asegurar la seguridad, el rendimiento y otros requisitos de nivel empresarial, no podrÃ¡ entrar en producciÃ³n. Y, en Ãºltimo tÃ©rmino, no proporcionarÃ¡ valor empresarial.

Â¿El peligro vale la recompensa?

Las distribuciones de hadoop luchan por seguir siendo relevantes, pero han surgido plataformas de datos y opciones alternativas de despliegue. Muchas organizaciones empresariales estÃ¡n reevaluando su camino cara adelante, embarcÃ¡ndose en una nueva estrategia para actualizar su gran acervo de datos. AsÃ que, ahora es el instante de hacer las preguntas difÃciles:

Â¿Estoy consiguiendo el valor que esperaba de mi lago de datos? Â¿QuÃ© valor extra consigo en el momento en que me actualizo?

Â¿De quÃ© manera va a ser la soluciÃ³n integrada? Â¿QuÃ© caracterÃsticas/apariciones seguirÃ¡n estando ahÃ?

Â¿QuÃ© es el mapa de senda? Â¿CambiarÃ¡ si mi distribuciÃ³n es adquirida?

Â¿Tengo que actualizar? Â¿De quÃ© manera lo hago? Â¿CuÃ¡nto tiempo va a tomar? Â¿CuÃ¡nto costarÃ¡? Â¿En quÃ© momento perderÃ© el soporte de mi versiÃ³n actual?

Â¿EstarÃ© bloqueado en las aplicaciones dueÃ±as de mi distribuciÃ³n? Â¿QuÃ© tan simple es traer las Ãºltimas herramientas de cÃ³digo abierto que mis equipos de ciencia de datos desean?

Â¿EstÃ¡ Apache Ozone listo para el horario de mÃ¡xima audiencia? Â¿Debo confiar en Ã©l con mis datos?

Â¿Merece la pena el riesgo o deberÃa estimar otra soluciÃ³n estratÃ©gica (y otro socio estratÃ©gico) para actualizar mi gran acervo de datos?

Las 4 V de el big data

Para los cientÃficos de datos, el concepto de big data se puede descomponer en lo que ellos llaman las 4 V. Aunque ciertas escuelas de pensamiento dicen que podrÃa haber hasta 10 V's, aquÃ estÃ¡n los 4 primordiales calificadores que ayudan a explicar en el momento en que un flujo de datos se convierte en un gran flujo de datos.

Volumen

Gracias a la gran cantidad de datos disponibles a diario, el big data tienden a ocupar un sinnÃºmero de ancho de banda y almacenamiento. Miles de bytes pueden atravesar la Internet, singularmente con el empleo generalizado de la Internet de banda ancha. En verdad, segÃºn una encuesta de IBM, se calcula que este aÃ±o se crearÃ¡n 40 zettabytes de datos, lo que supone un aumento del trescientos por cien respecto a 2005. Estas enormes cantidades requieren una tecnologÃa de datos de gran tamaÃ±o que pueda manejar grandes conjuntos de datos.

Velocidad

Los datos fluyen mediante Internet a tal velocidad que si intentaras examinarlos por tu cuenta, serÃa como intentar beber de la manguera de agua mÃ¡s grande y poderosa del planeta. La rapidez con la que se mueven los datos aumenta exponencialmente dependiendo del nÃºmero de conexiones que la gente tiene entre sÃ, en tanto que es probable que estÃ©s mandando mensajes de texto, que te gusten los mensajes de los medios sociales y que hagas acuerdos comerciales con ellos. La velocidad a la que los datos entrantes precisan ser procesados es un sello distintivo de el big data.

Variedad

Los datos pueden reunirse de muchas fuentes diferentes, como las distintas redes sociales, las transacciones comerciales y de consumo, y la proliferaciÃ³n de dispositivos inteligentes que recogen datos de los usuarios (frecuentemente involuntarios). De forma anÃ¡loga, esos datos pueden presentarse en diferentes formatos y estructuras del archivo, desde informaciÃ³n de bases de datos rigurosamente categorizada hasta trasferencias de archivos y comunicaciones en tiempo real.

Veracidad

Los datos inexactos son datos inÃºtiles. AdemÃ¡s de esto, los datos inexactos le cuestan a la economÃa de los EE.UU. aproximadamente 3,1 billones de dÃ³lares americanos de aÃ±o en aÃ±o, segÃºn la encuesta de IBM. Muchos lÃderes empresariales consideran que el big data son una apuesta, con 1 de cada tres encuestados diciendo que no confÃan en la informaciÃ³n que proporcionan el big data. No obstante, la tecnologÃa de el big data trata de mitigar ese inconveniente tanto como sea posible.

Â¿De quÃ© forma se almacenan y regulan el big data?

Dado lo grande que son los datos, la instalaciÃ³n de almacenaje de dicha informaciÃ³n debe ser igualmente masiva, Â¿cierto?? Bueno, depende de la cantidad de dinero y espacio que su empresa tenga libre. Ciertos centros de datos mÃ¡s grandes del mundo engloban millones de metros cuadrados y albergan miles de millones de dÃ³lares en equipos de servidores. Para su pequeÃ±a empresa, no obstante, un rack de servidores con terabytes de almacenamiento podrÃa ser suficiente.

Si bien es probable que encuentre muchas empresas que dependen de soluciones fÃsicas para alojar sus sistemas de ficheros, como un gran almacÃ©n de datos o un servidor a gran escala, otras empresas han recurrido a soluciones de almacenamiento basadas en la nube, como las que ofrecen Google y Amazon Web Services. En los dos casos, los datos pueden almacenarse mientras tengan espacio.

En cuanto a la regulaciÃ³n de big data, el gobierno federal de los EE.UU. ha tomado un enfoque de no intervenciÃ³n en el tema. En cambio, las leyes de privacidad existentes tienden a observar el big data y las corporaciones que procuran participar en ellos. Las leyes de privacidad en Estados Unidos acostumbran a centrarse en industrias concretas que tratan con informaciÃ³n sensible, como las instituciones financieras que emplean informaciÃ³n personal no pÃºblica, que debe ajustarse a la Ley Gramm-Leach-Bliley. De igual modo, los proveedores de servicios de salud que usan big data deben asegurarse de que los datos estÃ©n asegurados en cumplimiento de la Ley de Portabilidad y Responsabilidad de los Seguros MÃ©dicos (HIPAA).

Jacqueline Klosek, letrada senior de Goodwin Procter LLP, dijo en un blog post para Taylor Wessing que las compaÃ±Ãas a menudo alteran los datos para eliminar cualquier informaciÃ³n de identificaciÃ³n sensible. Ese paso se da en general antes que los cientÃficos examinen los datos o antes que se envÃen a un tercero.

Bajo el GLBA, la definiciÃ³n de 'informaciÃ³n financiera identificable personalmente' excluye especÃficamente: 'la informaciÃ³n que no identifica a un consumidor, como la informaciÃ³n agregada o los datos ciegos que no poseen identificadores personales como nÃºmeros de cuenta, nombres o direcciones', escribiÃ³ Klosek. Asimismo existen salvedades a los requisitos de privacidad para los datos no identificados en razÃ³n de la HIPAA. Las compaÃ±Ãas que utilicen datos rigurosamente anonimizados deberÃ¡n continuar asegurÃ¡ndose de que su conducta cumple con sus polÃticas de privacidad y obligaciones establecidos y, como es lÃ³gico, deberÃ¡n asegurarse de que los datos en cuestiÃ³n sean verdaderamente anÃ³nimos.

A medida que el big data aumentan en alcance, es solo cuestiÃ³n de tiempo antes de que la legislaciÃ³n rija los usos de los datos privados. A nivel estatal, ciertas unas partes del paÃs ya han comenzado a tomar medidas.

Big data: Â¿QuÃ© tan amplio ha de ser tu lente? Depende de su uso

La cantidad de datos que entran en su sistema puede marcar gran diferencia en su almacenaje, ancho de banda y presupuesto. Considere la posibilidad de reducir su apertura.

Con big data que llegan a las organizaciones de todo el mundo a razÃ³n de 2,5 quintillones de bytes de datos dÃa a dÃa, corresponde a las organizaciones determinar quÃ© cantidad de estos big data es esencial y necesaria, y quÃ© porciones de el big data son excesivas y pueden eliminarse antes que los datos lleguen a los sistemas corporativos. Si las compaÃ±Ãas no lo hacen, el ancho de banda, el almacenaje y las capacidades de procesamiento se pueden sobrepasar, junto con los presupuestos.

Para cada operaciÃ³n y anÃ¡lisis que las compaÃ±Ãas realizan con big data, la clave es acotar cada caso de uso comercial por adelantado y predeterminar la cantidad de datos que realmente precisarÃ¡ para abordar el caso comercial. Inevitablemente, va a haber ciertos datos que sencillamente no se precisan. Separar estos datos de su proceso de ingestiÃ³n de datos es lo que yo llamo estrechar la apertura de la lente mediante la que los datos fluyen hacia su depÃ³sito de datos.

AcÃ¡ hay dos ejemplos divergentes de ajuste de la lente de datos:

IBM RoboRXN y la mecÃ¡nica de la formulaciÃ³n molecular

Cuando IBM diseÃ±Ã³ su proyecto RoboRXN, que recoge enormes cantidades de datos no editados de la comunidad mundial de cÃ³digo abierto y otros sobre posibles combinaciones moleculares para la formulaciÃ³n de productos, hubo que tomar decisiones sobre la cantidad de esos datos que era pertinente para el proyecto en el que trabajaban.

El proyecto RoboRXN se centrÃ³ en el diseÃ±o de nuevas molÃ©culas para soluciones farmacÃ©uticas, como la vacuna COVID-diecinueve. Esto significaba que no se necesitaban libros blancos, resultados de investigaciones estadÃsticas y otras fuentes de investigaciÃ³n que no tenÃan relaciÃ³n directa con el proyecto de formulaciÃ³n molecular en el que se estaba trabajando. Lo que IBM decidiÃ³ hacer fue implementar la inteligencia artificial (IA) al frente del proceso de ingestiÃ³n de datos mientras que este enorme tesoro de datos no editados se estaba amontonando.

El algoritmo de IA planteÃ³ una pregunta importante: Â¿Cada elemento de los datos entrantes contenÃa algo relevante para el enfoque del proyecto? Para las investigaciones que no estaban en absoluto relacionadas con el proyecto, o que sÃ³lo estaban relacionadas de forma distante y tangencial, la IA eliminÃ³ los datos, con lo que jamÃ¡s fueron aceptados en el depÃ³sito de datos. En otras palabras, la apertura de la lente de datos al repositorio de datos del proyecto se estrechÃ³, admitiendo solo aquellos elementos de datos que eran relevantes para el proyecto. Como resultado, se redujo el almacenamiento y el procesamiento de datos, y tambiÃ©n el costo.

El SETI y la busca de vida extraterrestre

Fundado en 1984, la misiÃ³n del Instituto SETI era buscar Bonus vida extraterrestre. Esto se hizo a travÃ©s de la vigilancia de las seÃ±ales de radio y las emisiones del espacio para determinar si habÃa algÃºn patrÃ³n repetitivo que pudiese significar una comunicaciÃ³n de otra manera de vida. CientÃficos y voluntarios participaron en la iniciativa del SETI, examinando meticulosamente montaÃ±as de seÃ±ales de radio sin editar que fluÃan sin cesar.

En este esmero, se pudieron hacer pocas suposiciones de antemano sobre los datos buenos frente a los malos, por el hecho de que absolutamente nadie estaba completamente seguro de lo que procuraba. En consecuencia, habÃa pocas maneras de estrechar la apertura de la lente de datos, que debÃa sostenerse abierta. Esto dio sitio a altos niveles de procesamiento, almacenamiento y trabajo manual.

Lo que el Instituto pudo hacer fue reducir los datos despuÃ©s de haberlos buscado en conjunto para localizar seÃ±ales potenciales que pudieran apuntar formas de vida inteligentes. En este punto, sÃ³lo las seÃ±ales con potencial de vida necesitaban ser guardadas en bases de datos considerablemente mÃ¡s pequeÃ±as.

Los cinco pasos principales para una buena ciencia de los datos

Bastante gente habla de la ciencia de los datos. Pocos saben de quÃ© estÃ¡n hablando y aÃºn menos son siendo conscientes de cÃ³mo funciona. Pero, se emplea en todas partes en nuestros dÃas, asÃ que aun si no eres un cientÃfico de datos, es bueno saber cuÃ¡les son los pasos bÃ¡sicos. AquÃ hay cinco pasos bÃ¡sicos para la ciencia de los datos.

Â¿Por quÃ© lo haces?Â Â¿EstÃ¡s resolviendo un problema? Â¿QuÃ© inconveniente es? La ciencia de los datos no es una salsa que se esparce sobre las cosas para mejorarlas de alguna forma. Es una forma de abordar los problemas. Sepa quÃ© inconveniente procura resolver su empresa ya antes de solicitarle a la ciencia de los datos que lo resuelva.

Recopile los datos.Â Una vez que conozca la razÃ³n de su negocio, su cientÃfico de datos puede empezar a averiguar quÃ© datos pertenecen a Ã©l y recogerlos. No se limite a escoger los datos libres o bien se arriesgue a introducir un corte.

Analice los datos.Â El anÃ¡lisis exploratorio de datos (EDA) es el enfoque mÃ¡s frecuente. Revela lo que los datos pueden decirle. El EDA suele ser bueno para revelar las Ã¡reas en las que se quiere recopilar mÃ¡s datos. Un buen EDA utiliza un conjunto predefinido de indicaciones y umbrales para ayudar a superar el sesgo.

Edifique sus modelos y pruebe si son vÃ¡lidos.Â Una vez que haya analizado los datos puede hacer su modelo de aprendizaje automÃ¡tico que tiene como objetivo suministrar una buena soluciÃ³n al problema de la empresa. Ya antes de establecer un modelo, asegÃºrese de probar con ciertas opciones y ciclos de validaciÃ³n adecuados.

Resultados.Â Ejecute el modelo y tambiÃ©n interprete los resultados. Bastante gente no se da cuenta de que la inteligencia artificial no solo le dice la soluciÃ³n a su problema. Los modelos de aprendizaje automÃ¡tico ofrecen resultados que los humanos interpretan. Los conocimientos de los cientÃficos de datos son los que hacen que el resultado sea algo sobre lo que se pueda actuar.

Seguro que esto hace que suene de esta forma de fÃ¡cil, y evidentemente cualquier cientÃfico de datos sabe que la prueba estÃ¡ en todo ese trabajo para hacer que estas cosas sucedan, pero conocer lo bÃ¡sico puede ayudar a tomar mejores resoluciones que van a ayudar a sus cientÃficos de datos a hacer mejor su trabajo. Todo el planeta gana. Aun la mÃ¡quina.

Certificaciones en ciencias de la informaciÃ³n para prosperar tu currÃculum y tu salario.

A finales de agosto, Glassdoor tenÃa mÃ¡s de 53.000 ofertas de trabajo que mencionaban el aprendizaje automÃ¡tico (ML) y 20.000 trabajos que incluÃan la ciencia de los datos con salarios que iban de 50.000 a mÃ¡s de 180.000 dÃ³lares americanos. Cada vez mÃ¡s empresas estÃ¡n haciendo del anÃ¡lisis de datos y del aprendizaje automÃ¡tico un elemento central del desarrollo de nuevos productos y de las oportunidades de ingresos futuros.

Las grandes empresas de tecnologÃa, asÃ como las organizaciones tecnolÃ³gicas independientes, ofrecen programas de formaciÃ³n para personas que son nuevas en la ciencia de los datos, de este modo para profesionales que desean dominar la tecnologÃa mÃ¡s reciente. Cada programa de esta lista de los mejores cursos en lÃnea para la ciencia de los datos ampliarÃ¡ su experiencia y agregarÃ¡ un valioso elemento de lÃnea en forma de certificaciÃ³n de ciencia de los datos a su currÃculum.

Ingeniero profesional de aprendizaje automÃ¡tico de Google

Si puedes pasar este examen que estÃ¡ en versiÃ³n beta, eres certificado por Google Cloud. Google recomienda que los examinandos tengan por lo menos tres aÃ±os de experiencia prÃ¡ctica con los productos y soluciones de Google Cloud.

El examen dura 4 horas y cuesta ciento veinte dÃ³lares. Las 6 secciones del examen cubren:

Enmarcar el problema del ML

Arquitectura de la soluciÃ³n ML

PreparaciÃ³n y procesamiento de datos

Desarrollo del modelo de ML

AutomatizaciÃ³n y orquestaciÃ³n del oleoducto de ML

Monitoreo, optimizaciÃ³n y mantenimiento de la soluciÃ³n de ML

Mesa de especialista de escritorio

El anÃ¡lisis de datos es inÃºtil a menos que motive la acciÃ³n. Eso de manera frecuente requiere hacer un caso basado en este anÃ¡lisis y presentarlo a los colegas de otros departamentos. Visualizar los datos en vez de confiar sÃ³lo en los nÃºmeros puede ayudar a ganarse a quienes no tratan con datos diariamente. Tableau puede asistirte a hacer eso.

El certificado de Especialista en Escritorio de Tableau mostrarÃ¡ que usted tiene una comprensiÃ³n bÃ¡sica de esta herramienta de visualizaciÃ³n de datos. La compaÃ±Ãa sugiere que los examinadores tengan cuando menos tres meses de experiencia con la plataforma. El programa de preparaciÃ³n para el examen de Especialista en Escritorio Tableau es un programa de seis semanas de adiestramiento interactivo, lecciones y hasta dos intentos para el examen de certificaciÃ³n.

El examen tiene 30 preguntas y ha de ser completado en sesenta minutos. Los examinandos deben conseguir un 70 por ciento para aprobar. El examen mide estas habilidades:

Crear y guardar conexiones de datos

La administraciÃ³n de las propiedades de los datos

Creando grÃ¡ficos bÃ¡sicos

Aplicar el anÃ¡lisis a una hoja de trabajo

Crear y modificar un tablero de mandos

Entendimiento de las dimensiones y medidas

Dominar los campos prudentes y continuos