El MTP de X-DATA es transformar datos en activo y para ello la visión holística del análisis de datos no solo se centra en los paradigmas tecnológicos a utilizar para su procesamiento y presentación, sino también en cambiar la perspectiva que el negocio tiene sobre los datos, por ello, en el primer artículo de nuestro blog, resaltamos la necesidad de cambiar nuestra forma de pensar acerca de las variables que pocas veces se consideran en un proyecto de analítica.

¿Necesitamos más datos o más ciencia en la ciencia de datos?

La fascinación de hoy con la Inteligencia Artificial (IA) refleja tanto nuestro apetito por los datos, como nuestro entusiasmo por las nuevas oportunidades en el aprendizaje automático. Aquí, los recién llegados al campo de la ciencia de datos están cegados por el brillo de los algoritmos mágicos y se olvidan de las infraestructuras críticas que se necesitan para crear y administrar datos en primer lugar.


Hay muchas compañías que brindan servicios de IA, para evaluar estas ofertas comerciales es útil cuestionar lo siguiente:


Una oferta atractiva debería cubrir todos los puntos anteriores: la única experiencia en análisis y algoritmos es generalmente insuficiente, ya que no necesariamente aborda la parte de datos en la ecuación.


Construir con propósito


La gestión de datos y las infraestructuras son “el patito feo” de la ciencia de datos. Por desgracia, es la condición para un proceso exitoso y, por lo tanto, debe construirse con un propósito. Esto requiere la consideración cuidadosa de estrategias para la captura de datos, almacenamiento de datos sin procesar y procesados, ​así como instrumentos para su recuperación.


Los datos pueden ser estructurados (nombres, fechas, direcciones) o no estructurados (textos, video, audio, imágenes), pero siempre deben recopilarse bajo el principio de que los datos son un activo. ¿Por qué un activo? Porque puede tener un valor intrínseco más allá del propósito original, por qué y cuándo se recolectó.


En síntesis, primero se deben obtener datos y después conseguir un algoritmo que sea lo suficientemente bueno para extraer todo el conocimiento de esos datos. Una empresa puede necesitar revisar, paso a paso, todos los aspectos de la organización para evaluar las oportunidades de generación, captura de datos y las estrategias para explotarlos. El valor intrínseco de los datos puede crecer con el tiempo para proporcionar información sobre los procesos de fabricación, la participación del cliente, las decisiones comerciales y otros, incluso para uso de terceros.


¿El éxito de Google se debe a los algoritmos o a los datos?

Hoy en día existen muchas herramientas analíticas y algoritmos que funcionan bien. A veces, un modelo lineal (estadísticas clásicas) funciona tan bien como un algoritmo de aprendizaje profundo.


También es cierto que muchas de estas herramientas tienen usos y aplicaciones óptimos. Cuando los nuevos algoritmos son superiores, tienden a mejorar la precisión en pocos pero impactantes puntos porcentuales. Por ejemplo, el cambio en Google Translate de usar modelos estadísticos a redes neuronales que aumentaron la precisión de 76% a 83% para la traducción del inglés al español, francés y chino. Este fue un logro notable que hizo que la traducción automática se acercara a la precisión de la traducción humana.


De manera similar, el software de reconocimiento de voz de Google tardó dos años y medio en progresar desde una tasa de precisión de palabras del 90% al 95%, el umbral para la precisión humana en el reconocimiento de voz. La mejora constante de los algoritmos es ciertamente deseable, pero jugar con los algoritmos no es la respuesta a volúmenes insuficientes de datos o datos mal documentados.


El éxito de Google radica tanto en los datos como en los algoritmos

Es importante, en primer lugar, enfatizar el papel de las operaciones completas de ciencia de datos (infraestructura de datos, adquisición de datos y análisis de datos) como componentes clave para la implementación de la IA. La implementación de nuevos algoritmos de aprendizaje automático es necesaria, pero no suficiente, para un programa exitoso. En segundo lugar, es posible que muchas empresas necesiten reflexionar sobre el concepto de «datos como un activo».

¿Qué datos de su empresa tienen un valor intrínseco para las operaciones o la investigación y el desarrollo, y cómo puede preservar y hacer crecer este recurso?


En resumen, para tener éxito, debe buscar una combinación de infraestructuras dedicadas, más y mejores datos y los mejores algoritmos.


***

Traducción y adaptación por X-DATA

Texto original de: Amalio Telenti, Científico de datos jefe y director de biología computacional en Vir Biotechnology Inc.

Fuente: https://bit.ly/2Fptlme