¿Más datos, más problemas? Diez consejos para gestionar datos generativos de IA

El contenido de Datamation y las recomendaciones de productos son editorialmente independientes. Podemos ganar dinero cuando hace clic en enlaces a nuestros socios. Aprende más.

La mayoría de los líderes de TI y muchos ejecutivos de alto nivel están pensando en iniciativas lideradas por IA, si no planificando y ya ejecutando. Hay docenas de herramientas en los tres principales proveedores de nube pública solo para IA y aprendizaje automático, más allá de las muchas tecnologías de código abierto que han surgido desde el lanzamiento de ChatGPT en el otoño de 2022.

El potencial es enorme: el mercado de IA generativa está preparado para crecer hasta 1,3 billones de dólares en los próximos 10 años desde un tamaño de mercado de sólo 40 mil millones de dólares en 2022, según un nuevo informe de Bloomberg Intelligence.

Lograr que la IA sea correcta depende de datos de calidad, particularmente datos no estructurados. El éxito de la IA depende de la conservación y gestión adecuadas de estos archivos y datos de objetos, que representan al menos el 80 por ciento de todos los datos del mundo. Este artículo identifica los desafíos de esos esfuerzos y ofrece 10 consejos para abordarlos.

Los datos no estructurados, dado su volumen y los diferentes tipos de archivos y formatos que comprenden (desde documentos e imágenes hasta datos de sensores e instrumentos, videos y más), son difíciles de administrar. A menudo distribuido en múltiples sistemas de almacenamiento en una empresa cada vez más híbrida y con múltiples nubes, es difícil buscar, segmentar y moverse según sea necesario.

Debido a su crecimiento, los datos no estructurados son costosos de almacenar y realizar copias de seguridad. De hecho, la mayoría (68 por ciento) de las organizaciones empresariales encuestadas en 2022 gastan el 30 por ciento o más de sus presupuestos de TI en almacenamiento. Estos problemas empeoran en industrias con uso intensivo de datos, ya que los investigadores y otros equipos rara vez eliminan copias de datos redundantes, obsoletos y triviales (ROT) cuando se completan los proyectos.

La gestión de datos no estructurados para la IA requiere nuevas soluciones y tácticas, incluido un enfoque centrado en los datos para guiar las decisiones rentables de almacenamiento y movilidad de datos entre proveedores y nubes.

También existe una creciente necesidad de garantizar que se aprovechen los conjuntos de datos correctos. Una nueva investigación de Stanford encontró que el rendimiento de los modelos de lenguaje grandes (LLM) "disminuye sustancialmente a medida que el contexto de entrada se hace más largo, incluso para modelos de contexto explícitamente largo". En otras palabras, seleccionar los conjuntos de datos correctos puede ser más importante que conjuntos de datos grandes, según el proyecto.

Las soluciones, directrices y prácticas de IA generativa cambian a diario. Pero establecer una base para la gestión inteligente de datos no estructurados puede ayudar a las organizaciones a adaptarse y adaptarse a esta era transformadora. Aquí hay algunas tácticas a considerar.

La indexación de datos es una manera poderosa de categorizar todos los datos no estructurados en toda la empresa y hacer que se puedan buscar por metadatos clave (datos sobre sus datos), como el tamaño del archivo, la extensión del archivo, la fecha de creación del archivo y la fecha del último acceso. La visibilidad es fundamental para ubicar los datos correctamente y satisfacer las necesidades comerciales cambiantes en materia de archivado, análisis, cumplimiento, etc.

A la hora de sentar las bases de la IA, más información es mejor. Cuanta más información tenga sobre sus datos, mejor preparado estará para entregarla a las herramientas de inteligencia artificial y aprendizaje automático en el momento adecuado, y mejor preparado estará para asegurarse de tener la infraestructura de almacenamiento adecuada para estos nuevos casos de uso. . Como mínimo, necesitará comprender los volúmenes de datos y las tasas de crecimiento, los costos de almacenamiento, los principales tipos y tamaños de datos, las estadísticas de uso de datos departamentales y los datos "calientes" o activos frente a los "fríos" o a los que rara vez se accede.

Una vez que tenga un nivel básico de comprensión sobre sus activos de datos, puede enriquecerlos con metadatos para capacidades de búsqueda adicionales. Por ejemplo, es posible que desee buscar archivos que contengan información de identificación personal (PII) o datos de clientes, datos de propiedad intelectual (IP), nombre del experimento o ID del instrumento. Esos archivos podrían segmentarse para su almacenamiento compatible o para introducirlos en una plataforma de análisis.

Con tantos casos de uso en las organizaciones hoy en día para la IA y otras investigaciones, los enlaces de TI central y departamental de TI deben trabajar juntos para diseñar estrategias de gestión de datos. Esto garantiza que los usuarios tengan un acceso rápido a sus datos más importantes, pero también puedan acceder a datos más antiguos archivados en un almacenamiento de bajo costo cuando lo necesiten.

No proporcione a una herramienta de inteligencia artificial más datos de los necesarios para ejecutar una consulta. Esto reduce los riesgos de fuga y seguridad de los datos de la organización y también puede mejorar las posibilidades de obtener resultados precisos y muy relevantes.

La seguridad fue la principal preocupación para la IA generativa en una encuesta reciente de Salesforce realizada a líderes de TI. Al trasladar datos corporativos confidenciales, como IP, PII y datos de clientes, a un dominio privado y seguro, puede asegurarse de que los empleados no puedan enviarlos a herramientas de inteligencia artificial. Algunas organizaciones están creando sus propios LLM privados para evitar este problema por completo, aunque esto puede ser costoso y requiere habilidades e infraestructura especializadas.

La procedencia de los datos y la transparencia en torno a los datos de entrenamiento utilizados en una aplicación de IA son fundamentales: las fuentes de datos en las aplicaciones de IA generativa pueden ser oscuras, inexactas, difamatorias y poco éticas, y pueden contener PII. Las aplicaciones que no son de IA también están incorporando LLM en sus plataformas. Descubra cómo los proveedores protegen a su organización de los diversos riesgos de la IA con sus datos y cualquier dato externo dentro de su LLM. Deje claro quién es responsable de qué cuando algo sale mal. Solicite transparencia en las fuentes de datos al LLM del proveedor.

Si trabaja en una industria regulada, deberá demostrar que su organización cumple con el uso de datos. Una organización de atención médica, por ejemplo, necesitaría verificar que no se haya filtrado ningún dato de PII del paciente a una solución de inteligencia artificial según las reglas de HIPAA. Un marco de gobernanza de la IA debería abarcar la privacidad, la protección de datos, la ética y más. Cree un grupo de trabajo que abarque líderes de seguridad, asuntos legales, recursos humanos, ciencia de datos y TI. Las soluciones de gestión de datos ayudan al proporcionar un medio para rastrear y monitorear qué datos se mueven a las herramientas de inteligencia artificial y por quién.

En relación con lo anterior, si elige compartir datos corporativos con un LLM general como ChatGPT o Bard, es importante realizar un seguimiento de las entradas y salidas y de quién encargó el proyecto en caso de que surjan problemas más adelante. Los problemas pueden incluir resultados inexactos o erróneos debido a datos incorrectos, demandas por derechos de autor de trabajos derivados o violaciones de privacidad y seguridad. Tenga en cuenta que los LLM no solo exponen potencialmente los datos de su empresa al mundo, sino también los datos de otras organizaciones, y su organización podría ser responsable de la exposición o el uso indebido de cualquier dato de terceros descubierto en un trabajo derivado.

Cuando sus resultados deben ser objetivamente precisos y objetivos, es posible que algunas herramientas de IA generativa no sean las más adecuadas. Considere las recientes revelaciones de que la última versión de ChatGPT está generando respuestas significativamente menos precisas y de menor calidad. Los sistemas de aprendizaje automático pueden ser mejores cuando su tarea requiere un resultado determinista.

A pesar de las muchas preocupaciones con respecto a la IA (y especialmente la IA generativa), la oleada de adopción está en el horizonte cercano. Una encuesta realizada por Upwork encontró que el 62 por ciento de las medianas empresas y el 41 por ciento de las grandes están aprovechando la tecnología de inteligencia artificial generativa. Otro estudio encontró que el 72 por ciento de los líderes de Fortune 500 dijeron que sus empresas incorporarán IA generativa en los próximos tres años para mejorar la productividad de los empleados.

No importa en qué punto de la curva de adopción se encuentre su organización, la IA afectará a sus empleados, clientes y líneas de productos más temprano que tarde. Prepárese adoptando un enfoque de gestión de datos proactivo que abarque visibilidad, análisis, segmentación y gobernanza para que su organización pueda aprovechar los beneficios de la IA sin derrumbar la casa.

Krishna Subramanian es director de operaciones y presidente de Komprise.

Conozca las últimas noticias y mejores prácticas sobre ciencia de datos, análisis de big data, inteligencia artificial, seguridad de datos y más.

Suscríbase a Data Insider para conocer las principales noticias, tendencias y análisis

Gestión de datos no estructurados y ROTDiez consejos para gestionar datos no estructurados en IA generativaComience con la visibilidadComprender las características clave de los datosDatos de etiquetas y segmentosColaborar con los departamentosSea selectivo con los datos de entrenamientoSegregar datos confidenciales y propietariosTrabajar en estrecha colaboración con los proveedoresCrear un plan de gobernanza de IAAuditar el uso de datos en IAElija las herramientas adecuadasLínea de fondo