Madrid, España, 6 de junio de 2025. Un grupo de científicos ha demostrado que es posible entrenar grandes modelos de lenguaje (LLM, por sus siglas en inglés) con una base de datos ética, que no perjudica a los titulares de los derechos de autor, con resultados de rendimiento comparables a los de los modelos más populares.
Los LLM que impulsan la inteligencia artificial generativa necesitan enormes cantidades de datos en su entrenamiento para tener un buen rendimiento, y por ello, empresas como Meta, Google y OpenAI han terminado acudiendo a internet e incluso a sus propios productos para obtenerlos.
Esta situación ha generado un debate sobre el uso de documento protegidos por derechos de autor para entrenar esos LLM, en el que unas voces abogan por compensar a quienes están en posesión de esos derechos y otras, por preservar la capacidad de los modelos para aprender de material protegido.
Compensar a los titulares de los derechos de autor costaría miles de millones de dólares, e incluso las denuncias por falta de compensaciones pueden suponer un daños financieros de también miles de millones de dólares, como recogen científicos de 14 instituciones en un reciente estudio, con el que exponen la alternativa de una base de datos ética.
En concreto, indican que han creado una base de datos de dominio público y licencia abierta de 8TB, que han denominado The Common Pile, que recoge datos de 30 fuentes, incluídos investigaciones, audios, libros, enciclopedias, material educativo, código de programación y transcripciones, entre otros.
Para demostrar que es posible entrenar LLM sin perjudicar a los autores y con resultados en línea con los modelos más populares, han entrenado con texto extraído de The Common Pile dos modelos de 7.000 millones de parámetros, de un billón y dos billones de tokens, respectivamente.
Aseguran que los dos modelos ofrecen “un rendimiento competitivo” con modelos como Llama 1 y Llama 2 de 7.000 millones de parámetros. “Nuestros resultados demuestran que The Common Pile no solo es el conjunto de datos más sólido para el preentrenamiento bajo una restricción de licencia abierta, sino que también produce modelos comparables a aquellos entrenados con una cantidad equivalente de datos sin licencia”, afirman en el texto de la investigación publicado en GitHub.
Consideran, además, que la base de datos “representa el primer paso en el camino hacia un ecosistema de modelo de lenguaje más ético, donde el rendimiento no tiene por qué llegar a costa de los derechos de los creadores y la transparencia legal”.
Texto: Portaltic/EP
El cargo Modelos de lenguaje pueden entrenarse con bases de datos éticas, demuestran científicos apareció primero en El Sur Acapulco suracapulco I Noticias Acapulco Guerrero.
Ernesto MéndezTras reconocer que este año ha sido terrible por la llegada de 80 mil toneladas de sargazo a las playas de Quintana Roo, Alicia Bárcena, titular de la Secretaría de Medio Ambiente y Recursos Naturales (Semarnat), anunció la creación de un Parque de Economía Circular para el Bienestar (PODEBIS), en el estado.Destacó que el ob
Excelsior
La Coordinación Estatal de Protección Civil de Durango recibió un donativo de 10 mil litros de agua embotellada por parte de la cadena comercial OXXO, como parte de una estrategia para atender contingencias generadas por las lluvias. El apoyo se destina a fortalecer la reserva estratégica de agua potable que el gobierno estatal utiliza en [R
Newsweek en Español
Profepa detuvo la importación ilegal de más de 2 mil cactáceas protegidas y aseguró paquetes con insectos disecados que serían enviados a Asia y Europa; las especies están bajo resguardo por tratarse de flora y fauna en riesgo.
El Imparcial
¿Sabías que uno de los componentes más importantes para que tu maquinaria pesada funcione correctamente es el ventilador del motor? En este artículo te vamos a contar qué es un ventilador de enfriamiento, qué tipos existen y por qué es tan clave para que tu equipo no se sobrecaliente y trabaje a su máximo rendimiento.
Lado.mx
Despídete de la minería tradicional y da la bienvenida a la nueva era de la riqueza inteligente. Imagina estar recostado en una silla de playa, bebiendo una bebida helada, mientras tus activos criptográficos generan ingresos para ti las 24 horas del día.
Lado.mx
Copa América 2015
El Financiero Bloomberg TV
Michoacán, 4 de julio. Un comandante de la policía fue víctima de un ataque de agresores armados que lo sorprendieron tras salir de sus labores de vigilancia en zonas vulnerables de la ciudad. El mando policial perdió la vida en el lugar y autoridades locales activaron un operativo para localizar a los responsables Hasta ahora […]
ADNSureste.info
El tiktoker y creador de contenido es el tercer habitante confirmado para la nueva temporada.
El Imparcial
Staff/RG En sesión pública ordinaria se avalaron acuerdos en materia de vivienda, migración y educaciónThe post Exhorta Congreso del Estado a municipios para que establezcan Centros de Bienestar Animal appeared first on Desde Puebla.
Desde Puebla
Servicio Meteorológico Nacional
Las promociones 4x2 de Julio Regalado son unas de las más esperadas en los hogares mexicanos, pues pueden llevarse más productos pagando poco
El Informador
Con motivo de la campaña Julio Regalado, Soriana presentó promociones exclusivas en artículos de tecnología
El Informador
De hoy al 10 de julio podrás encontrar descuentos de 70% en celulares y tablets en Soriana ofertas Julio Regalado
SDP Noticias
Este fin de semana llega a las salas de cine de todo el mundo, incluyendo México, el más reciente capítulo de la taquillera saga de “Jurassic Park: El Renacer”, bajo la dirección de Gareth Edwards. Contando con el prestigio de la marca impuesta desde la cinta original de 1993 dirigida y producida por Steven Spielberg, así como un joven dir
Vanguardia.com.mx
El colectivo ultracatólico presenta un recurso contra el contrato para adquirir 3,8 millones de preservativos y 700.000 dosis de lubricantes. Pero por los plazos el material llegará en semanas, ya finalizado el Orgullo. Sanidad asegura que es una planificación anual para combatir las enfermedades de transmisión sexual
Infobae
• Signa convenio de colaboración con autoridades municipales de San Pedro Pochutla • Este espacio también acercará el servicio permanente para pruebas rápidas de sífilis y hepatitis C San Pedro Pochutla, Oax. 4 de julio de 2025.- El Consejo Estatal para la Prevención y Control del Sida (Coesida) instaló un...
Agencia Oaxaca MX
“Le deseo todo lo mejor”: Guardiola respalda a Torrent y a Rayados en el Mundial de Clubes El entrenador de Manchester City recordó su paso junto con Domenec Torrent rtrujilloMar, 01/07/2025 - 17:25
Record
Con el respaldo incondicional de su afición, muchas voces se han sumado con mensajes de apoyo al equipo mexicano, que logró un empate ante el Inter de Milán
El Informador
Enrique LópezLa ronda de octavos de final del Mundial de Clubes 2025 llegó a su final y únicamente quedan ocho equipos en competencia, mismos que buscarán el título del renovado torneo de la FIFA a partir del próximo viernes, conoce cuáles son los clubes sobrevivientes, los partidos que jugarán, así como las fechas y horarios de estos duel
Excelsior
Últimas noticias
Enfermeras Visitantes: esfuerzo clave para mejorar la recuperación de pacientes dados de alta en Puerto Rico
Resumen Semanal: Calor extremo, Ovidio Guzmán, IMSS-Bienestar desaparece, López Gatell
Gana Diario: los números que dieron la fortuna a los nuevos ganadores
Muerte del papa Francisco: Sheinbaum, Ebrard, Milei, Vance y Macron reaccionan | Francisco Zea
Los momentos más importantes en la vida del papa Francisco | Noticias con Francisco Zea
#ChingoDeMañas | #ENVIVO Somos un Chingo con Grecia y Ando
Sheinbaum lamenta la muerte del Papa Francisco: "Deja un gran legado de verdadero amor al prójimo"
El papá Francisco visitó México por única ocasión en 2016 durante la presidencia de ENP
"Una gran perdida": Claudia Sheinbaum lamenta la muerte del papa Francisco
El papa Francisco murió a las 7.35 horas de este lunes
Muere el Papa Francisco
La primera Semana Santa de la historia
¿Cómo estará el clima en Ciudad de Guatemala?
¿Cómo estará el clima en Quetzaltenango?
Los números que dieron fortuna a los nuevos ganadores de Super Once