• Inicio
  • Series y Películas
  • Actualidad
  • Negocios
  • Economía
  • Salud
  • Paises
    • México
    • España
    • Argentina
    • Estados Unidos
  • English
  • Login
Upgrade
Noticias en español para Latinos
  • Inicio
  • Series y Películas
  • Actualidad
  • Negocios
  • Economía
  • Salud
  • Paises
    • México
    • España
    • Argentina
    • Estados Unidos
  • English
No Result
View All Result
  • Inicio
  • Series y Películas
  • Actualidad
  • Negocios
  • Economía
  • Salud
  • Paises
    • México
    • España
    • Argentina
    • Estados Unidos
  • English
No Result
View All Result
Noticias en español para Latinos
No Result
View All Result
Home Sin categoría

LLMS de código abierto llegó a la hoja de ruta de soberanía digital de Europa

by
16 febrero, 2025
in Sin categoría
0
LLMS de código abierto llegó a la hoja de ruta de soberanía digital de Europa
0
SHARES
2
VIEWS
Compártelo en FacebookCompártelo en Twitter

Gran Language Models (LLMS) aterrizó en la agenda de soberanía digital de Europa con una explosión la semana pasada, ya que surgieron noticias de un nuevo programa para desarrollar una serie de LLM de código abierto «verdaderamente» que cubren todos los idiomas de la Unión Europea.

Esto incluye los 24 idiomas oficiales actuales de la UE, así como los idiomas para los países que actualmente negocian para ingresar al mercado de la UE, como Albania. La prueba futura es el nombre del juego.

Openeurollm es una colaboración entre unas 20 organizaciones, co-liderado por Jan Hajič, un lingüista computacional de la Universidad de Charles en Praga, y Peter Sarlin, CEO y cofundador de Finnish AI Lab Silo AI, que AMD adquirió el año pasado por $ 665 millones de $ 665 millones .

El proyecto se ajusta a una narración más amplia que ha visto a Europa empujar la soberanía digital como una prioridad, lo que le permite acercar la infraestructura y las herramientas de la misión crítica. La mayoría de los gigantes de la nube están invirtiendo en infraestructura local para garantizar que los datos de la UE permanezcan locales, mientras que AI Darling OpenAI presentó recientemente una nueva oferta que permite a los clientes procesar y almacenar datos en Europa.

En otros lugares, la UE recientemente firmó un acuerdo de $ 11 mil millones para crear una constelación satelital soberana para rivalizar con Starlink de Elon Musk.

Entonces Openeurollm es ciertamente en la marca.

Sin embargo, el presupuesto declarado solo para construir los modelos en sí mismos es de 37,4 millones de euros, con aproximadamente 20 millones de euros provenientes del programa Digital Europe de la UE, una caída en el océano en comparación con lo que los gigantes del mundo corporativo de IA están invirtiendo. El presupuesto real es más cuando tiene en cuenta los fondos asignados para el trabajo tangencial y relacionado, y posiblemente el mayor gasto es el cálculo. Los socios del Proyecto OpenEurollm incluyen los Centros de Supercomputadoras EuroHPC en España, Italia, Finlandia y los Países Bajos, y el proyecto EuroHPC más amplio tiene un presupuesto de alrededor de € 7 mil millones.

Pero la gran cantidad de partidos participantes dispares, que abarcan la academia, la investigación y las corporaciones, han llevado a muchos a cuestionar si sus objetivos son alcanzables. Anastasia Stasenko, cofundadora de la compañía LLM Pleias, cuestionó si un «consorcio extenso de más de 20 organizaciones» podría tener el mismo enfoque medido de una empresa de IA privada de cosecha propia.

«Los éxitos recientes de Europa en IA brillan a través de pequeños equipos enfocados como Mistral AI y Lighton, compañías que realmente poseen lo que están construyendo», escribió Stasenko. «Llevan la responsabilidad inmediata de sus elecciones, ya sea en finanzas, posicionamiento del mercado o reputación».

Hasta cero

El proyecto Openeurollm está comenzando desde cero o tiene una ventaja, dependiendo de cómo lo vea.

Desde 2022, Hajič también ha estado coordinando el proyecto de tecnologías de lenguaje de alto rendimiento (HPLT), que se ha propuesto desarrollar conjuntos de datos, modelos y flujos de trabajo gratuitos y reutilizables utilizando computación de alto rendimiento (HPC). Ese proyecto está programado para finalizar a fines de 2025, pero puede verse como una especie de «predecesor» para Openeurollm, según Hajič, dado que la mayoría de los socios de HPLT (aparte de los socios del Reino Unido) también participan aquí.

«Este [OpenEuroLLM] es realmente solo una participación más amplia, pero más centrada en los LLM generativos ”, dijo Hajič. “Por lo tanto, no está comenzando desde cero en términos de datos, experiencia, herramientas y experiencia de cálculo. Hemos reunido personas que saben lo que están haciendo, deberíamos poder ponernos al día rápidamente ”.

Hajič dijo que espera que las primeras versión (s) sean lanzadas a mediados de 2026, con la (s) iteración (s) final (s) final por la conclusión del proyecto en 2028. Pero esos objetivos aún pueden parecer elevados cuando se considera que no hay mucho. Presionar aún más allá de un perfil de GitHub.

«En ese sentido, estamos comenzando desde cero: el proyecto comenzó el sábado [February 1]», Dijo Hajič. «Pero hemos estado preparando el proyecto durante un año [the tender process opened in February 2024]. «

Desde la academia e investigación, las organizaciones que abarcan la checia, los Países Bajos, Alemania, Suecia, Finlandia y Noruega son parte de la cohorte de Openeurollm, además de los Centros Eurohpc. Desde el mundo corporativo, el Silo AI de AI AMD de Finlandia está a bordo, al igual que Aleph Alpha (Alemania), Ellamind (Alemania), Prompsit Language Engineering (España) y Lighton (Francia).

Una omisión notable de la lista es la de French Ai Unicorn Mistral, que se ha posicionado como una alternativa de código abierto a los titulares como OpenAI. Mientras que nadie de Mistral respondió a Tecno para hacer comentarios, Hajič confirmó que trató de iniciar conversaciones con la startup, pero fue en vano.

«Traté de acercarme a ellos, pero no ha resultado en una discusión enfocada sobre su participación», dijo Hajič.

El proyecto aún podría reunir nuevos participantes como parte del programa de la UE que proporciona fondos, aunque se limitará a las organizaciones de la UE. Esto significa que las entidades del Reino Unido y Suiza no podrán participar. Esto vuela en contraste con el programa de I + D de Horizon, que el Reino Unido se unió en 2023 después de un estancamiento del Brexit prolongado y que proporcionó fondos a HPLT.

Reunir

El objetivo de la línea superior del proyecto, según su lema, es crear: «Una serie de modelos de base para IA transparente en Europa». Además, estos modelos deben preservar la «diversidad lingüística y cultural» de todos los idiomas de la UE: actuales y futuros.

A lo que esto se traduce en términos de entregables todavía se está planchando, pero es probable que signifique una LLM multilingüe central diseñada para tareas de propósito general donde la precisión es primordial. Y luego también versiones «cuantificadas» más pequeñas, tal vez para aplicaciones de borde donde la eficiencia y la velocidad son más importantes.

«Esto es algo de lo que todavía tenemos que hacer un plan detallado», dijo Hajič. “Queremos tenerlo lo más pequeño pero de alta calidad posible. No queremos lanzar algo que esté a medias, porque desde el punto de vista europeo, este es un alto riesgo, con mucho dinero proveniente de la Comisión Europea: dinero público «.

Si bien el objetivo es hacer que el modelo sea lo más competente posible en todos los idiomas, lograr la igualdad en todos los ámbitos también podría ser un desafío.

«Ese es el objetivo, pero es la pregunta de lo exitosos con los idiomas con escasos recursos digitales», dijo Hajič. «Pero también es por eso que queremos tener verdaderos puntos de referencia para estos idiomas, y no ser influenciados hacia puntos de referencia que quizás no sean representativos de los idiomas y la cultura detrás de ellos».

En términos de datos, aquí es donde gran parte del trabajo del proyecto HPLT resultará fructífero, con la versión 2.0 de su conjunto de datos publicado hace cuatro meses. Este conjunto de datos fue capacitado 4.5 petabytes de rastreos web y más de 20 mil millones de documentos, y Hajič dijo que agregarán datos adicionales de Common Crawl (un repositorio abierto de datos gastados en la web) a la mezcla.

La definición de código abierto

En el software tradicional, la lucha perenne entre el código abierto y el patentado gira en torno al significado «verdadero» de «código abierto». Esto se puede resolver diferiendo a la «definición» formal según la iniciativa de código abierto, los administradores de la industria de las licencias de código abierto legítimas y no son legítimas.

Más recientemente, el OSI ha formado una definición de «IA de código abierto», aunque no todos están contentos con el resultado. Los proponentes de IA de código abierto argumentan que no solo los modelos deben estar disponibles libremente, sino también los conjuntos de datos, modelos previos a la aparición, pesos, el shebang completo. La definición de la OSI no hace que los datos de capacitación sean obligatorios, porque dice que los modelos de IA a menudo están capacitados en datos o datos patentados con restricciones de redistribución.

Baste decir que el Openeurollm se enfrenta a estos mismos dilemas, y a pesar de sus intenciones de ser «verdaderamente abiertos», probablemente tendrá que hacer algunos compromisos para cumplir con sus obligaciones de «calidad».

“El objetivo es tener todo abierto. Ahora, por supuesto, hay algunas limitaciones ”, dijo Hajič. “Queremos tener modelos de la más alta calidad posible, y según la Directiva Europea de Derechos de Autor Europeo, podemos usar cualquier cosa que podamos tener en nuestras manos. Algunos de ellos no pueden redistribirse, pero algunos de ellos se pueden almacenar para una inspección futura «.

Lo que esto significa es que el proyecto OpeneUrollm podría tener que mantener algunos de los datos de capacitación en Wraps, pero estar disponibles para los auditores a pedido, según sea necesario para los sistemas de IA de alto riesgo bajo los términos de la Ley de AI de la UE.

«Esperamos que la mayoría de los datos [will be open]especialmente los datos provenientes del rastreo común ”, dijo Hajič. “Nos gustaría tenerlo todo completamente abierto, pero ya veremos. En cualquier caso, tendremos que cumplir con las regulaciones de IA «.

Dos para uno

Otra crítica que surgió después de la presentación formal de Openeurollm fue que un proyecto muy similar se lanzó en Europa solo unos pocos meses antes. Eurollm, que lanzó su primer modelo en septiembre y un seguimiento en diciembre, es cofinancionado por la UE junto con un consorcio de nueve socios. Estos incluyen instituciones académicas como la Universidad de Edimburgo y corporaciones como Unbabel, que el año pasado ganó millones de horas de capacitación en GPU en las supercomputadoras de la UE.

EUROLLM comparte objetivos similares a su apogeo cercano: «Construir un modelo de lenguaje grande europeo de código abierto que respalde 24 idiomas europeos oficiales y algunos otros idiomas estratégicamente importantes».

Andre Martins, jefe de investigación en Unbabel, recurrió a las redes sociales para resaltar estas similitudes, señalando que OpenEurollm se está apropiando de un nombre que ya existe. «Espero que las diferentes comunidades colaboren abiertamente, compartan su experiencia y no decidan reinventar la rueda cada vez que se financia un nuevo proyecto», escribió Martins.

Hajič calificó la situación como «desafortunada», y agregó que esperaba que pudieran cooperar, aunque enfatizó que debido a la fuente de su financiación en la UE, Openeurollm está restringido en términos de sus colaboraciones con entidades que no son UE, incluidas el Reino Unido. universidades.

Brecha de financiación

La llegada de Deepseek de China, y la relación costo / rendimiento que promete, ha dado cierta aliento de que las iniciativas de IA podrían hacer mucho más con mucho menos de lo inicialmente pensado. Sin embargo, en las últimas semanas, muchos han cuestionado los verdaderos costos involucrados en la construcción de Deepseek.

«Con respecto a Deepseek, en realidad sabemos muy poco sobre lo que fue exactamente para construirlo», dijo a Tecno Peter Sarlin, co-líder técnico en el proyecto Openeurollm.

De todos modos, Sarlin reconoce que Openeurollm tendrá acceso a fondos suficientes, ya que es principalmente para cubrir a las personas. De hecho, una gran parte de los costos de construir sistemas de IA es calculador, y eso debe cubrirse principalmente a través de su asociación con los Centros EuroHPC.

«Se podría decir que Openeurollm en realidad tiene un presupuesto bastante significativo», dijo Sarlin. «Eurohpc ha invertido miles de millones en IA y calculación de infraestructura, y ha cometido miles de millones más en expandir eso en los próximos años».

También vale la pena señalar que el proyecto Openeurollm no se está construyendo hacia un producto de grado de consumo o empresa. Se trata puramente de los modelos, y es por eso que Sarlin reconoce que el presupuesto que tiene debería ser amplio.

«La intención aquí no es construir un chatbot o un asistente de IA, esa sería una iniciativa de producto que requiere mucho esfuerzo, y eso es lo que ChatGPT hizo muy bien», dijo Sarlin. “Lo que estamos contribuyendo es un modelo de base de código abierto que funciona como la infraestructura de IA para las empresas en Europa. Sabemos lo que se necesita para construir modelos, no es algo para lo que necesite miles de millones «.

Desde 2017, Sarlin ha encabezado AI Lab Silo AI, que se lanzó, en asociación con otros, incluido el Proyecto HPLT, la familia de los modelos abiertos de Poro y Viking. Estos ya apoyan un puñado de idiomas europeos, pero la compañía ahora está preparando la próxima iteración …

Continuar leyendo: LLMS de código abierto llegó a la hoja de ruta de soberanía digital de Europa

ADVERTISEMENT

Related Posts

Aquí está cómo ver Llamacon, el primer evento de desarrollador de IA de Meta
Sin categoría

Aquí está cómo ver Llamacon, el primer evento de desarrollador de IA de Meta

by
29 abril, 2025
Google Wallet Agregar tarjeta NFC Agregar sistema para Android
Sin categoría

Google Wallet Agregar tarjeta NFC Agregar sistema para Android

by Pilar Benegas
29 abril, 2025
Prefiero hacerme el harakiri antes que fracasar
Sin categoría

Prefiero hacerme el harakiri antes que fracasar

by Oliver Roberts
29 abril, 2025
Motorola Edge 60 Pro Review: Hands-On
Sin categoría

Motorola Edge 60 Pro Review: Hands-On

by Pilar Benegas
29 abril, 2025
Spotify agrega a los suscriptores como amantes de la música sintonizan el arancel de Trump ‘Noise’
Sin categoría

Spotify agrega a los suscriptores como amantes de la música sintonizan el arancel de Trump ‘Noise’

by Corresponsal Europa News
29 abril, 2025

Premium Content

No me creo ni una sola palabra de lo que dicen Trump y Putin sobre Ucrania

No me creo ni una sola palabra de lo que dicen Trump y Putin sobre Ucrania

19 marzo, 2025
La «Mejor película de superhéroes» del año Sparks Mass Mass en proyecciones secretas

La «Mejor película de superhéroes» del año Sparks Mass Mass en proyecciones secretas

26 agosto, 2025
Joel Edgerton, Felicity Jones Netflix Movie

Joel Edgerton, Felicity Jones Netflix Movie

24 julio, 2025

Browse by Tags

adultos mayores cdmx celebridades CFE condado de Orange cosas que hacer deportes deportes universitarios Donald Trump EDOMEX EE.UU entretenimiento Florida Florida Gators Gerard Piqué global horóscopos inteligencia artificial Internacionales Mhoni Vidente México negocio Netflix noticias Noticias del mundo noticias locales noticias nacionales pagar pensionistas pensión de bienestar Pensión IMSS política política nacional puntajes de la escuela secundaria qué ver red SE SENTÓ Shakira signos del zodiaco Socio de contenido Tecno Terra.com.mx transporte público Ángela Aguilar Últimos titulares

Red de Noticias

Noticias de Miami

Promociones Argentinas

Diario de Inteligencia Artificial

Jimena Diaz Diario UNO

Es De Latino News

Noticias en español para Latinos

Noticias en español para Estados Unidos y LatinoAmérica

Acerca de EDL

Quienes Somos EDL

Contactar Es de Latino

Términos y Condiciones

2025 - Todos los derechos reservados -Evisos

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Inicio
  • Series y Películas
  • Actualidad
  • Negocios
  • Economía
  • Salud
  • Paises
    • México
    • España
    • Argentina
    • Estados Unidos
  • English

2025 - Todos los derechos reservados -Evisos

Ir a la versión móvil