con respecto a esto puedo estar disiendo una chorrada por que no tengo ningun conocimiento al respecto, pero me surgio una duda si los LLM son solo modelos matematicos con una cantidad enorme de datos significa eso que sin empresas que recopilen todos esos datos los LLM no se hubieran podido crear jamas? almenos no al nivel en el que esta ahora? es solo una opinion pero repito no se nada del tema
Considerando que OpenAI cuando saco ChatGPT no pertenecía a ninguna corporación con masivas cantidades de datos como Google, Facebook o Twitter, yo diria que es perfectamente posible. Además, con Deepseak, que usa los datos de Common Crawl, lo confirma.
El “espionaje” a los usuarios es un problema real, y probablemente sí que usen sus modelos para analizar dichos datos, pero eso, para analizarlos, no como parte de su entrenamiento.
Noe acuerdo cual, pero hay un episodio de Tierra de Hackers en el que hablan sobre la posiblidad de que seamos la primera gwneración que tenga que renunciar a su privacidad por un bien mayor
La pregunta es tan general y ambigua, que merece una respuesta a su nivel:
¿Hubiera sido posible sin espiar a los usuarios?
R: Quizás.
Probablemente no, hay mucho conocimiento que estaba protegido por leyes de derechos de autor. Sin acceso a todo ese material los LLM no serían tan poderosos. De hecho, una de las discusiones modernas es si las grandes empresas de LLM deben o no pagar y reconocer por derechos de autor. Se escudan en el uso justo de los datos y además promueven discursos de violar todos los derechos intelectuales o perder la guerra ante otros países. Esa ha sido la posición reciente de EEUU y China, donde el argumento es, si defendemos las propiedades intelectuales, no habrá información suficiente para entrenar los modelos.
Se benefician de generar esa “guerra por la IA” así se pasan por encima las propiedades intelectuales. Es paradójico, porque en muchas instituciones académicas estaba demonizado fotocopiar libros completos o usar páginas para saltarse las pasarelas de pago de JSTOR o similares para que sus alumnos humanos pudieran aprender, pero está bien que OpenAI lo haga porque es un “uso justo” de la información…las cosas de este mundo…
La ley de derecho de autor es ridícula, por eso es imposible aplicarla a los LLM. Sencillamente todo lo que ha sido compartido, es propiedad de aquellos que hayan recibido una copia, sin importar el medio y de acuerdo a la naturaleza del mismo medio. Así funciona el Internet y por lo tanto, no hay ningún mal en que una máquina recopile todo lo compartido en Internet, puesto que desde un principio fue compartido todo con ella.
Lo que les duele a los políticos es que no han sido responsables en lo que han compartido y han obligado a compartir en Internet, entonces quieren restringir la naturaleza del Internet, porque son unos negligentes que creen que pueden cambiar el color del cielo, por decreto.
En ningún momento insinué que la ley de derechos de autor fuera buena o mala. Lo que es ridículo es que a la ley le apliquen excepciones arbitrarias, como la del uso por parte de los LLM. Y me remito a par de ejemplos, de vuelta las copias de libros en instituciones educativas o el pirateo de videojuegos u otro software. Cuándo lo hacen individuos por la razón que sea, son susceptibles de recibir penas legales, pero si lo hace OpenAI, Microsoft, Google, es un uso justo. Aún cuando todas ellas hayan hecho el esfuerzo de recopilar la información, eso no los hace necesariamente propietarios de la misma.
Primero hay que entender una cosa, la IA actual no es una IA como tal, solo es un programa de automatización a gran escala. Partiendo desde ahí, las empresas hace tiempo que recolectan datos de manera masiva, de hecho, se consideraba que habiamos concluido la era de las telecomunicaciones allá por el 2010-2012 y entramos en la era de la Big data, la era de la manipulación masiva de datos a nivel global.
Lo único que hicieron es crear un modelo de automatización que se alimenta de todos esos datos para “facilitar” muchas cosas.
Ninguna empresa actual con esfuerzos enfocados en la IA pudo lograrlo sin robar datos de usuarios, de sitios o de otras empresas.