Gwarantuję że każda poważna firma zajmująca AI trenuje swoje modele na co najmniej “niejasnych prawnie” danych tylko się nie przyznaje. Prawo zupełnie nie nadąża za AI, a koncept własności intelektualnej i tak jest do zaorania z perspektywy wolnościowej i lewicowej. To dotyczy nie tylko czatów ale też tego co nazywamy zazwyczaj Machine L:earning w ogóle, więc nie tylko słowa i czaty,
Raczej nie nazwałbym tego “trzymaniem ksiązki w pamięci” bo nie tak dizałają LLM - one tylko predykują kolejny najbardziej prawdopodobny token, co w przypadku czatu oznacza słowo. Dlatego czasem jak je prosimy o link to dostajemy link, a czasem ten link jest efektem halucynacji. Tak naprawdę czaty halucynują wszystko co generują, nie ma tam “sensu” w ludzkim rozumieniu.
IMO nie ma w tym nic złego, tak jak @Waćpan wspomina to przede wszystkim podkreśla problemy systemowe, klasyczną prywatyzację zysków i uspołecznienie kosztów. Chociaż tym razem przynajmniej te koszty są brane z przeszłości.