Blick in die Blackbox: KI-Trainingsdatensatz C4 schöpft auch aus trüben Quellen from Heise's blog

Colossal Clean Crawled Corpus (C4) dient Sprachmodellen als Trainingsgrundlage. Die Washington Post hat den Datensatz untersucht – er enthält Ungereimtheiten.


Source: https://www.heise.de/news/Blick-in-die-Blackbox-KI-Trainingsdatensatz-C4-schoepft-auch-aus-trueben-Quellen-8973782.html?wt_mc=rss.red.ho.ho.rdf.beitrag.beitrag


Previous post     
     Next post
     Blog home

The Wall

No comments
You need to sign in to comment

Post

By Heise
Added Apr 20 '23, 07:50PM

Tags

Rate

Your rate:
Total: (0 rates)

Archives