Es handelt sich um einen natural language processing (NLP) Trainingsdatensatz. Modelle, die auf diesen Daten trainiert werden, sollen Behauptungen klassifizieren können, die wahr oder falsch sein können, also einen Wahrheitswert haben. Dies dient als Grundbaustein, um automatisiert Behauptungen aufzuspüren, die potentielle Desinformation sind. Ein Anwendungsfeld ist z.B. die Unterstützung von Faktenchecker:innen.
Insgesamt gibt es 4 Klassen: Aussage (Aussagesätze in Gegenwarts- oder Vergangenheitsform, die keine subjektive Inhalte mit sich tragen), Meinung (Aussagesätze, die subjektive Weltanschauungen mit sich tragen), Prognose (Aussagesätze, die in der Zukunftsform sind) und Sonstiges (Sätze, die keine Aussagesätze sind, also z.B. Fragen oder Befehle).