Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-42312
Volltext verfügbar? / Dokumentlieferung
Titel: Revisiting Sample Size Determination in Natural Language Understanding
VerfasserIn: Chang, Ernie
Hassan Rashid, Muhammad
Lin, Pin-Jie
Zhao, Changsheng
Demberg, Vera
Shi, Yangyang
Chandra, Vikas
HerausgeberIn: Rogers, Anna
Sprache: Englisch
Titel: Findings of the Association for Computational Linguistics: ACL 2023 : July 9-14, 2023 : ACL 2023
Seiten: 6716-6724
Verlag/Plattform: ACL
Erscheinungsjahr: 2023
Erscheinungsort: Stroudsburg, PA
Konferenzort: Toronto, Canada
DDC-Sachgruppe: 004 Informatik
400 Sprache, Linguistik
Dokumenttyp: Konferenzbeitrag (in einem Konferenzband / InProceedings erschienener Beitrag)
Abstract: Knowing exactly how many data points need to be labeled to achieve a certain model performance is a hugely beneficial step towards reducing the overall budgets for annotation. It pertains to both active learning and traditional data annotation, and is particularly beneficial for low resource scenarios. Nevertheless, it remains a largely under-explored area of research in NLP. We therefore explored various techniques for estimating the training sample size necessary to achieve a targeted performance value. We derived a simple yet effective approach to predict the maximum achievable model performance based on small amount of training samples - which serves as an early indicator during data annotation for data quality and sample size determination. We performed ablation studies on four language understanding tasks, and showed that the proposed approach allows us to forecast model performance within a small margin of mean absolute error (~ 0.9%) with only 10% data.
Link zu diesem Datensatz: urn:nbn:de:bsz:291--ds-423120
hdl:20.500.11880/37984
http://dx.doi.org/10.22028/D291-42312
ISBN: 978-1-959429-62-3
Datum des Eintrags: 1-Jul-2024
Fakultät: MI - Fakultät für Mathematik und Informatik
Fachrichtung: MI - Informatik
Professur: MI - Prof. Dr. Vera Demberg
Sammlung:SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:
Es gibt keine Dateien zu dieser Ressource.


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.