Institut für Angewandte Sprachforschung - Projects - DAMICO

DAMICO

Data Mining in der Korpuslinguistik

Deutsch
English
Italiano

Project duration: September 2016 - December 2021
Project status: finished
Institute: Institut für Angewandte Sprachforschung

In ihrem Doktoratsprojekt zum Thema “Data-Mining in Corpus Linguistscs“ versucht Jennifer-Carmen Frey zwischen Informatik und Linguistik zu vermitteln und aktuelle Methoden aus dem Data-Mining und deren Anwendbarkeit für die Korpuslinguistik zu analysieren. Im Zuge des Projektes sollen dem Stand der Technik entsprechende Methoden der Datenanalyse, (vornehmlich mittels maschinellen Lernens) an korpuslinguistische Fragestellungen und Projekte angepasst und anhand von prototypischen Implementationen evaluiert werden. Zentrale Fragestellungen des Projekts sind, ob Data-Mining Methoden der Korpuslinguistik dienlich sein können, weil sie a) bestehende Forschungsergebnisse reproduzieren und somit validieren können und b) weitere linguistisch relevante Zusammenhänge anhand der bestehenden Informationen in den untersuchten Korpora aufdecken und somit den Linguisten auf weitere Forschungsfragen aufmerksam machen können. Die Ergebnisse des Projekts umfassen eine Auswahl passender Methoden sowie eine eingehende Evaluation und Diskussion ihres Potenzials und ihrer Schwächen. Zudem sollen die im Projekt erstellten Prototypen für die Nutzung von anderen, nicht zwangsläufig technisch orientierten, Korpuslinguisten als Plug-Ins für populäre Korpus-Software zur Verfügung gestellt werden.

Publications

Lexikalische Komplexität im Kontext holistischer Textbewertungen
Frey JC (2020)
Vortrag

Conference: Mehrsprachigkeit und Lernerkorpora | Bolzano | 13.2.2020 - 13.2.2020

https://hdl.handle.net/10863/14953

Using Data Mining to Repurpose German Language Corpora. An evaluation of data-driven analysis methods for corpus linguistics
Frey J (2020)
Doktorarbeit (PhD)

https://hdl.handle.net/10863/17321

Comparison of Automatic vs. Manual Language Identification in Multilingual Social Media Texts
Frey JC, Stemle E, Doğruöz AS (2019)
Buchkapitel
Building computer-mediated communication corpora for socio-linguistic analysis

https://hdl.handle.net/10863/10130

The myth of the Digital Native? Analysing language use of different generations in Facebook
Frey JC, Glaznieks A (2018)
Beitrag in Konferenzband

Was wir bewerten, wenn wir Schülertexte bewerten: Menschliche Bewertungen und digitale Zugänge zu ihren empirischen Spuren
Frey JC (2018)
Vortrag

Conference: Expertenworkshop MIT.Qualität | Mannheim | 18.6.2018 - 19.6.2018

The myth of the Digital Native: Analysing language use of different generations on Facebook
Frey JC, Glaznieks A (2018)
Vortrag

Conference: 6th Conference on CMC and Social Media Corpora for the Humanities (cmccorpora18) | Antwerp | 17.9.2018 - 18.9.2018

Sociolinguistic research using the DiDi corpus of South Tyrolean CMC: From corpus-based research designs to computational linguistic challenges
Frey CF, Stemle EW, Glaznieks A (2018)
Vortrag

Conference: 44. Österreichische Linguistiktagung 2018 (ÖLT2018) | Innsbruck | 26.10.2018 - 28.10.2018

Measuring Text Quality in the Digital Age: The Project “MIT.Qualität”
Glaznieks A, Linthe M, Frey JC (2018)
Vortrag

Conference: 1st Literary Summit | Porto | 1.11.2018 - 3.11.2018

The Myth of the Digital Native: Analysing language use of different generations on Facebook
Frey JC, Glaznieks A (2018)
Beitrag in Konferenzband

Conference: 6th Conference on CMC and Social Media Corpora for the Humanities (cmccorpora18) | Antwerp | 17.9.2018 - 18.9.2018

Weitere Informationen: https://www.uantwerpen.be/images/uantwerpen/container49896/f ...

https://hdl.handle.net/10863/8093

A data mining approach to digital age
Frey J (2017)
Forlì
Vortrag

Conference: DIT Postgraduate Research Workshop | Forlì | 6.7.2016 - 6.7.2016

DiDi: A multilingual corpus of non-public South Tyrolean computer-mediated communication
Frey J (2016)
Lancaster
Vortrag

Conference: UCREL Summer School in corpus-based NLP | | 10.7.2016 - 15.7.2016

Our partners