Samtaler i korpusformat: Repræsentation af talesprog i LANCHARTs korpus-infrastruktur

Publikation: Bidrag til tidsskriftTidsskriftartikelForskningfagfællebedømt

Standard

Samtaler i korpusformat : Repræsentation af talesprog i LANCHARTs korpus-infrastruktur. / Diderichsen, Philip; Jensen, Torben Juel.

I: Nordlyd, Bind 47, Nr. 2, 2023, s. 77–89.

Publikation: Bidrag til tidsskriftTidsskriftartikelForskningfagfællebedømt

Harvard

Diderichsen, P & Jensen, TJ 2023, 'Samtaler i korpusformat: Repræsentation af talesprog i LANCHARTs korpus-infrastruktur', Nordlyd, bind 47, nr. 2, s. 77–89. https://doi.org/10.7557/12.7084

APA

Diderichsen, P., & Jensen, T. J. (2023). Samtaler i korpusformat: Repræsentation af talesprog i LANCHARTs korpus-infrastruktur. Nordlyd, 47(2), 77–89. https://doi.org/10.7557/12.7084

Vancouver

Diderichsen P, Jensen TJ. Samtaler i korpusformat: Repræsentation af talesprog i LANCHARTs korpus-infrastruktur. Nordlyd. 2023;47(2):77–89. https://doi.org/10.7557/12.7084

Author

Diderichsen, Philip ; Jensen, Torben Juel. / Samtaler i korpusformat : Repræsentation af talesprog i LANCHARTs korpus-infrastruktur. I: Nordlyd. 2023 ; Bind 47, Nr. 2. s. 77–89.

Bibtex

@article{a1a883a820af421d97540c443c243b17,
title = "Samtaler i korpusformat: Repr{\ae}sentation af talesprog i LANCHARTs korpus-infrastruktur",
abstract = "LANCHART-korpusset udg{\o}res dels af optagelser indsamlet i forbindelse med dialektologiske og sociolingvistiske projekter i 1960{\textquoteright}erne, 1970'erne og 1980'erne, dels af optagelser af samtaler indsamlet af Sprogforandringscentret p{\aa} K{\o}benhavns Universitet mellem 2005 og 2015. Geografisk d{\ae}kker korpusset en r{\ae}kke lokaliteter bredt fordelt i Danmark samt danske udvandrersamfund i Argentina, Canada og USA. Korpusset er i TextGrid-format, hvilket muligg{\o}r en direkte kobling mellem transskriptionerne og lydoptagelserne samt fleksibel annotation af ord og l{\ae}ngere tekstpassager. Korpusset er for nylig blevet relanceret i en ny s{\o}geinfrastruktur baseret p{\aa} Corpus Workbench (CWB) og den brugervenlige s{\o}gegr{\ae}nseflade Korp, som udover hurtige og fleksible s{\o}gninger udm{\ae}rker sig ved at v{\ae}re open source software der frit kan udvides med ny funktionalitet. Indl{\ae}sning af korpusdata i konkordansv{\ae}rkt{\o}jer som Korp kr{\ae}ver data i line{\ae}rt format, hvilket medf{\o}rer s{\ae}rlige problemstillinger i forhold til samtaledata, hvor der ofte forekommer overlap mellem talerne. I artiklen diskuterer vi disse problemstillinger og pr{\ae}senterer vores l{\o}sning i form af en ny partiturvisning, der viser taledataene med lydsporet synkroniseret til transskriptionen.",
keywords = "Det Humanistiske Fakultet, Korpuslingvistik, talesprogskorpus, samtaledata, LANCHART, annotation",
author = "Philip Diderichsen and Jensen, {Torben Juel}",
year = "2023",
doi = "10.7557/12.7084",
language = "Dansk",
volume = "47",
pages = "77–89",
journal = "Nordlyd",
issn = "0332-7531",
publisher = "Universitetet i Tromsoe Det Humanistiske Fakultet",
number = "2",
note = "Nordisk Dialektologkonference : Struktur, ideologi og mangfald ; Conference date: 15-08-2022 Through 17-08-2022",
url = "https://uit.no/tavla/artikkel/730114/tolvte_nordiske_dialektologkonferansen",

}

RIS

TY - JOUR

T1 - Samtaler i korpusformat

T2 - Nordisk Dialektologkonference

AU - Diderichsen, Philip

AU - Jensen, Torben Juel

N1 - Conference code: 12

PY - 2023

Y1 - 2023

N2 - LANCHART-korpusset udgøres dels af optagelser indsamlet i forbindelse med dialektologiske og sociolingvistiske projekter i 1960’erne, 1970'erne og 1980'erne, dels af optagelser af samtaler indsamlet af Sprogforandringscentret på Københavns Universitet mellem 2005 og 2015. Geografisk dækker korpusset en række lokaliteter bredt fordelt i Danmark samt danske udvandrersamfund i Argentina, Canada og USA. Korpusset er i TextGrid-format, hvilket muliggør en direkte kobling mellem transskriptionerne og lydoptagelserne samt fleksibel annotation af ord og længere tekstpassager. Korpusset er for nylig blevet relanceret i en ny søgeinfrastruktur baseret på Corpus Workbench (CWB) og den brugervenlige søgegrænseflade Korp, som udover hurtige og fleksible søgninger udmærker sig ved at være open source software der frit kan udvides med ny funktionalitet. Indlæsning af korpusdata i konkordansværktøjer som Korp kræver data i lineært format, hvilket medfører særlige problemstillinger i forhold til samtaledata, hvor der ofte forekommer overlap mellem talerne. I artiklen diskuterer vi disse problemstillinger og præsenterer vores løsning i form af en ny partiturvisning, der viser taledataene med lydsporet synkroniseret til transskriptionen.

AB - LANCHART-korpusset udgøres dels af optagelser indsamlet i forbindelse med dialektologiske og sociolingvistiske projekter i 1960’erne, 1970'erne og 1980'erne, dels af optagelser af samtaler indsamlet af Sprogforandringscentret på Københavns Universitet mellem 2005 og 2015. Geografisk dækker korpusset en række lokaliteter bredt fordelt i Danmark samt danske udvandrersamfund i Argentina, Canada og USA. Korpusset er i TextGrid-format, hvilket muliggør en direkte kobling mellem transskriptionerne og lydoptagelserne samt fleksibel annotation af ord og længere tekstpassager. Korpusset er for nylig blevet relanceret i en ny søgeinfrastruktur baseret på Corpus Workbench (CWB) og den brugervenlige søgegrænseflade Korp, som udover hurtige og fleksible søgninger udmærker sig ved at være open source software der frit kan udvides med ny funktionalitet. Indlæsning af korpusdata i konkordansværktøjer som Korp kræver data i lineært format, hvilket medfører særlige problemstillinger i forhold til samtaledata, hvor der ofte forekommer overlap mellem talerne. I artiklen diskuterer vi disse problemstillinger og præsenterer vores løsning i form af en ny partiturvisning, der viser taledataene med lydsporet synkroniseret til transskriptionen.

KW - Det Humanistiske Fakultet

KW - Korpuslingvistik

KW - talesprogskorpus

KW - samtaledata

KW - LANCHART

KW - annotation

U2 - 10.7557/12.7084

DO - 10.7557/12.7084

M3 - Tidsskriftartikel

VL - 47

SP - 77

EP - 89

JO - Nordlyd

JF - Nordlyd

SN - 0332-7531

IS - 2

Y2 - 15 August 2022 through 17 August 2022

ER -

ID: 346244263