Introduktion til Korpus CorDiale

Søgbart korpus af samtaler med danskere


Indholdsfortegnelse (klikbar)

  1. Hjælp til søgning
  2. Sammensætning og størrelse
  3. Samtalerne
  4. Emner
  5. Lokaliteter
  6. Sproget
  7. Transskriptionen
  8. Tekstversioner
  9. Lydmateriale
  10. Tekniske detaljer
  11. Referencer (herunder ordbøger)
  12. Sidste nyt

 


 

1. Hjælp til søgning i CorDiale

Man kan søge på følgende måder: Disse tre måder kan også kombineres.

1.1 Søgning på ord

Søgning på ord (eller orddele) sker ved at skrive et (eller flere) søgeord, fx "høhøst" eller "mænd og kvinder", i tekstfeltet nederst på siden og derefter klikke på Start søgning (OBS: Retur-tasten kan ikke bruges til at starte søgningen). Søgemaskinen vil herefter vise alle steder, hvor det pågældende ord optræder. Resultatet ses i den midterste ramme og består af et antal linjer, som hver viser en forekomst af ordet i en transskription.

Ved at klikke på tekstidentifikationen til venstre for den enkelte linje (fx 0583,1 (1963)) kan man se hele transskriptionen i resultatrammen. Umiddelbart før selve teksten begynder, kan man se antallet af forekomster af det søgte ord i teksten (1, 2, osv.). Hvis man klikker på disse tal, hopper man ned til den linje i teksten, hvor ordet optræder. Ved at klikke på ordet igen hopper man videre til næste forekomst.

Øverst til højre i resultatrammen ses knapperne grundtekst, ren tekst og info. Knappen grundtekst viser teksten med den oprindelige tegnsætning m.v.; ren tekst viser teksten, som den ser ud, når der søges; info viser en række detaljerede oplysninger om tekst, meddeler og interviewer. Man kan læse mere om transskriptionen her og mere om de forskellige versioner af teksterne her.

Der kan også foretages mere komplicerede søgninger ved hjælp af regulære udtryk.

1.2 Søgning på emne m.v.

Ved at benytte knapperne Lokalitet, Emne og Optagelse kan man foretage en emneorienteret søgning. Derimod er det ikke muligt at benytte knappen Persondata, som kun kan bruges ved samtidig søgning på ord eller regulære udtryk.

Hvis man fx klikker på knappen Lokalitet, dukker en oversigt over lokaliteter op i det midterste vindue. Herfra kan man vælge en landsdel, et herred eller et sogn (fx 0376 SLAGLILLE S). Valget af lokalitet ses herefter nederst på siden, under søgefeltet (TOP 376). Hvis man nu klikker på "Start søgning", returnerer søgemaskinen alle tekster fra pågældende landsdel, herred eller sogn.

På tilsvarende vis kan man bruge knapperne Emne og Optagelse. Bemærk, at man ved brug af knappen Optagelse skal huske at bekræfte sit valg ved at klikke på OK, inden man klikker på Start søgning.

Knapperne kan bruges enkeltvis eller i kombination, og ens valg vil altid blive vist nederst på siden, under søgefeltet.

Man kan læse mere om opdelingen i lokaliteter her og mere om emneinddelingen her.

1.3 Søgning på ord og emne i kombination

Søgning på ord kan kombineres med valg af Lokalitet, Emne, Persondata og Optagelse. På denne måde kan man begrænse sin ordsøgning og kun søge i de tekster, man særligt interesserer sig for. I stedet for at søge på "høhøst" i hele Danmark, kan man fx nøjes med at søge i tekster fra Fyn (Lokalitet), i tekster om høst (Emne), i tekster om høst fra Fyn (Emne og Lokalitet), osv.

Først vælger man de tekster, man særligt interesserer sig for, ved at benytte knapperne Lokalitet, Emne, Persondata og Optagelse. Derefter skriver man et søgeord ind i søgefeltet og klikker på Start søgning. Bemærk, at man ved brug af knapperne Persondata og Optagelse skal huske at bekræfte sit valg ved at klikke på OK, inden man klikker på Start søgning.

1.4 Søgning ved hjælp af regulære udtryk

Den række af tegn, der skrives i søgefeltet, vil typisk være et (eller flere) ortografiske ord, fx "høhøst", "mænd og kvinder" eller "rygeost". Men man kan også søge ved hjælp af et såkaldt regulært udtryk (regular expression, RE), fx "(K|Ch)ristian" eller "en €# gård". Dermed gives der i CorDiale også mulighed for at foretage detaljerede søgninger, fx efter særlige bøjningsformer eller stavevarianter.

De regulære udtryk, der bruges til søgemaskinen i CorDiale, er fuldstændigt defineret i Wall &al. Bemærk dog fire forskelle:

  1. Tegnet _ (underscore) står for ordgrænse i CorDiale.
  2. Tegnet + (plus) må ikke benyttes i CorDiale-søgestrenge.
  3. Tegnet(redningskrans) står for et vilkårligt bogstav.
  4. Tegnet # (havelåge, hash) benyttes for "1-eller-flere".
I tabellen ses de vigtigste RE-symboler.

SymbolStår forRE, eksempelFund, eksempler
_ Ordgrænse _hest_ 'hest', men ikke fx
'arbejdshest' eller 'hestevogn'
? 0 el. 1 af forudgående tegn tig?er 'tier', 'tiger'
÷'tigger'
# 1 el. flere af forudgående tegn tig#er 'tiger', 'tigger'
÷'tier'
* 0 el. flere af forudgående tegn tig*er 'tier', 'tiger', 'tigger'
1 vilkårligt bogstav en €# gård 'en gammel gård', 'en stor gård'
÷'en gård'
. 1 vilkårligt tegn (inkl. blanktegn) ko.de 'kolde', 'ko de'
÷'kode'
[xy...] 1 tegn: x eller y (eller ...) [Hhd]ans 'Hans', 'dans'
÷'ans', ÷'sans'
[^xy...] 1 tegn: hverken x eller y (eller ...) [^Hhd]ans 'Jans', '-ans'
÷'Hans', ÷'ans'
s|t|... Strengen s eller strengen t (eller...) 1. du|jeg|man
2. h(an|ende)s
1. 'jeg'
2. 'hendes'
(xyz) Ved at indeslutte en del af søgestrengen i parenteser kan man referere til den som beskrevet herunder.
{m} m af forudgående tegn el. parentes 1. i{2}h
2. (hi){2}
1. 'iih', ÷'iiih'
2. 'hihi', ÷'hi'
{m,n} m-n af forudgående tegn el. parentes 1. i{2,4}h
2. (hi){2,4}
1. 'iiiih', ÷'ih'
2. 'hihihihi'
\1 identisk med den forudgående parentes 1. (b€€n) er \1
2. (€a)\1o
1. 'børn er børn'
2. 'kakao', 'cacao'
\n identisk med den nte af de forudgående parenteser jf. Wall et al 1996


2. CorDiale's sammensætning og størrelse


3. Samtalerne

Korpus CorDiale er en tekstsamling bestående af interview med ældre, dialekttalende mennesker fra alle dele af landet. Teksterne er udskrifter af lakplader og båndoptagelser i arkivet ved Center for Dialektforskning, Københavns Universitet.

Interviewene er optaget i perioden 1934-1994, og formålet med optagelserne var at bevare prøver på de gamle dialekter. Overalt har man forsøgt at finde fortællere, der talte så gammeldags og ublandet dialekt som muligt, og fortællerne er derfor gamle mennesker.

De dialekttalende fortæller om dagliglivet i deres ungdom, om de arbejder de har deltaget i, om personlige oplevelser og om begivenheder de har fået fortalt. Se videre under Emner.

Nogle af beretningerne er overvejende saglige: De handler om generelle forhold, fx om hvordan man plejede at slagte eller høste. Andre er overvejende anekdotiske eller narrative: De handler om bestemte begivenheder, og de har tit karakter af "gode historier", som fortælleren før har fortalt til familie og bekendte.

Fortællerne har som regel boet hele deres liv i samme sogn, og teksterne er derfor lokaliseret til sogne (se videre under Lokaliteter). De fleste har været beskæftiget ved landbrug eller fiskeri, men der er også enkelte håndværkere imellem.

Interviewerne er medarbejdere ved Center for Dialektforskning, i enkelte tilfælde også lokale folk eller andre. Interviewerne er med deres spørgsmål med til at bestemme emnerne. For at få det gamle ordforråd og den gamle dialekt frem, spørger interviewerne tit til livet i "gamle dage". De stiller uddybende spørgsmål, især til de saglige beretninger, men overlader som regel ordet så meget som muligt til fortællerne.


4. Emner

Fortællerne fortæller om

Ofte fortælles der om meget gammeldags forhold, fx om hvordan man såede med hånd, høstede med mejetøj, tærskede med plejl, fiskede med drivgarn, bagte i den store bageovn og bryggede øl. Eller hvordan man spiste af samme fad.

Ved klik på knappen Emne fås en liste over emner. Listen er en revideret udgave af den registrant, der har været brugt i mange år ved Afdeling for Dialektforskning, når man registrerede indholdet i båndoptagelser, optegnelser og litteratur.

Ved klik på listen kan man vælge et emne eller et underemne.

Det er langt fra alle emner på listen, der er repræsenteret i CorDiale.


5. Lokaliteter

Hver tekst i CorDiale er henført til et sogn, fortællerens hjemsogn. 150 sogne er repræsenteret (ud af ca. 2000 mulige). Alle sogne er landsogne. Der er ingen tekster fra købstæder. Sognene er markeret med rødt på landkortet på forsiden.

Ved klik på en rød prik på landkortet sendes man straks til søgning i alle tekster fra det givne sogn.

Ved klik på grønne områder sendes man til søgning i alle tekster fra den givne landsdel.

Ved klik på knappen Lokalitet fås en liste over lokaliteter, ordnet i 3 niveauer:

Ud fra listen kan man vælge: Alle landsdele, herreder og sogne er identificeret ved et nummer. Numrene er taget fra Topografisk Ordning af Danmarks Egne, udg. af Dansk Folkemindesamling (revideret udg. 1967). Inddelingen i landsdele er dog revideret lidt i forhold til Topografisk Ordning. Samtalerne er identificeret ved et nummer, fx


6. Sproget

Det sprog, der tales af fortællerne, er den lokale dialekt i så gammel og ublandet en form, som det var muligt at finde på optagelsernes tid og sted. Det vil sige, at ordforråd, udtale og grammatik er dialektal. Optagelserne er imidlertid transskriberet med rigsmålets ortografi (se under Transskriptionen), og den dialektale udtale og bøjning er derved stort set skjult. Men ordforråd og ordstilling er uændret.

Teksterne indeholder mange ord, der er ukendte for de fleste moderne læsere. Det drejer sig dels om fagord fra ældre landbrug, fiskeri og håndværk, og dels om dialektale ord. Endelig er der en del ord, der er kendt fra rigsmålet, men som har en afvigende betydning i dialekterne, fx kilde brønd, kok hane og liderlig skrækkelig, irriterende og lign. Blandt mere kendte dialektord er nægtelserne inte, inne, itte ikke, og jysk a jeg og te at.

I mange tilfælde vil ordenes betydning fremgå af konteksten, men ellers kan man søge hjælp ved at slå op i ordbøger eller ved at rette forespørgsel til Center for Dialektforskning (gudik@hum.ku.dk, kmp@hum.ku.dk) eller til Peter Skautrup Centret (Jysk Ordbog) (jyskl@cc.au.dk).

Ordstillingen er først og fremmest markant ved at afspejle talesprog. Der forekommer mange ordgentagelser og mange ufuldstændige sætninger i teksterne, således som det er normalt i talesprog. Herudover er der ordstillinger, der er karakteristiske for visse dialekter eller dialektgrupper. Fx hedder det jeg har fået solgt huset øst for Storebælt, men jeg har fået huset solgt vest for Storebælt.

I nogle dialekter er substantivernes gamle trekønssystem bevaret, med hankøn, hunkøn og intetkøn. Det fremgår ikke af teksterne, hvor der fx skrives en dag, dagen, selv om en og -en har hankønsform. I de mest gammeldags tekster kan man dog finde eksempler på henvisning til hankøns- og hunkøns-ord med han og hun, fx der lå end sten her ... og jeg kunne itte flytte ham (nemlig stenen).

I de vestjyske dialekter findes et særligt tokønssystem, hvor alle tællelige størrelser er fælleskøn, og alle utællelige er intetkøn. Det hedder fx en hus, den hus, men noget mælk, det mælk. Dette system er gengivet i teksterne.

Også vestjysk og sønderjysk foransat artikel er gengivet, fx æ mand manden.


7. Transskriptionen

Teksterne er transskriberet i rigsmålsortografi. Ord, der ikke findes i rigsdansk, er gengivet i den staveform, de ville have, hvis de var rigsdanske.

I de ældre transskriptioner er ordene i princippet henført til de opslagsformer, de har i Ordbog over det Danske Sprog, ODS. Formerne hugse og hovse skrives således huske, fordi hugse og hovse er behandlet under huske i ODS. Reglen er dog ikke gennemført konsekvent, og i de yngre transskriptioner er den undertiden brudt bevidst, fx ved at der skelnes mellem hugse og huske.

Ordenes identitet er bevaret, og der skrives fx han havde ikke hans egen stue (jf. rigsdansk: sin egen stue), det ville de itte finde dem i (jf. rigsdansk: finde sig i), og jeg fik jo da óg jollen (jf. rigsdansk: fik jo da også jollen).

Alle ord er medtaget, også ved gentagelse (fx og så havde vi jo en en rage).

Transskriptøren KN har dog i visse tilfælde forkortet nogle af interviewerreplikkerne.

Tryk er kun betegnet i 15 jyske tekster: Caret (^) foran et ord betegner, at ordet har tryk , fx ^hus. Dobbelt-caret (^^) foran et ord betegner, at ordet har to tryk, fx ^^husmand, med hovedtryk på hus og bitryk på mand.

x, xx, xxx betegner ord eller passager, der ikke kunne identificeres.

( ) rund parentes om ord betegner, at identificeringen er usikker.

(i), (at), (på), (til) i tekster fra Ærø betegner, at ordene i, at, , til er udeladt (hvad der er normalt i ærøsk dialekt, jf. Danske Folkemål 1990, p. 99ff).

Tøvelyde og stammen er ikke medtaget.

Intonation og pauser er ikke markeret.


8. Tekstversioner

Teksterne foreligger i CorDiale i to versioner:

ren tekst er den tekst, hvori der søges. Den indeholder ingen tegnsætning, og ny sætning begynder med lille bogstav (jf. videre under Transskriptionen).

grundtekst har tegnsætning (punktum, komma og spørgsmålstegn etc.), og der begyndes med stort bogstav efter punktum. Nogle af grundteksterne indeholder tidsreferencer til lydbåndet, fx 1:00, 1:01, 1:02, 1:03 = 1 min. og hhv. 0, 15, 30 og 45 sek. inde på båndet.

Søgeresultater vises i ren tekst, men man kan skifte mellem ren tekst og grundtekst ved at klikke på knapperne ren tekst og grundtekst.

Uden for CorDiale foreligger nogle af teksterne tillige i (1) en opmærket version og (2) en lydskreven version.

8.1 Opmærket version (p.t. ikke tilgængelig over www)

De ældste transskriptioner er fra 1970'erne. De blev transskriberet efter følgende konventioner:

Teksterne er ordrette; de er i rigsmålsortografi med visse modifikationer: Hvert ord er opmærket med et tocifret tal, der angiver ordklasse og bøjningsform (fx hus12, 12 = sb. sg. nom.). Bestemthed er markeret ved + foran endelsen (fx hus12+et). Hankøn er markeret ved staveformen -nd (fx end20 dag12, dag12+end). Sammensætninger er markeret ved / i fugen (fx hus/mand12). Tegnsætningen er anvendt til grammatisk markering af hoved- og ledsætninger. Der er angivet tryk (fx ^^hus/mand12).

I utrykte tekster er der indsat tidsreferencer til lydbåndet (fx 1:00, 1:01, 1:02, 1:03 = 1 min. og hhv. 0, 15, 30 og 45 sek. inde på båndet.). I tekster, der også foreligger i en trykt, lydskreven version, er der indsat side- og linjereferencer til trykket (fx 14:23 = side 14 linie 23).

De opmærkede tekster omfatter ca. 330.000 løbende ord. De lå oprindelig på magnetbånd hos RECKU (før pc'ernes tid), men er nu indlæst i Afdeling for Dialektforsknings tekstbase Wordcruncher.

8.2 Lydskreven version (p.t. ikke tilgængelig over www)

En del af de tekster, der indgår i den opmærkede version, findes også transskriberet i Danias lydskrift og er udgivet som Danske Dialekttekster 1-5 (udg. af Institut for Dansk Dialektforskning 1967-1977). Den lydskrevne version findes kun som bogtryk, ikke i digitaliseret form. De lydskrevne tekster omfatter ca. 90.000 løbende ord.


9. Lydmateriale

De ældste optagelser i korpus CorDiale er på lakplader. De blev optaget af Statsradiofonien under medvirken af en medarbejder fra Afdeling for Dialektforskning. Optagelserne er som regel korte (3-4 min.), men undertiden optog man flere plader med samme fortæller. Optagelsessituationen kunne være ret formel, når fortællerne blev hentet ind i et lydstudie, og der var lydteknikere til stede, men sproget synes forbløffende lidt påvirket af situationen.

Fra 1953 begyndte man at bruge båndoptagere og at optage på spolebånd. Optagelserne foregik nu i fortællernes hjem under mere uformelle forhold og varede som regel en time. I nogle tilfælde er kun en halv time transskriberet til CorDiale.

Både lakplader og spolebånd indgår i Center for Dialektforsknings lydarkiv, sammen med nyere overspilninger af hele materialet til cd'er og harddisk.


10. Tekniske detaljer

Tekst og layout i disse hjemmesider er skrevet i HTML/frames.

CGI-scripts kører under Linux på serversiden.

Søgemaskinen er skrevet i Perl 5 (anvender Extended Reg. Exp.).

Transskriptionsfiler er organiseret som 1 fil/transskription (dvs. evt. flere filer pr. samtale). Egennavnskodning og anden tekst-makeup, samt parsning af databaser (topologisk, emne- og samtale-) sker for hver kontakt med server. Dette sikrer nem vedligeholdelse af korpus og databaser.


11. Referencer

11.1 Ordbøger

Følgende ordbøger kan anbefales ved læsning af teksterne:

Ordbog over det Danske Sprog (ODS). 28 bind, udg. af Det Danske Sprog- og Litteraturselskab 1919-1955, fotografisk genoptrykt flere gange. Omfatter sproget i perioden 1700-1955 og indeholder mange ældre faggloser og i et vist omfang også dialektord. ordnet.dk/ods

Ordbog over det Danske Sprog - Supplement (ODS-S). 1992-2005. Omfatter samme periode som ODS og supplerer ODS. Ordbogsartikler der ikke findes i de oprindelige 28 bind, er tilgængelige sammen med resten af ODS på ordnet.dk/ods.

Bornholmsk Ordbog. Red. af J. C. S. Espersen omkr. 1850, med tillæg red. af V. Holm omkr. 1880, udg. 1908, fotografisk genoptrykt 1994.

Ømålsordbogen. En sproglig-saglig ordbog over dialekterne på Sjælland, Lolland-Falster, Fyn og omliggende øer. Redigeres og udgives af Center for Dialektforskning (tidligere Afdeling for Dialektforskning og tidligere endnu Institut for Dansk Dialektforskning), Københavns Universitet.

Jysk Ordbog. Redigeres og udgives af Peter Skautrup Centret, Aarhus Univsersitet, som internetudgave på adressen www.jyskordbog.dk.

Ordbog over Jyske Almuesmål. 4 bind og 1 tillægsbind, red. af H. F. Feilberg, udg. 1886-1914, fotografisk genoptrykt 1977.

11.2 Anden litteratur


12. Sidste nyt (21-1-04)