MGTSZ

Szövegemlékek

Ezen az aloldalon adjuk közre a projektek ideje alatt feldolgozott kódexeket, kisebb szövegemlékeket és bibliafordításokat az ó- és középmagyar korból. Az összes általunk feldolgozott szöveg címe és a keresőben használt rövidítése elérhető innen.

Ahhoz, hogy minden speciális karakter rendesen megjelenjen a böngészőben, szükséges a Junicode fontkészlet telepítése.

Minden szövegemlékhez tartozik egy rövid leírás, amelyben ismertetjük, hogy milyen forrásból dolgoztunk, hogy milyen feldolgozottsági szinten érhető el az adott szöveg, valamint azt az információt, hogy hány tokenből áll. Ezen felül bizonyos szövegemlékekhez egyéb tudnivalók is tartoznak a lókusz- és hangjelölésről, az írás- és zárójelekről, illetve egyéb kérdésekről. Ez utóbbiak csak akkor szerepelnek, ha az adott szövegemlék esetében valamiben eltértünk az általános leírásban közöltektől, vagy valamilyen speciális információt feltétlenül szükségesnek tartottunk közölni.

Az egyes szövegemlékeknek a betűhű változatát szöveges és PDF formátumban is közreadjuk. Ha az általunk feldolgozott kiadás elérhető az interneten, akkor nem készítettünk hozzá PDF változatot. Ha a szövegnek elkészült a normalizált változata is, azt is elérhetővé tesszük. Minden szövegemlékhez elérhető egy tsv formátumú fájl is, amely tartalmaz mindent, ami a korpuszba bekerült. A mondathatárokat üres sor jelzi; a tabulátorokkal elválasztott oszlopok pedig az alábbi információkat tartalmazzák:

lókuszjelölők (az első n oszlopban, ahol az n a tsv első sorából olvasható ki);
a szövegszó eredeti betűhű formájában;
a szövegszó normalizált formájában;
értelmezés;
az igétől elvált igekötő;
megjegyzés;
a szövegszó töve normalizált formában;
morfológiai elemzés.

Minden szövegemlék betűhű változata elérhető, de nem mindegyikhez készült normalizálás és morfológiai elemzés.

Az alábbi szövegemlékeknek van normalizált változata is:

Bécsi kódex
Birk-kódex
Bod-kódex
Czech-kódex
Festetics-kódex
Guary-kódex
Jókai-kódex
Jordánszky-kódex (csak az Újszövetség)
Kazinczy-kódex
Könyvecse
Miskolci töredék
Müncheni kódex
Székelyudvarhelyi kódex eleje
minden rövidebb szövegemlék, kivéve a Csíziót
minden középmagyar bibliafordítás

Ha van morfológiai elemzés, akkor az alapvetően a Morfológiai kódok listában és a Korpusz menüpontban leírtakat követi. Néhány kódex morfológiailag elemzett anyaga elérhető a Universal Dependencies and Morphology keretben alkalmazott CoNLL-U formátumban is, amelyben minden egyes szövegszó külön sorban szerepel a hozzá tartozó annotációkkal. A mondathatárokat üres sor jelzi.

Az egyes oszlopok az alábbi annotációkat tartalmazzák:

ID: a szövegszó azonosítója; minden mondatkezdetnél újrakezdődik 1-től.
FORM: maga a szövegszó eredeti betűhű formájában.
LEMMA: a szövegszó töve normalizált formában.
UPOSTAG: szófaji címke a Universal Dependencies and Morphology formátumában.
XPOSTAG: az eredeti morfológiai elemzés.
FEATS: morfológiai jegyek a Universal Dependencies and Morphology formátumában.
HEAD: a szövegszó feje a szintaktikai elemzésben a Universal Dependencies and Morphology formátumában; jelenleg üres.
DEPREL: dependenciareláció a Universal Dependencies and Morphology formátumában; jelenleg üres.
DEPS: másodlagos dependenciák a Universal Dependencies and Morphology formátumában; jelenleg üres.
MISC: bármilyen más annotáció helye; jelenleg üres.

Az alábbi szövegemlékekhez készült morfológiai elemzés is:

Festetics-kódex (CoNLL-U is)
Guary-kódex (CoNLL-U is)
Jókai-kódex (CoNLL-U is)
Jordánszky-kódex (csak az Újszövetség)
Könyvecse (CoNLL-U is)
Müncheni kódex (CoNLL-U is)

A teljes korpusz tokenszáma a betűhű változat alapján, az írásjeleket is beleértve: 3.224.515, a betűhű változat alapján, az írásjelek nélkül: 2.751.869. A normalizált alkorpusz mérete az írásjeleket is beleértve: 1.305.687, az írásjelek nélkül: 1.049.019. A morfológiailag elemzett alkorpusz mérete az írásjeleket is beleértve: 285.070, írásjelek nélkül: 228.851.

Magyar Generatív Történeti Szintaxis

Szövegemlékek