Magyar Generatív Történeti Szintaxis

Kezdőlap » Szövegemlékek

Szövegemlékek

Ezen az aloldalon adjuk közre a projekt ideje alatt feldolgozott kódexeket és egyéb szövegemlékeket az ó- és középmagyar korból.

Ahhoz, hogy minden speciális karakter rendesen megjelenjen a böngészőben, szükséges a Junicode fontkészlet telepítése.

Minden szövegemlékhez tartozik egy rövid leírás, amelyben ismertetjük, hogy milyen forrásból dolgoztunk, hogy milyen feldolgozottsági szinten érhető el az adott szöveg, valamint azt az információt, hogy hány tokenből áll. Ezen felül bizonyos szövegemlékekhez egyéb tudnivalók is tartoznak a lókusz- és hangjelölésről, az írás- és zárójelekről, illetve egyéb kérdésekről. Ez utóbbiak csak akkor szerepelnek, ha az adott szövegemlék esetében valamiben eltértünk az általános leírásban közöltektől, vagy valamilyen speciális információt feltétlenül szükségesnek tartottunk közölni.

Az egyes szövegemlékeknek a betűhű változatát szöveges és PDF formátumban is közreadjuk. Ha az általunk feldolgozott kiadás elérhető az interneten, akkor nem készítettünk hozzá PDF változatot. Ha a szövegnek elkészült a normalizált változata is, azt is elérhetővé tesszük.

Minden szövegemlék betűhű változata elérhető, de nem mindegyikhez készült normalizálás és morfológiai elemzés.

Az alábbi szövegemlékeknek van normalizált változata is:

Az alábbi szövegemlékekhez készült morfológiai elemzés is:

A teljes korpusz tokenszáma a betűhű változat alapján, az írásjeleket is beleértve: 2.256.473, a betűhű változat alapján, az írásjelek nélkül: 2.003.082. Ebből normalizált, az írásjeleket is beleértve: 214.116, az írásjelek nélkül: 176.359. Ebből morfológiailag elemzett, az írásjeleket is beleértve: 85.352, írásjelek nélkül: 71.022.