Korpus Biblie (katolícky preklad)

Korpus katolíckeho prekladu Biblie bible-rkc-1.0 bol pripravený v spolupráci s Konferenciou biskupov Slovenska a sprístupnený 28. 6. 2023 v rozsahu 796 704 tokenov. Korpus obsahuje 73 kníh Starého a Nového zákona s osobitnou vonkajšou anotáciou.

Korpus je lematizovaný a morfologicky anotovaný nástrojom MorphoDiTa natrénovaným v SNK na báze tagsetu používaného pri písaných korpusoch. Súčasťou referencií je aj informácia o príslušnosti textu ku konkrétnej knihe, kapitole a veršu.

Z hľadiska metadát o texte obsahuje každá kniha nasledujúce informácie:

  • doc.name: názov knihy, napr. Genezis
  • doc.bogo: skratka knihy, napr. Gn
  • doc.bibliography: Názov knihy. In: Sväté Písmo Starého i Nového zákona. Trnava: Spolok svätého Vojtecha 2003. 2623 s.
  • doc.genre: špecifikácia textov podľa skupín
    • glett – všeobecné listy (Jak, 1 Pt, 2 Pt, 1 Jn, 2 Jn, 3 Jn, Júd, Zjv)
    • gospel – evanjeliá a Skutky apoštolov (Mt, Mk, Lk, Jn, Sk)
    • hist – historické knihy (Joz, Sdc, Rút, 1 Sam, 2 Sam, 1 Kr, 2 Kr, 1 Krn, 2 Krn, Ezd, Neh, Tob, Jdt, Est)
    • pentateuch – päť Mojžišových kníh (Gn, Ex, Lv, Nm, Dt)
    • plett – listy sv. Pavla (Rim, 1 Kor, 2 Kor, Gal, Ef, Flp, Kol, 1 Sol, 2 Sol, 1 Tim, 2 Tim, Tit, Flm, Hebr)
    • proph – prorocké knihy (Iz, Jer, Nár, Bar, Ez, Dan, Oz, Joel, Am, Abd, Jon, Mich, Nah, Hab, Sof, Ag, Zach, Mal, 1 Mach, 2 Mach)
    • sapient – múdroslovné knihy (Jób, Ž, Prís, Kaz, Pies, Múd, Sir)
  • doc.type: špecifikácia textov podľa príslušnosti k celku
    • old – knihy Starého zákona
    • new – knihy Nového zákona
  • verse.coord: koordináty veršov, napr. Gn_1_1.