PRINCIPLE SDURDD Croatian-English Parallel Corpus in the General Domain

View resource name in all available languages

PRINCIPLE SDURDD Hrvatsko-engleski paralelni korpus iz opće domene

PRINCIPLE SDURDD Croatian-English Procurement Parallel Corpus contains 442 documents in the General domain, totaling 70,810 translation units. The original .pdf documents processed using OCR software, and were afterwards cleaned, and a manual content check was performed on a sample. Automatic TU alignment was performed, followed by manual check of alignment on a sample. Contains 442 .txt files (221 in Croatian and 221 in English). It is open and freely available under the PSI licence.

View resource description in all available languages

PRINCIPLE SDURDD Hrvatsko-engleski paralelni korpus iz područja javne nabave sadrži 442 dokumenta, sveukupno 70.810 prijevodnih jedinica. Originalni dokumenti su konvertirani iz .pdf formata uz pomoć OCR programa, nakon čega su očišćeni, a na uzorku je provedena ručna provjera sadržaja. Sravnjivanje prijevodnih jedinica napravljeno je automatski te je naknadno uzorak ručno pregledan. Sadrži 442 datoteke u .txt formatu (221 na hrvatskom i 221 na engleskom jeziku). Otvoren je i slobodno dostupan na temelju informacija javnog sektora.