Multilingual corpus in HEALTH (COVID-19) domain part_1a (v.1.0) in TSV/MOSES-like format.

15 Last view: 2025-07-03

6 Last download: 2024-08-08

Multilingual corpus in HEALTH (COVID-19) domain part_1a (v.1.0) in TSV/MOSES-like format.

Attribution details: This dataset has been generated out of public content available through several websites of national agencies (https://www.ecdc.europa.eu/en/COVID-19/national-sources) and selected broadact websites like (Global Voices, Voxeurop, voltairenet, etc.)

The dataset contains 327 X-Y TSV/MOSES-like (pairs of) files, where X and Y belong to the set {CEF language plus IS and NO} (3905604 TUs in total). Acquisition of data (from multi/bi-lingual websites), normalization, cleaning, deduplication and identification of parallel documents have been done by ILSP-FC tool. Multilingual embeddings (LASER) were used for alignment of segments. Merging/filtering of segment pairs has also been applied.

DSI Relevance: eHealth

Distribution

Availability: Available

Licences

CC-BY-4.0

Conditions: Attribution

Distribution Details

Attribution Details: This dataset has been generated out of public content available through several websites of national agencies (https://www.ecdc.europa.eu/en/COVID-19/national-sources) and selected broadact websites like (Global Voices, Voxeurop, voltairenet, etc.)

Contact Person

Prokopis Prokopidis

text

Multilingual text corpusLanguages

Swedish (sv)

Romanian; Moldavian; Moldovan (ro)

Slovak (sk)

Slovenian (sl)

Spanish; Castilian (es)

English (en)

Dutch; Flemish (nl)

Danish (da)

Finnish (fi)

Estonian (et)

Bulgarian (bg)

Croatian (hr)

Czech (cs)

German (de)

French (fr)

Icelandic (is)

Hungarian (hu)

Latvian (lv)

Italian (it)

Maltese (mt)

Lithuanian (lt)

Norwegian Bokmål (nb)

Modern Greek (1453-) (el)

Portuguese (pt)

Polish (pl)

Linguality

Linguality type: Multilingual

Multi-linguality type: Parallel

Text Format

text with tab-separated-values

Size

3,905,604 Translation Units

Character encoding

UTF-8

Domains

SOCIAL QUESTIONS Health (Eurovoc 2841)

Resource Creation

Created using ELRC Services

Funding Project

European Language Resource Coordination 3.0 (ELRC3.0 - SMART 2019/1083 LC-01325001)

URL: http://www.lr-coordi...

Funding Type: Eu Funds

Funder: European Commission

Funding Country: European Union (EU)

Metadata

Created: 06/11/2019

Last Updated: 23/04/2020

Metadata Language: English (en)

Version

Version: 1.0

Last Updated: 15/01/2021

People who looked at this resource also viewed the following:

Resources from the same project