Multilingual corpus in HEALTH (COVID-19) domain part_1b (v.1.0) in TMX format.

20 Last view: 2025-08-20

4 Last download: 2024-12-19

Multilingual corpus in HEALTH (COVID-19) domain part_1b (v.1.0) in TMX format.

Attribution details: This dataset has been generated out of public content available through several websites of national agencies (https://www.ecdc.europa.eu/en/COVID-19/national-sources) and selected broadact websites like (Global Voices, Voxeurop, voltairenet, etc.)

The dataset contains 134 X-Y TMX files, where not both X and Y belong to the set {CEF language plus IS and NO} (222310 TUs in total). Acquisition of data (from multi/bi-lingual websites), normalization, cleaning, deduplication and identification of parallel documents have been done by ILSP-FC tool. Multilingual embeddings (LASER) were used for alignment of segments. Merging/filtering of segment pairs has also been applied.

DSI Relevance: eHealth

Distribution

Availability: Available

Licences

CC-BY-4.0

Conditions: Attribution

Distribution Details

Attribution Details: This dataset has been generated out of public content available through several websites of national agencies (https://www.ecdc.europa.eu/en/COVID-19/national-sources) and selected broadact websites like (Global Voices, Voxeurop, voltairenet, etc.)

Contact Person

Prokopis Prokopidis

text

Multilingual text corpusLanguages

Arabic (ar)

French (fr)

English (en)

Russian (ru)

German (de)

Linguality

Linguality type: Multilingual

Multi-linguality type: Parallel

Text Format

TMX

Size

222,310 Translation Units

Character encoding

UTF-8

Domains

SOCIAL QUESTIONS Health (Eurovoc 2841)

Resource Creation

Created using ELRC Services

Funding Project

European Language Resource Coordination 3.0 (ELRC3.0 - SMART 2019/1083 LC-01325001)

URL: http://www.lr-coordi...

Funding Type: Eu Funds

Funder: European Commission

Funding Country: European Union (EU)

Metadata

Created: 06/11/2019

Last Updated: 23/04/2020

Metadata Language: English (en)

Version

Version: 1.0

Last Updated: 15/01/2021

People who looked at this resource also viewed the following:

Resources from the same project