Multilingual corpus in HEALTH (COVID-19) domain part_1b (v.1.0) in TSV/MOSES-like format.

9 Last view: 2023-08-25

1 Last download: 2023-01-13

Multilingual corpus in HEALTH (COVID-19) domain part_1b (v.1.0) in TSV/MOSES-like format.

Attribution details: This dataset has been generated out of public content available through several websites of national agencies (https://www.ecdc.europa.eu/en/COVID-19/national-sources) and selected broadact websites like (Global Voices, Voxeurop, voltairenet, etc.)

The dataset contains 134 X-Y TSV/MOSES-like (pairs of) files, where not both X and Y belong to the set {CEF language plus IS and NO} (222310 TUs in total). Acquisition of data (from multi/bi-lingual websites), normalization, cleaning, deduplication and identification of parallel documents have been done by ILSP-FC tool. Multilingual embeddings (LASER) were used for alignment of segments. Merging/filtering of segment pairs has also been applied.

DSI Relevance: eHealth

Distribution

Availability: Available

Licences

CC-BY-4.0

Conditions: Attribution

Distribution Details

Attribution Details: This dataset has been generated out of public content available through several websites of national agencies (https://www.ecdc.europa.eu/en/COVID-19/national-sources) and selected broadact websites like (Global Voices, Voxeurop, voltairenet, etc.)

Contact Person

Prokopis Prokopidis

text

Multilingual text corpusLanguages

German (de)

English (en)

Arabic (ar)

Russian (ru)

Linguality

Linguality type: Multilingual

Multi-linguality type: Parallel

Text Format

text with tab-separated-values

Size

222,310 Translation Units

Character encoding

UTF-8

Domains

SOCIAL QUESTIONS Health (Eurovoc 2841)

Resource Creation

Created using ELRC Services

Funding Project

European Language Resource Coordination 3.0 (ELRC3.0 - SMART 2019/1083 LC-01325001)

URL: http://www.lr-coordi...

Funding Type: Eu Funds

Funder: European Commission

Funding Country: European Union (EU)

Metadata

Created: 06/11/2019

Last Updated: 23/04/2020

Metadata Language: English (en)

Version

Version: 1.0

Last Updated: 15/01/2021

People who looked at this resource also viewed the following:

Resources from the same project