查看原文
其他

欧洲共同数据空间进展更新(二):语言数据空间

数据信任与治理 数据信任与治理
2024-09-16


2024年1月24日,欧盟委员会发布了《欧洲共同数据空间第二份工作人员文件》(COMMISSION STAFF WORKING DOCUMENT on Common European Data Spaces)。


第一份工作文件发布于2022年5月,可点击阅读:全文首发|欧盟委员会《关于欧洲共同数据空间》工作文件(中译本)


此次发布的第二份工作人员文件梳理和总结了近两年来欧洲共同数据空间的发展,主要包括以下几个方面:


  • 欧洲共同数据空间相关法律法规的更新,包括《数据治理法》、《数据法》、《数字服务法》以及《开放数据指令》等;


  • “欧洲数据战略”所定义九个关键领域共同数据空间,以及此后在一些公共利益领域新增的共同数据空间(如“欧洲共同语言数据空间”、“欧洲共同研究和创新数据空间”)的建设进展。目前,欧洲共同数据空间的数量已达到14个;


  • 考虑了在生成式人工智能快速发展的背景下,欧洲共同数据空间在提供数据高价值数据集方面发挥的关键作用。


本公众号梳理了在此份文件中欧洲共同数据空间的建设进展更新,并对文件中提到的相关项目和倡议的相关信息进行了补充。本文为系列的第二篇,主要介绍欧洲共同语言数据空间。


关于欧洲共同健康数据空间和欧洲共同金融数据空间的进展更新,请见:欧洲共同数据空间进展更新(一):健康、金融


欧洲共同语言数据空间(European Common Language Data Space)于2023年1月开始实施,其目标是建立一个生态系统,能够在法规复杂的地域内实现跨所有领域的多模态语言数据和模型的无缝收集、创建、共享和重复使用。该倡议通过提供必要的数据,为欧洲产业和公民提供更准确的创新人工智能语言技术,如自动翻译、智能助手或聊天机器人。
欧洲共同语言数据空间将分为两大方面的工作。 第一方面的工作是建立“语言技术卓越中心”(Centre of Excellence for Language Technologies,CELT)。
CELT是语言数据空间的治理机构,旨在协调各成员国创建和收集多模态语言数据和模型。CELT将与成员国共同开发多利益相关方的数据和服务治理方案,还将制定语言数据生态系统的蓝图,并为所有利益相关方设计最佳业务模式。此外,CELT将确定欧洲需要开发和部署的大型多模态语言模型,以及所需的数据集和数据流(例如公共、私人、公民收集的数据)。 第二方面的工作将与计划中的“欧洲数字语言基础设施联盟”(Language European Digital Infrastructure Consortium,EDIC)合作,致力于部署多模态语言数据和模型收集基础设施。
关键行动包括: 
  • 建立强大的高效收集和共享多样语言资源的系统,确保为先进的语言技术服务提供可用数据;

  • 实施“语言技术卓越中心”指定的的数据治理、商业模式和战略框架;

  • 与数字平台合作,并通过试点项目展示实际应用,在各个领域推广语言数据空间及其技术服务的采用;以及

  • 促进成员国和产业之间的合作,通过联合倡议使语言数据集、数据流与新的标准和原则保持一致。


欧洲语言数据空间的招标工作已于2022年9月结束,并于2023年1月签署合同。


负责建设语言数据空间的机构包括:

  • 德国人工智能研究中心(DFKI)(同时也是该项目的协调员)

  • 评估和语言资源分配机构(ELDA,一个位于法国的非营利机构,成立于1995年)

  • 雅典娜信息、通信和知识技术研究与创新中心(ILSP)

  • SIA Tilde(一家欧洲本地的语言技术公司)


根据2024年1月更新的信息,目前,语言数据空间的项目协调员正在与出版、语言技术或新闻行业等相关行业利益相关者会面,以在未来几个月内组建治理机构(即CELT)。


来源:https://ec.europa.eu/newsroom/lds/items/813942/en


为推动生态系统形成,目前欧洲语言数据空间已为欧洲公共管理部门、中小企业、学术界和非政府组织提供访问机器翻译、转录、总结、自动语音转文本等语言服务(即eLangTech服务,包括eTranslation和其他语言技术服务),这将支持多语言和多模态语言数据和模型的收集,并提供最新的基于人工智能的语言服务的访问。


来源:https://language-tools.ec.europa.eu/


语言数据空间的成功部署离不开与其他欧洲共同数据空间的集成和持续工作,包括“数据空间支持中心”(Data Spaces Support Centre),AI on-demand平台、“AI测试和实验设施”(AI TEFs)以及“数字创新中心”(Digital Innovation Hubs)等的协同。


AI on-demand平台


AI on-demand平台是一个欧盟支持的AI社区,旨在增强欧洲AI 的研究和创新,促进知识共享、研究实验以及与人工智能相关的最先进解决方案和技术的开发。


AI社区可以使用该平台来:

  • 分享与人工智能相关的知识、资产、服务或工具;

  • 利用众多可用资源;

  • 了解 AI 应用的潜力和机遇;

  • 与其他同行和专家互动。


AI on-demand平台目前提供的AI资产目录包括数据集、Docker容器、机器学习模型、Jupyter Notebook等。


来源:https://www.ai4europe.eu/research/ai-catalog

AI测试和实验设施(AI TEFs)


AI TEFs 提供大规模测试和试验人工智能解决方案(包括软硬件产品和服务,例如机器人)的环境,向欧洲所有技术提供商开放。


这些AI TEFs将提供物理和虚拟设施的组合,技术提供商可以在其中获得支持,在现实世界环境中测试其最新的基于人工智能的软/硬件技术,包括支持基于人工智能的最新技术的集成、测试和实验,以验证和演示特定应用领域中的问题/改进方案。


AI TEFs还可以通过与成员国主管部门合作支持监管沙箱进行监督测试和实验,为《人工智能法案》的实施做出贡献。


目前,已有四个TEF项目在2023年1月1日启动,包括农业食品领域的 agrifoodTEF项目、医疗保健领域的TEF-Health项目、制造业领域的AI-MATTERS项目和智慧城市与社区领域的Citcom.AI项目。每个项目的预算为 40-6000 万欧元。这四个项目的测试设施预计将于2024年开始投入使用。


来源:

https://digital-strategy.ec.europa.eu/en/activities/testing-and-experimentation-facilities

https://www.compute.dtu.dk/english/news/nyhed?id=3ed202b0-54b1-43cd-bab0-5d68c435e1b7




前瞻研究

01




数据合规技术工具

02


中心动态

03


继续滑动看下一个
数据信任与治理
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存