查看原文
其他

Data+LLM:数据治理新范式探索

DataFunTalk
2024-09-10

目前数据治理的前沿话题有哪些?

基于大模型的数据治理应用范式?
数据资产入表的方法论与实践?
数据血缘核心技术路线?
Databricks和SnowFlake带🔥的元数据管理?

从元数据管理到数据血缘分析,是做好数据治理的必由之路。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:

扫码免费报名,收看直播

峰会日程

精彩议题

部分议题详细介绍

兰晨 腾讯互娱 数据治理平台技术负责人

个人介绍:13年大数据研发与架构经验,曾构建腾讯游戏/TCL/招商银行等大型企业的经分系统,目前负责腾讯IEG数据治理平台,提供数据接入、元数据管理、数据应用一站式服务。

演讲题目:大模型在数据发现的应用探索

演讲提纲:

1. 腾讯游戏数据治理概要

2. 大模型技术对于大数据治理的启发

3. 大模型技术在数据发现的应用

听众收益:

1. 腾讯游戏数据治理面临的困难与挑战

2. 库表这么多,我这个数据需求应该用哪些?

3. 腾讯大模型混元如何助力数据发现?


王紫格 北京大学博士研究生、华为诺亚方舟实验室实习生

个人介绍:王紫格,北京大学计算机学院在读博士研究生,华为诺亚方舟实验室实习生,主要研究方向为大语言模型指令微调阶段的数据选择。

演讲题目:大语言模型训练中的数据管理

Data Management For Training Large Language Models: A Survey

演讲提纲:数据是大语言模型训练的关键之一,有效的数据管理,尤其是组建一个合适的训练数据集,对于大语言模型的预训练和有监督微调是十分重要的。尽管主流大语言模型已经积累了一些数据管理的成功经验,然而在实际应用中,如何选择合适的数据管理策略依然是一个较大的挑战。因此,越来越多的研究致力于探寻数据管理影响大语言模型性能的深层机制以及更优更高效的数据管理策略。本次演讲将分别介绍大语言模型预训练和有监督微调阶段的数据管理相关研究工作,并对数据管理未来可能的研究方向进行展望和设想。具体内容包括:

1. 概述,问题引入,并提出数据管理的概念;

2. 预训练阶段的数据管理,包括领域组合、数据数量和数据质量三个小节;

3. 有监督微调阶段的数据管理,包括任务组合、数据质量、数据数量和动态数据高效学习四个小节;

4. 挑战及未来可能的研究方向。

听众收益:

1. 组织一个合适的 LLM 训练数据集需要注意哪些方面?

2. 现有的研究工作都有哪些发现?

3. LLM 数据管理未来仍面临哪些挑战?


何舒青 抖音集团 数据研发专家

个人介绍:北京邮电大学本硕,曾任百度大数据工程师,目前是抖音集团数据研发专家,负责数据资产方向找数助手算法研发。

演讲题目:DataLeap 数据资产方向的大模型实践 - 找数助手

演讲提纲:本次演讲将介绍字节在数据资产方向的技术探索——如何通过「消费促沉淀」辅助用户自主消费数据资产,加速数据飞轮。包括的主要内容有:

1. 数据消费面临的问题

2. 找数助手整体架构

3. 消费促沉淀方案

4. 大模型对找数助手的赋能

听众收益:

1. 如何借助大模型技术,辅助用户自主查找和消费数据资产,如:找hive表、用数-问口径和加工逻辑等

2. 如何通过「消费促沉淀」的解决方案,不断提升数据问答助手的拦截率,加速数据飞轮


李天航 哔哩哔哩 大数据开发工程师

个人介绍:李天航,Bilibili 大数据开发工程师,Apache Gravitino contributor,专注于大数据场景下的元数据管理 & Spark 计算引擎优化。

演讲题目:统一元数据管理 - Gravitino 在 B 站的最佳实践

演讲提纲:

1. 当前元数据管理的现状

- 介绍当前元数据管理面临的主要问题和挑战

- 分析传统元数据管理架构的局限性

2. 引入 Gravitino 的背景

- 解释引入中心化元数据管理系统的重要性

- 分析与对比目前工业界主流的元数据管理组件

- 强调 Gravitino 在数据治理方面的重要意义及潜力

3. Gravitino 在B站元数据管理中的应用

- 具体介绍引入 Gravitino 的场景以及解决的痛点

- 分析 Gravitino 在数据治理过程中遇到的挑战及解决方案

4. Gravitino 在B站实践的成果

- 分享对于多数据源的统一元信息管理的提效成果

- 分享在 Kafka schema 信息管理的提效成果

- 分享基于对 Fileset 管理的数据治理降本成

5. 未来 Gravitino 在B站大数据基础架构中场景的探索和展望

- 潜在的数据治理场景以及方案

· 短期 ec, 列ttl, 文件ttl

· 长期(统一权限、统一血缘等)

听众收益:

1. Gravitino 解决了传统元数据管理的哪些痛点

2. 如何通过统一元信息管理,实现降本增效


张放 货拉拉 大数据工程师

个人介绍:张放,货拉拉大数据工程师,专注于数据治理、OLAP引擎等方向的工作。

吴刚 货拉拉 高级大数据工程师

个人介绍:吴刚,货拉拉大数据工程师,专注于数据安全、数据治理等方向的工作。

演讲题目:货拉拉大数据元数据管理演进和实践

演讲提纲:

1. 元数据管理介绍

① 面临的问题和挑战

② 元数据管理总体介绍

2. 元数据管理实践

① 数据血缘:血缘介绍、血缘演进、应用场景

② AI智能检索:元数据整体框架介绍、元数据检索演进、基于大模型+RAG落地的难点

③ 支撑成本治理:成本治理体系介绍、自主治理能力、降本

④ 数据安全 - 敏感数据管理:分类分级、数据加密、更多安全场景

3. 未来规划

① 继续探索和优化AI大模型在数据检索领域的

② 持续降本增效

③ 更多的数据血缘场景

听众收益:

1. 货拉拉大数据元数据管理体系如何演进

2. 大模型 + RAG 是如何在元数据检索场景中落地的

韩杰 同程旅行 大数据高级工程师

个人介绍:大家好,我是韩杰,一名专注于大数据技术的开发者,拥有5年的大数据经验,致力于流批计算引擎,积极参与和贡献多个大数据开源项目。

演讲题目:同程旅行基于 Waggle-Dance 元数据方案实践

演讲介绍:

1. 背景

2. Federation 方案

3. 方案实践

4. 未来规划

宫钰辰 联通数科 产品经理

个人介绍:宫钰辰 联通数科数据智能事业部产品经理 5年大数据产品领域经验 完成10+数据治理产品0-1构建。

演讲题目:联通数科基于一体化数据平台的元数据管理实践

演讲介绍:介绍联通数科在元数据管理领域探索实践,平台对内实现数科日均200tb数据量统一管理,对外赋能50+政府企业实现元数据统一管理。

演讲提纲:

1. 元数据管理框架

2. 联通数科基于一体化数据平台的元数据管理实践

① 元数据于一体化平台定位;② 元数据基础管理能力;③ 元数据全链血缘

3. 元数据管理未来规划:

① 智能补齐探索实践;② 助力数据资产入表

听众收益:

1. 了解联一体化平台中元数据管理体系如何构建

2. 大模型与元数据结合探索经验


王磊 美团 技术专家

个人介绍:长期从事数据研发相关工作,具有传统行业和互联网行业多年工作经验。专注于数据架构、数据建模、数据治理等领域解决方案建设和落地。

演讲题目:数据治理场景下的数据血缘应用实践分享

演讲提纲:数据血缘是数据治理非常重要的基础能力之一,本次分享主要介绍数据血缘基础能力建设实践,以及在不同治理场景中基于血缘的治理能力建设和落地,希望对大家有所启发和帮助。

听众收益:

1. 对数据血缘建设和使用有一个全面的了解

2. 在日常工作中,基于血缘衍生能力解决一些数据问题


扫码免费报名,收看直播

刘浩阳 抖音集团 大数据研发专家

个人介绍:刘浩阳,抖音集团大数据研发专家,有多年的大数据经验,专注于大数据管理、数据服务以及BI分析产品等大数据中台化建设工作。

演讲题目:字节大数据血缘演进与应用

演讲提纲:

1. 字节血缘整体介绍

2. 字节血缘系统架构

3. 字节血缘应用场景

4. 未来展望

听众收益:

1. 认识大数据血缘方向,了解建设思路

2. 血缘系统架构如何设计,重点解决的问题

3. 血缘的价值应用在哪些方向


朱江 火山引擎 LAS 大数据研发专家

个人介绍:火山引擎LAS大数据研发专家,主要负责SQL解析优化,权限管控等方面工作。

演讲题目:抖音集团离线数仓血缘基础能力的构建与应用

演讲提纲:在数据中台的大背景下,离线数仓领域中用户经常需要解决以下问题:

- 哪些 Hive 表包含业务 A 的数据?

- 哪些 Hive 表 / Hive 列无下游使用,可以进行数据治理?

这些问题可以统一归类为数据发现问题。字节跳动通过算子级血缘能力,针对离线数仓任务进行 SQL 分析,构建 Hive 表的血缘关系,基于标签传播算法自动化工程化地解决数据发现问题,规避人工标注存在的周期长、成本高、准确率低等问题,对数据进行精细化运营,助力标签传播,数据治理等场景。

另外,数据安全问题近期也逐步受到各国政府和企业的重视,随着国家数据安全法、个人信息保护法的相继颁布和实施,对于数据最小够用原则也提出了明确的要求。因此,如何更细粒度管控权限,如何保证数据安全也变成了每个企业都必须解决的问题。字节跳动基于算子级血缘能力,构建了 SQL 权限点精细化提取能力及动态脱敏能力,有效的保证了敏感数据安全可控。

听众收益:

1. 血缘能力在指标传播,数据治理等场景的应用。

2. 血缘能力在 SQL 权限点精细提取,动态脱敏等场景的应用。


肖文彬 中国移动通信集团广东有限公司 大数据高级主管

个人介绍:中山大学硕士研究生毕业,高级工程师,中国移动集团大数据IT专家,中国电子信息行业联合会数据治理行业专家,中国通信标准化协会大数据技术标准推进委员会专家委员。长期进行广东移动AI、大数据平台建设及数据治理工作,曾获广东省科技进步奖二等奖,广东省技术能手等奖项。

演讲题目:数据编织:释放数据价值的新钥匙--在运营商多元异构环境中的治理与应用实践

演讲提纲:本次演讲主要介绍广东移动的数据编织实践经验,主要讨论:

1. 广东移动大数据发展历程

2. 面临挑战

3. 基于数据编织理念构建智能数据管理方案

4. 应用推广成效

5. 未来展望

听众收益:

1. 了解企业级数据编织的必要性

2. 了解广东移动数据编织架构方案

3. 数据编织在超大规模数据应用场景的落地经验


王轩 南京银行 总行数字银行管理部团队经理

个人介绍:南京银行数字银行管理部平台研发部团队经理,主要负责南京银行数据中台相关工具建设。

演讲题目:城商银行基于 DataOps 的数据中台建设实践探索

演讲提纲:

1 建设背景

2 建设方案

3 建设成果

听众收益:

1. 基于 DataOps 的数据中台如何建设

2. DataOps 落地过程中的困难点

3. DataOps 的价值和意义


何婵 小米 产品经理

个人介绍:现任小米大数据产品经理,武汉大学 MEM 硕士。加入小米4年,深度参与 Mi-DataWorks(小米一站式数据生产平台)产品管理,当前聚焦于集团内 AI 数据存算管治一体化平台建设工作。

演讲题目:Fileset:小米 AI 数据管理平台落地实践

演讲提纲:

1. AI 数据管理平台的建设背景

2. 小米的 AI 数据管理方案介绍

3. Showcase 和业务收益

听众收益:

1. AI数据管理的发展趋势和业界方案

2. 小米 AI 数据管理平台设计方法论,包括:非表格数据资产统一管理、权限管控、数据处理和机器学习等

3. 未来规划


梅焕 京东零售 数据架构师

个人介绍:京东零售数据应用工程师,架构师,北京邮电大学硕士。作为核心研发和架构师参与多个核心数据项目,横跨数字营销、数据建模、数据分析与数据治理等领域,具有丰富的数据实战经验。现负责京东零售指标平台的资产标准与能力建设。

演讲题目:数据编织在数据分析与治理的应用

演讲提纲:

1. 数据分析与治理面临技术挑战

2. 数据编织理念在京东零售指标平台中的落地

3. 指标平台自助、快速支持数据分析实战与智能数据治理实战

4. 未来技术发展规划与挑战

听众收益:

1. 了解数据分析与治理背后的技术挑战

2. 了解京东零售指标平台数据编织技术实现方案

3. 了解京东零售指标平台在数据治理中的技术实现方案

王赫 京东零售 数据架构师

个人介绍:浙江大学硕士,作为主架构师及核心研发先后参与了多主题数仓的精细化升级以及多种数据平台相关能力的沉淀和建设,如画像系统、统一建模、指标平台等。专注于数据资产、智能数仓及大规模数据应用,现负责京东零售AB实验平台数据链路的自动化建设。

演讲题目:数据编织在 AB 实验场景的应用

演讲提纲:

1. 实验场景面临挑战

2. 数据编织管理理念

3. AB 自动化技术详解

4. 当前进展未来展望

听众收益:

1. AB 实验平台背后的技术挑战

2. AB 数据链路自动化技术细节

3. 数据编织理念落地实战案例


扫码免费报名,收看直播

张言龙 阿里巴巴 大数据专家

个人介绍:中科大硕士,曾任职 PayPal,同盾科技,现主要负责阿里企业经营管理域的数据建设和管理,智能服务安全体系建设。

演讲题目:企业智慧助手-大模型应用下的安全链路设计与实践

演讲提纲:

1. 背景

2. 整体分析思路和架构设计

3. 挑战与解决思路

4. 未来展望

听众收益:

1. 大模型应用下,安全评测如何和设计

2. 智能问答场景下,不同类型的风险怎样处理

3. 智能化场景中如何做到端到端的安全识别和风险处置


邹恬圆 清华大学智能产业研究院 博士研究生

个人介绍:我目前在清华大学智能产业研究院攻读计算机方向的博士生学位,师从张亚勤老师和刘洋老师。我的主要研究方向为数据安全的联邦学习和模型融合利用。曾在 ICLR 上发表一篇一作文章。我本科毕业于清华大学计算机科学与技术系。

演讲题目:大模型时代下的私有数据安全与利用

演讲介绍:大模型时代下,数据成为最为重要的生产资料。这就使得数据的价值进一步提升,也使得大家更为注重自身数据的隐私安全。那么,如何在保证数据安全的前提下,高效利用这些各种来源的隐私数据就成为了亟待研究的问题。对此,我们课题组从“知识迁移”的角度,多角度探索安全、高效的多源数据融合利用的方式,并将其扩展到多源模型融合利用中。

演讲提纲:

1. 大模型时代的大模型时代下的数据安全与利用问题

2. 隐私计算与联邦知识迁移技术

3. 联邦知识计算平台 FLAIR


张天峰 蚂蚁集团 数据技术专家

个人介绍:本科毕业于杭州电子科技大学,十年以上金融科技行业数仓建设经验,18年加入蚂蚁集团,主导安全合规数据架构以及数据资产建设与治理,目前专注于安全新一代指标体系建设,打造更加智能化的指标服务能力。

演讲题目:新一代指标体系在安全场景下的数据治理实践

演讲提纲:

1. 金融安全场景下面对的数据治理问题及难点

2. 蚂蚁新一代指标体系的内容及实践路径

3. 应用后在数据治理中的效果

4. 未来的建设规划

听众收益:

1. 安全场景下数据治理的难点

2. 指标自动化研发及智能化服务如何推动数据治理

3. 新的指标体系建设带来的数据治理价值及后续发展方向


HelenMa 沐瞳游戏 数仓负责人

个人介绍:华东理工大学运筹学硕士,先后任职于新蛋网、美团点评、哔哩哔哩,目前任沐瞳科技数据仓库负责人,主要从事数据挖掘、数仓开发等工作。

演讲题目:沐瞳大数据成本治理实践

演讲提纲:

1. 大数据成本治理框架

2. AWS 成本治理实践

3. 风神数据集治理实践

4. 治理收益与工具提效

5. 总结与展望

听众收益:

1. 如何通过成本治理,保障存量业务0增长目标?

2. 好的治理提效手段有哪些?

3. 公司级数据标准规范建设


郏建超 京东零售 架构师

个人介绍:2006年毕业于山东大学计算机系,长期从事大数据领域工作,有丰富的大数据SRE和数据管理经验,当前主要负责京东大数据资产管理体系建设。

演讲题目:京东大数据治理探索与实践

演讲提纲:

1. 数据治理系统落地的关键技术

2. 如何驱动常态化治理

3. 主动元数据治理

4. 从节流->开源,如何更高效利用现有资源

听众收益:

1. 做好治理需要有哪些必备条件

2. 如何从运动式治理升级到常态化治理

3. 如何进一步降低治理成本


贾承昆 知乎 数据平台负责人

个人介绍:曾就职于阿里云、猿辅导、知乎等公司,大数据行业老兵,有多年的数据架构经验,目前在负责知乎大数据平台团队。

演讲题目:知乎大数据如何降本增效?

演讲提纲:

1. 背景

2. 企业内降本的挑战

3. 运营驱动降本

4. 技术驱动降本

5. 总结和反思

听众收益:

1. 如何在企业内部建立成本度量体系

2. 如何通过技术手段比如混部、压缩、自动调参等方式降本数据的计算和存储成本


扫码免费报名,收看直播

继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存