新浪新闻客户端

数据工程师的「敏捷数据+高效交付」创新挑战赛!

数据工程师的「敏捷数据+高效交付」创新挑战赛!
2021年08月31日 13:32 新浪网 作者 首席数据官智库-奇点云

  近日,2021夏季StartDT Hackathon SP(奇点云黑客马拉松特别活动)圆满收官。

  本期黑客松由奇点云数字一部发起,以「敏捷数据&高效交付」为主题,共有10位数据开发工程师、数据架构师参加,7位来自技术线和业务线的专家评委点评,200+位奇点人在线围观。

  

  如何让数据更敏捷,让交付更高效?

  本期黑客松没有规定具体选题,而是围绕主旨,由同学们自由提报。如何优化交付流程?有没有可复用的工具和模板?如何设计数据模型提高效率?项目如何进行技术管理?……精彩分享与灵魂问答穿梭在StartDT Hackathon直播间。

  StartDT Hackathon

  准备现场

  

  

  

  

  #1 沉淀服务

  懂技术,也懂支撑业务

  「客户原来做to C业务做得很好,现在想拓展to B业务,却缺少数据支持。我们如何为他们提供数据支持?」北觅分享了他的技术解决方案,站在客户的角度,帮助客户找到更多(且合法的)第三方数据渠道来丰富数据源。

  无独有偶,黄昏从数个母婴行业的实践中沉淀出了市场容量的预测算法。他分享道:「母婴行业的消耗品、日用快消品,如果它们有规律的消费周期、固定的使用人群,都可以从这几个维度来构建模型算法,完成市场预测。」

  

  图源:黄昏

  懂技术,也懂业务,方能始终站在客户视角,从客户的需求出发,用技术最大化释放数据价值。

  #2 沉淀方法

  懂技术,还懂高效交付

  在许多项目中摸爬滚打,奇点云的数据工程师们不仅收获了行业理解,也沉淀出了项目管理与高效交付方法论:

  高效交付=项目管理规范+员工能力提升+项目沉淀复用,四周年老奇点人竹君谈到。

  无心用公式拆解人效,让人效提升有迹可循,并从客户、合作伙伴、商务、财务、PM等视角分析项目管理的重点,从而归纳出高效交付的方法和逻辑,还自研了一整套可直接用于项目落地的辅助管理工具。

  

  图源:无心

  针对项目中需要被频繁使用、种类繁多的BI工具,困人分享了BI工具开发通用流程及常见问题,帮助新手上手各类BI工具,快速接入开发。

  数独则从数据中台项目的技术管理视角切入,强调了项目多角色沟通与技术侧产出对齐(包括代码标准对齐、模型标准对齐等)。

  迷麟将数据中台实施全流程结构化,解耦时间和资源,通过细分资源、借力等方式实现高效交付。

  「建个夸夸群,用华丽的辞藻全方位夸奖你的伙伴。」

  「人被逼急了,什么事情都做得出来。」

  「相信你的伙伴和deadline,总能给你创造惊喜。」

  理性剖析交付逻辑之余,攻城狮们不忘金句频出,共鸣到了,根本停不下来。

  #3 沉淀能力

  懂技术,更懂提炼复用

  遇到琐碎的、重复的、可标准化的任务,应该怎么办?

  「让工具来!」

  技术人最讨厌重复劳动。如果一定要重复劳动,那就让机器来做:

  雁鸣分解了数据中台的工作内容,提出其中多个层面都可以通过脚本辅助开发,以减少重复工作量,生成的SQL更准确,文档、代码更规范,可谓既快又好。(雁鸣的分享详见文末彩蛋)

  禅枫则为从项目开始上云到ADS层开发各阶段引进了自动化测试,举个例子:ODS层的测试包括完整性测试、准确性测试、编码测试、性能测试等,能有效降低或防止数据在上云时对于数据的二次污染。

  针对交付过程中常遇到的3个难点——数据一致性校验、一键导出数据字典、任务代码可维护性,一帆带来了他的规范检查工具「白桃」。白桃目前已在项目中得到N次实践,事实证明确实能大大提升效率、减少反复沟通。(为什么取名白桃?还是文末见👀 )

  会用技术,还会复用技术。让机器成为自己的助手,把自己从重复的、固化的工作中解放出来,提高生产力,这就是奇点技术人的「大聪明」。

  #4 进击的奇点技术人!

  本期奇点黑客松SP的评分由创新性、落地性两个部分构成。最终雁鸣、一帆、困人分获第一、二、三名,抱得奖品归。

  

  

  

  

  本期黑客松的幕后黑手、奇点云高级数据架构专家天启介绍,这次特别的创新赛旨在培养奇点云工程师们在「敏捷数据、高效交付」方面的意识。

  「懂技术,又懂业务,沉淀服务;懂技术,又懂流程,沉淀方法;懂技术,又懂产品,沉淀能力。这是奇点技术人的自我要求。」天启说,「我们平时泡在项目里,有意识的同学已经沉淀出了许多经验和方法,这次活动也给大家一个平台,分享交流、互相学习。」

  仔细听完近4个小时的分享,奇点云副总裁、资深产研专家追风颇有感触:

  「作为从一线开发做起来的老技术人,看到大家的创新很感动。其一,拓展技术的深度和广度的同时,要了解我们所服务的行业。技术是我们的基础,但当业务与技术相结合,才能走得更远;其二,项目的管理经验值得大家去提炼和沉淀,并要最终落地实践,经验用起来才是真的好;其三,我们自研提效的小工具,从想法到体系化落地,它形成完整闭环是十分不容易的。我们要有工具的思维,并将工具产品化,让更多人用,真正解决生产力的问题。」

  从技术同学到技术leader,视野更宽、思考更深,也更专业靠谱,进击的奇点技术人一直在路上。

  

  彩蛋

  # 1

  雁鸣「脚本辅助开发」分享

  分解数据中台的工作内容,我们发现在多个层面都可以通过脚本辅助开发。

  1. ODS层:主要是数据清洗、增量合并等工作。特点是表数量多,逻辑明确,工作内容重复性高,且可标准化。此时可以使用脚本批量完成此类工作,大幅提升工作效率;

  2. CDM层:在数据模型设计完成后,可利用脚本生成标准的开发语句框架,再手工完善逻辑;

  3. ADS层:基于标签文档,一键生成标签表的DDL和ETL语句,快速完成标签表的开发。

  总结来说,使用脚本辅助开发能帮助我们:

  1. 减少重复的工作量,且生成的SQL更准确,既快又好。

  2. 养成先设计后开发的习惯。

  3. 文档、代码规范化。

  # 2

  一帆的白桃冷知识分享

  「为什么规范检查工具取名叫白桃?」

  「因为喜欢喝白桃味的饮料。」

  白桃的输出物是清单,它会明确地展示事件的项数和状态——自动检查之后,白桃会将关注点输出成一个清单展示,从而减少时间成本。

  举个例子,本次活动中展示的3个清单,对应交付中3个需要持续关注的点:

  1. 上云数据表的一致性校验的校验结果清单;

  2. 表命名规范&注释检查的表清单;

  3. 任务规范&待检查任务的任务清单。

  # 3

  困人「BI开发快速接入」分享

  在数据中台项目中,我们会频繁接触BI工具并需要进行开发接入。BI工具种类繁多,因此如果能快速学习完成开发,会非常有助于提效。

  1. 归纳BI工具开发通用步骤:数据源接入,数据集配置(分为常规数据集、SQL数据集),仪表盘配置,门户配置,权限配置(仪表盘权限,数据权限),监控配置(监测界面指标是否异常)。

  2. 归纳BI开发流程:BA完成原型设计→开发人员评估技术可行性→环境准备,技术选型→ADS层设计(需要充分考虑)→BI开发配置→上线测试。

  3. 洞悉常见问题:可行性分析、ADS设计关键词统一,需要充分考虑联动下钻使用的字段,复杂场景最好有数据集设计。

  4. 分析常见场景:当使用明细数据表作为底表时,需要注意数据量过大,查询速度可能较慢,需要另外给查询栏设计一个单独的数据集;当使用动态参数时,可将不同粒度数据加工放置在同一数据集内。

  # 4

  获奖感言

  雁鸣

  

  感谢公司组织的活动和评委的认可,从其他同事的分享中学到了很多。

  我们在数据中台的交付中,结合良好的项目框架和明确的项目规范,切实通过编写脚本提升了项目交付的效率和质量。这次把经验分享给大家,共同进步。

  一帆

  

  谢谢各位评委老师的肯定。谢谢启哥举办的创新赛,提供一个交流的平台,观看学习各位大神的分享,从不同角度理解项目交付,既开阔眼界,也很有启发。

  关于白桃工具,是把项目上开发同学平时反复沟通、持续性关注的工作项以形成清单的形式固化下来。就目前使用的情况,对沟通时间的减少和有关信息的同步确实有帮助。

  困人

  

  非常有幸参加了本次活动,也感谢过程中天启给出的很多建议。

  作为2年工作经验的小开发,这是第一次在公司内部进行分享,是一个很珍贵的体验。我没有大佬们这么资深的经验,所以本次主要是总结了这几年在公司项目BI开发时遇到的问题以及小伙伴们解决问题时总结的思路和方案。每个客户的数据中台项目落地总是各有各的情况,希望这次分享能够帮助今后交付的小伙伴们在BI开发交付上少走弯路,避免返工~

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有