2021年11月4日,由哈尔滨工业大学(深圳)、天津南大通用数据技术股份有限公司和深圳市计算机学会主办,哈工大(深圳)-南大通用云数据库研究中心承办的“国产数据库产学研合作交流暨哈工大(深圳)-南大通用云数据库研究中心成果展示会”于深圳博林天瑞喜来登酒店成功举办。
此次成果展示会对哈工大(深圳)-南大通用云数据库研究中心近一年的工作进行了总结,报告了研究中心的研究现状、已经取得的研究成果和未来工作期望。同时,会议还邀请了多位来自学术界和产业界的数据库专家进行了国产数据库相关主题的技术报告。
五十余位专家及代表参加了此次会议,主要嘉宾包括:
哈尔滨工业大学(深圳)科技处处长,赵轶杰
国家杰出青年基金获得者、中国计算机学会“王选奖”获得者、国家973计划项目首席科学家、哈尔滨工业大学计算机科学与技术学院教授,李建中教授
广东省计算机学会副理事长、深圳计算机学会理事长、哈工大计算学部副主任、哈工大(深圳)-南大通用云数据库研究中心主任、哈尔滨工业大学(深圳)计算机科学与技术学院院长,王轩教授
南大通用数据技术股份有限公司高级副总裁、CTO,赵伟
深圳市计算机学会数据科学与工程专委会主任、深圳大学特聘教授、深圳计算科学研究院研究科学家,秦建斌教授
深圳市计算机学会数据科学与工程专委会副主任、南方科技大学计算机科学与工程系助理教授,唐博
中国计算机学会信息存储专委会委员、中国计算机学会系统软件专委会委员、哈工大(深圳)-南大通用云数据库研究中心委员、哈尔滨工业大学(深圳)计算机科学与技术学院副教授,夏文
南大通用数据技术股份有限公司数据智能产品经营部总经理,张绍勇
南大通用数据技术股份有限公司数据管理产品经营部产品部经理,李世辉
南大通用数据技术股份有限公司华南区技术经理,苏远昌
南大通用数据技术股份有限公司华南区总经理,张玉芝
哈工大(深圳)-南大通用云数据库研究中心副主任、南大通用总工办主任,杨伟伟
哈工大(深圳)-南大通用云数据库研究中心副主任、深圳市计算机学会数据科学与工程专委会委员、哈尔滨工业大学(深圳)计算机科学与技术学院助理教授,刘洋
哈工大(深圳)-南大通用云数据库研究中心委员、哈尔滨工业大学(深圳)计算机科学与技术学院助理教授,漆舒汉
会议伊始,哈尔滨工业大学(深圳)科技处赵轶杰处长代表学校领导,向校企合作取得的阶段性成果表示了诚挚的祝贺。赵轶杰处长提到,哈工大(深圳)今年科研经费已达8.2亿元,2021年全年预计能达到10亿元,学校继续保持着工科领域的产学研用领先优势。在当前的时代背景下,工业界与学术界需要紧密合作。哈工大(深圳)-南大通用联合研究中心长期深耕数据库领域,共同致力于打造国产数据库这一国之重器。在双方的共同努力下,一定会继续为校企合作培养英才做出新贡献。
哈尔滨工业大学(深圳)科技处赵轶杰处长致辞
南大通用CTO赵伟代表公司领导,对联合研究中心从科研成果到工程化落地的工作给予了极大的肯定。他表示,数据库关系理论和新数据管理技术离不开学术界研究,公司将继续支持联合研究中心的科研项目推进。同时,他也对研究中心的研究成果转化提出了更高要求,希望哈工大(深圳)与南大通用的产学研用合作能进一步助力于基础信息产业高质量发展,加快数据库基础技术的攻关。
南大通用数据技术股份有限公司高级副总裁、CTO赵伟致辞
深圳市计算机学会数据科学与工程专委会主任秦建斌教授代表学会专委会为本次活动致辞。他对专委会在关系型数据库、数据治理、隐私计算、AI+DB等方向的研究进行了介绍。他表示将继续推动加强高校与企业的合作,加大产学研用中的人才培养,在产学研用方面为整体产业做出贡献。
深圳市计算机学会数据科学与工程专委会主任秦建斌教授致辞
随后,国家973计划项目首席科学家、哈尔滨工业大学计算机科学与技术学院李建中教授做了题为《数据可用性的计算理论与高效算法》的大会主题报告。
国家973计划项目首席科学家李建中教授做大会主题报告
在报告中,李建中教授从“数据一致性”、“数据精确性”、“数据完整性”、“数据时效性”和“数据统一性”这五个度量维度介绍了数据可用性的基本概念。李建中教授在报告中提到,数据的低可用性会对物理世界带来了巨大影响。例如:全球财务1000强公司中25%以上的关键数据存在错误;中国某城市的3600多万条社保记录中有450万条记录存在错误。此外,数据低可用性也使得采用AI技术进行的数据挖掘结果的可靠性得不到充足的保障。
李建中教授表示,无论具有多么大的数据,无论大数据计算的理论和技术多么完美,如果不能确保数据可用性,大数据就可能产生错误结果,甚至灾难性结果。以此为背景,李建中教授进一步介绍了数据可用性的若干研究问题。其中,重要的研究问题包括:数据可用性的表达机理、数据可用性的判定理论、数据错误的检测与修复、若可用数据上的近似计算、数据高质量获取理论和技术等。
针对上述问题,李建中教授团队在国际顶级期刊和会议中发表了学术论文数十篇,构建了数据可用性管理系统,建立了具有数据可用性表达、数据可用性判定、数据错误检测修复、弱可用数据近似计算、数据高质量获取等功能的原型系统。该系统在中国某城市8亿条社保数据上进行了应用,使数据准确率由75%提高到90%,数据完整性由71%提升到95%,数据一致性由83%提升到100%,数据时效由78%提升到87%。未来,李建中教授还会继续探索降低问题计算复杂性的新方法学,拓展弱可用数据的近似计算理论。
深圳市计算机学会数据科学与工程专委会副主任唐博助理教授做了题为《面向异构计算硬件的大数据查询处理和加速技术》的主题报告。 报告中,唐博老师结合新型硬件对数据库系统带来的挑战和机遇,分享了其团队在数据库系统的可观察性、查询优化以及硬件感知的执行引擎三个方面的研究工作,介绍了系统原型的具体功能和测试效果,最后通过分析现有技术的不足,展望了架构异构硬件感知的数据管理系统的挑战和难点。
深圳市计算机学会数据科学与工程专委会副主任唐博助理教授做技术报告
茶歇过后,哈工大(深圳)-南大通用云数据库研究中心委员夏文副教授以《面向GBase日志的高效差量压缩技术研究》为主题,进行了云数据库研究中心成果汇报。
夏文老师主要介绍了研究中心在数据去重压缩等领域的研究工作基础和积累,以及针对南大通用日志存储研究的差量压缩算法,多项研究成果发表在数据存储和压缩领域的国际顶会顶刊,并申请了多项专利。他提到,在2021年暑假期间,研究中心两名同学赴天津参与GBase业务场景实测,与相关技术人员反复论证测试,在业务场景验证合成成果的差量压缩算法在GBase逻辑日志压缩率超过60%,通过减少日志数据的写操作将执行和同步用时缩短了约1%。这说明研究中心的差量压缩算法,在显著提升压缩率的同时,并没有增加日志存储吞吐和时延方面的开销,仍维持了GBase日志存储的高性能业务要求,最终实现了又快又好的存储GBase海量数据的目标。
目前该工作作为研究中心的第一阶段研究的阶段性成果已经进入GBase工程化版本阶段。夏文老师表示,下一阶段的工作 ,将围绕数据库备份场景存在的海量数据存储需求,将研究中心的数据去重压缩成果也用于推动GBase在这一场景的存储效率提升,实现更高质量的合作共赢。
哈尔滨工业大学(深圳)夏文副教授做成果报告
随后,南大通用张绍勇总经理、李世辉经理和苏远昌经理也分别就 “GBase 8a MPP的市场地位、产品优势、关键技术、典型案例”、‘“GBase 8s V8.8护航核心交易”和“南大通用在分布式事务型数据库的实践”等研究进展和成果进行了汇报。
南大通用张绍勇总经理做技术报告
南大通用李世辉经理做技术报告
南大通用苏远昌经理做技术报告
分布式分析型数据管理系统GBase 8a是面向大数据分析类应用领域的一款高性能国产新型数据库产品,用于满足数据密集型行业日益增大的数据查询、数据统计、数据分析、数据挖掘和数据备份等需求,可用做数据仓库系统、BI系统和决策支持系统的承载数据库。GBase 8a MPP冲上TPC-DS世界榜单,节点数量最少,单节点算力最高,加载性能最优,更是通过国内最大规模MPP集群测试(4096节点)。打造的中国农业银行总行大数据平台,荣获中国人民银行颁发的2017年度银行科技发展奖一等奖、已部署2000+节点、管理超过20PB数据,稳定运行超过 2000天。
交易型数据管理系统GBase 8s是天津南大通用数据技术股份有限公司自主研发的、成熟稳定的企业级分布式事务型数据库,拥有自主知识产权,并且具备两高三低的特性:跨入第三代,守护每笔交易的高可靠性;两地三中心,持续服务保障的高可用性;自动迁移工具,PL/SQL直接使用可降低迁移成本;一体机模式,统一运管平台降低运维成本;全栈国产生态,打破国外垄断降低采购成本。该产品打造的某地方性商业银行核心系统:备份耗时由原来2小时以上缩短到20分钟以内;解决恢复表的不可用性,解决大表无法插入数据;实现数据分离存储,大表数据分片存储于不同空间,提升性能;实现配置优化,表锁粒度、索引,配置参数等优化,提高并发性能。
分布式交易型数据管理系统GBase 8c是一款 shared nothing架构的分布式交易型数据库集群,具备高性能、高可用、弹性伸缩、高安全性等特性,可以部署在物理机、虚拟机、容器、私有云和公有云,为关键行业核心系统、互联网业务系统和政企业务系统提供安全、稳定、可靠的数据存储和管理服务。目前已满分通过信通院分布式事务型数据库评测。
在各位专家的成果展示和技术汇报顺利结束后,深圳计算机学会理事长、哈工大(深圳)-南大通用云数据库研究中心主任、哈尔滨工业大学(深圳)计算机科学与技术学院院长王轩教授为会议做了总结致辞。王轩教授表示,在云数据库研究中心成立的一年多的时间中,校企双方发挥各自的长处,充分利用研究中心作为双方合作的窗口、新技术科研成果的中试基地和产业化基地的作用,真正实现了产、学、研之间的无缝对接,提高了核心技术研究和产业化的高效性。联合研究中心应专注卡脖子技术打造国产数据库这一国之重器,继续为国家信创基础产业做出贡献。
哈尔滨工业大学(深圳)计算机科学与技术学院院长王轩教授做总结致辞
未来,云数据库研究中心也将持续坚持以哈尔滨工业大学(深圳)计算机科学与技术学院的科研力量来推动南大数据技术股份有限公司的业务发展;同时以南大通用数据技术股份有限公司的需求为导向,充分利用哈工大的人才与科技优势,南大通用在数据库领域的领先技术和经验优势,支持和推动联合研究中心在相关核心技术方面的研究和积累,以国产数据库这一国之重器为数字化时代中国数据资产的本质安全提供保障,深耕研究,继续勇创佳绩。
大会合影
关于哈工大(深圳)-南大通用云数据库研究中心
哈尔滨工业大学(深圳)计算机科学与技术学院与天津南大通用数据技术股份有限公司进行深度合作,与2020年9月1日成立“哈工大(深圳)-南大通用云数据库研究中心”。该中心有助于促进南大通用与哈尔滨工业大学(深圳)在互利互惠、共同发展基础上的合作伙伴关系,实现产、学、研紧密结合。同时,双方在云数据库技术等领域优先开展技术战略咨询、技术创新、新产品研制、人才培养等方面的长期合作。此外,还将提炼实施技术项目的合作开发,实现项目技术产业化。
研究中心第一阶段对数据库参数智能优化技术、数据库列存数据压缩方法、数据库智能安全审计技术等多个课题方向展开研究。
(1) 数据库参数智能优化技术
参数优化是数据库优化的重要手段,而数据库参数之多也增加了参数调优的难度。大数据时代下,面对不断膨胀的数据信息、复杂多样的应用场景、异构的硬件架构和参差不齐的用户使用水平,传统数据库技术调参很难适应这些新的场景和变化。基于机器学习的智能数据库配置技术因其较强的学习能力,能够有效提升数据库参数调节的效率。该方向针对数据库参数智能优化技术进行研究,利用人工智能技术对不同业务数据库实例完成自动配置,同时权衡性能和成本。
(2) 数据库列存数据压缩方法
在信息技术高速发展的海量信息时代,海量数据管理技术已经成为社会信息化的迫切任务。如何有效地存储和管理海量数据并高效地支持海量数据上的查询,对数据库管理系统提出了严峻的挑战。海量数据库最大的特点是存在大量的数据冗余,即相同的数据在不同的地方多次重复出现。该方向从南大通用Gbase数据库逻辑日志差量压缩的角度入手,通过轻量高效的Ddelta差量压缩算法压缩日志内前后镜像,节省大表修改时逻辑日志所占空间。该研究目前已进入产品工程化阶段,预计可节省40%的日志存储空间。
(3) 数据库智能安全审计技术
数据库作为业务平台信息技术的核心和基础,承载着越来越多的关键数据,其安全性也越来越重要。数据库审计技术能够实时记录网络上的访问数据库行为,对数据库操作进行细粒度审计。除此之外,数据库审计还能对数据库遭受到的风险行为进行告警,如:数据库漏洞攻击、SQL注入攻击、高危风险操作等。该方向针对数据库审计技术进行研究,通过满足国家信息安全等级保护的安全审计系统抵御来自内部人员日益增多的安全威胁,通过智能、全面的数据安全方案进行漏洞扫描,阻止数据丢失,进行数据隐私保护。
未来,云数据库研究中心将成为双方合作的窗口和新技术科研成果的中试基地和产业化基地。以哈尔滨工业大学(深圳)计算机科学与技术学院的科研力量来推动南大数据技术股份有限公司的业务发展;同时以南大通用数据技术股份有限公司的需求为导向,支持和推动云数据库研究中心在相关核心技术方面的研究和积累,以国产数据库这一国之重器为数字化时代中国数据资产的本质安全提供保障。