本文共 2338 字,大约阅读时间需要 7 分钟。
摘要:随着智能化的发展,图计算的应用场景也愈发广泛。在2018年1月6日的云栖社区数据智能论坛上,钱正平(花名布民)以关联数据为出发点,以图计算以及知识与智能系统的结合为着手点,在阿里的各种应用数据处理的基础上讲述了阿里巴巴计算平台在解决问题与存在的优势。
以下是精彩内容整理:
图计算的发展趋势
伴随着应用场景的发展,人类对实时计算需求的提高,计算的延时与结果的时效性成为普遍关注的焦点;在当下随着场景的进一步多样化,系统与场景的优良适配又成为新的研究领域;在不久的未来,伴随着知识在系统中的加入,最终实现机器智能是智能化发展的必然趋势。
何为关联数据?
马云说:数据是生产资料,技术是生产力。在图计算领域,这句话可以更加进一步的阐述为“关联数据是生产资料,图计算是生产力”。
就阿里集团来说,从淘宝开始,随着需求与被需求的不断增加,陆续推出诸如支付宝、菜鸟,飞猪旅行、阿里音乐等诸多以阿里云为核心的应用软件。各种应用在使用过程中又会产生大量数据,这些数据并不是一个个的孤岛,而是存在着关联,诸如此类的数据称之为关联数据。
由于阿里应用的广泛性,因此今天的阿里拥有全球最多的图模型形数据。
图的定义通常用实体V和点与点之间的关联E来表示。每个实体可以简化为一个带有各种属性的点,通过关联就形成了图中的边,各边的组合进一步形成了图模型。图模型与关系模型相比具有更加的灵活性,同时具有强大的可视化能力,对于数据繁冗的场合,应用图来进行表述更便于使用者对数据的读取与理解。
由上可见,数据的图形化在数据处理等领域给人类带来了便利,那么具体的应用案例有哪些?
在图模型应用案例上,以淘宝为例,主要有以下方面:
1个性化搜索与推荐
在电商飞速发展的今天如何及时贴心、精确的为顾客推荐需要购买的商品是一种新的要求。但是在顾客消费行为很小的情况下通过仅有的几笔交易来判断消费需求与兴趣点具有一定的难度。在图计算领域较好的解决了这一问题。首先需要对人群进行分层,将有相同喜好的人群分在一起,用一群人的兴趣属性来表示其中的某一个人,根据群属性来进行个人相关商品的推荐,从而大大降低了判断难题。
此外在拥有人群分类的基础上,如何根据进行商品在扩大领域的相似推荐也是一项重要的研究课题,通常来说在计算消费人群经常购买商品的权重上可以发现其中最优解,根据最优解可以对消费者进行下一步商品的推荐,但是此类推荐不可避免的存在相似或者相同的商品推荐的情况,消费人群可能不再需要与已购商品相似商品。该问题的解决,最主要是增加推荐多样性,在最优解的起点上根据其它不同消费人群的消费属性进行多路径搜索直至达到最优解终点,达到殊途同归的效果并将这期间的相关商品对消费者进行推荐。
2电商异常行为与反作弊
对于电商中存在的刷单、薅羊毛、在线赌博等现象,利用数据关联以及图模型能够很好的显现出来,从而减少网购异常行为,增加公平性、合法性。
3基于“知识图谱:的智能决策
知识图谱更多的是指图形化过程中知识的运用,一方面在图形表达过程中只通过数据而不加入知识是很难实现的,尤其是数据无法表达的知识。另一方面深度学习与知识图谱的结合是实现人工智能的有效途径。
阿里巴巴计算平台
在上述三个案例分析中可以看出图模型的应用领域非常广泛,其中有通过图去理解用户的行为的正向应用;也有通过图的异常行为检测作弊手段的负向应用;更存在通过图更好的将知识引入到机器数据处理的过程中的运用。
那么在计算平台领域,图模型存在哪些技术挑战呢?
从系统角度来看目前主要存在的技术挑战主要有以下6个方面:
1)大规模:由于阿里在各个领域应用广泛,因此其形成的图模型巨大;2)低延时:很多场景下,图需要实时更新与计算并保持准时性;3)计算复杂:在简单的图模式匹配中,需要十几个小时规模计算,因此对阿里中千亿规模的图,仅进行较为简单方法进行计算是难以实现的;4)表达能力:在变化图中发现社区及演进是一个巨大的计算过程,也存在着面向分布式优化的算法表达的难题;5)高性能:分布式计算开销巨大,如何充分利用异构环境实现性能的提高是当下存在的挑战;6)敏捷性:在实际工程中要处理好2个平衡——场景多样化与平台通用性、特例优化与工程敏捷性。FLASH图计算平台
针对上述技术问题,阿里开发运用了FLASH图计算平台,层次上主要分为5层,从低到高分别是:存储层、计算模型层、语言层、优化层和应用层。
在模块上主要又分为2大模块(FLASH和FALTTEN)和3大部分(统一图存储、语言与引擎和实时模型匹配),这其中SORA统一图存储包含于FLASH模块当中,相对于FLASH模块的语言与分布式优化,其主要实现编码、索引支持以及数据的实施更新与过期数据处理;而FALTTEN模块主要实现交互式查询与接口兼容功能。
FALTTEN模块
在获得相应数据的情况下,由于未知性的存在进行关联计算往往也存在这巨大的计算量,在FLATTEN/BigGraph模块下,可以实现关联数据图形化的实时反馈,在展现给用户相应图形模型的基础上继续进行优化,其次允许用户定义模式,平台会在用户定义的基础上进行实时计算,最大程度上增加了便利性。此外针对在线性,阿里通过FLASH平台中全内存的运用,实现各类图形实时计算。
在各类技术飞速发展的今天,大数据的难题依然存在,采用原始的方法处理大数据面临着诸题,因此给我们提供了巨大的发展空间,在阿里中图计算的应用也会在发展过程中给使用者提供越来越多的便利。目前还存在很多挑战,需要深入结合场景与领域专家紧密合作,共同探索关联数据价值和决世界级计算难题。
本文由云栖社区志愿者小组林一木整理编辑,程弢审核。
活动相关文章
转载地址:http://yzana.baihongyu.com/