2017年6月27日,W3C的Phil Archer撰写博客文章,阐述了对Web数据未来方向的思考。文章大意如下:
基础
2017年1月,Web数据最佳实践(Data on the Web Best Practices)成为W3C的正式推荐标准,这构成了W3C在Web数据(Data on the Web)的基础,给出了在Web上公开或非公开共享数据的基本流程,鼓励在Web共享数据的同时不只是给出可下载的数据集,还提供更多关联信息。我们还给出了一个领域相关的最佳实践:Web空间数据最佳实践(Spatial Data on the Web Best Practices),强调在Web上公开数据,并为搜索引擎提供支持。这样,我们可以象使用U盘一样,使用Web上可下载的数据资源。
空间数据(Spatial Data)
这是Web空间数据工作组给出的一份领域相关的最佳实践,W3C与开放地理联盟(OGC)共同合作发布。W3C还将继续和OGC保持长期合作,在WebVR/AR、物联万维网(WoT)、信息模型、对地观测等领域制定联合数据标准。
研究数据(Research Data)
另一个方向是与生命科学、空间探索、海洋科学、地学、材料科学等结合开发研究数据的本体。在欧盟VRE4EIC项目的支持下,W3C设立了数据集交换工作组(Dataset Exchange WG,DXWG),满足这类需求带来的挑战,并与研究数据联盟(Research Data Alliance)、CODATA以及联合国相关机构保持密切沟通与合作。这些工作与政府数据公开的努力并不冲突,政府数据共享同样也是 DXWG 工作组的需求来源之一。如果该工作组能达成章程的约定,将为跨越不同领域和社区的数据集共享带来巨大的进步。
互联数据(Linked Data)
互联数据的应用越来越广泛。如果我们接受Gartner的炒作曲线(Hype Cycle)模型,我们相信互联数据已经进入了持续增长的区域(Slope of Enlightenment)。我们看到互联数据在生命科学、政府数据及遗产保护领域的应用,并成为跨越组织边界共享数据的有效手段。但是,让广大的Web开发者使用 SPARQL 端点来开发Web应用仍然是不切实际的。更进一步,即便所有的SPARQL端点都可以开放使用,SPARQL查询带来的巨大计算复杂度仍会让系统瘫痪。这是为什么 BBC、OpenPHACTS及其他机构不愿意对公众开放其 SPARQL 端点的原因。取而代之,他们更倾向于开放一个简单的 API,在后台执行更直接的查询。在BBC,即便这样的API也不是对公众开放的,但这个API驱动了很多BBC网站上的内容。
这一情况好的一面是,我们可以通过一种对开发者更加友好的、JSON对象的方式来访问互联数据。从数据发布者的角度看,这种API更加稳定和可靠。但不好的一面是,人们会忽视和忘记在简单API背后的互联数据架构,这会使大家不断质疑互联数据的价值。
语义Web、人工智能与机器学习(Semantic Web、AI and Machine Learning)
我们在2014年初更新了语义Web相关的主要技术规范,之后并没有进一步计划来审阅核心的RDF和OWL。但是,这并不意味着在这些语义Web的核心方面我们已经无事可做。
一个急需得到更新的技术工作是JSON-LD。相关的社区组已经开发了后续规范的草案,现在需要将这些更新纳入到未来的推荐标准的流程中。同时,Shapes约束语言(SHACL,Shapes Constrain Language)目前已经推进到提案推荐标准,得到了许多关注和参考实现。
但我从技术社区中得到的反馈是,语义网应当进一步发展并支持所谓的“标注三元组(annotated triples)”。RDF在描述不断改变的动态内容是存在天然的不足:如不断改变的工作机会、音乐会的票的状态会失效、全球平均气温不断变化等。此外,所有的“事实”并不具有相同的信任度(confidence)。自然语言处理中,如果有75%的可能性就可以认为是事实。
用RDF中的命名图(Named Graphs)可以表达这些需求,但仍有很强的需求来向RDF扩充validFrom, validTo以及probability 来表达这些需求。其他可能的标注还可包括隐私、数据溯源等。这些对三元组的标注在语法上等价于创建和标注一个命名图,RDF 1.1一直沿着这个方向走。但一个更简化的语法将使这个过程更加容易。这对于AI、深度学习、统计分析等需求非常重要。
这些方向正在ESWC中讨论,我们希望在明年组织 W3C技术研讨会,并致力于推动设立新的工作组。目前,一个项目建议已经提交给欧盟委员会,来支持这个方向的探索。
在语义Web方向的其他探索还包括建立一个公共的词汇表来共享数据分析、自然语言理解等方面的交换需求,自然语言交换格式(Natural Language Interchange Format)目前正在进入W3C标准流程。
词汇表与 Schema.org
不同的技术社区维护了各类通用词汇表,其中重要的问题是实现词汇表的互操作。一个简单易于维护的词汇表、互联是一个重要方向。目前,W3C的社区组中聚集了许多人,正在开发不同的schema,可以在 www.w3.org/ns 中查询。我们需要更好的工具来支持这个过程。
W3C将支持 schema.org 的开发,将其转换成web页面中嵌入的更多结构化数据。如果您希望加入 schema.org 的开发中,请参阅社区组的讨论,及 [email protected] 邮件列表的讨论。
总结
1. 继续加强与OGC的合作,为Web上的地理空间信息系统提供更好的互操作性;
2. 与研究数据社区建立更紧密的联系;
3. 探索对RDF三元组的标记(annotating)方法,如增加时态或模糊支持;
4. 更好的支持词汇表的开发及维护;
5. 持续提升基于互联数据/语义Web的数据集成方法,并提供更加鲁棒的 JSON API。
更多内容,请参阅英文原文,及其他W3C官方博客文章。