EpiK团队:构建一个开源知识平台,用于构建和共享共同利益

6月65438+10月10,由EpiK协议主办的“2021开源知识运动”主题活动,为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术学院副院长邢在内的重量级嘉宾;中国计算机联合会知识图谱SIG主席/著名知识图谱专家/OpenKG主要创始人王浩芬;东北大学自然语言处理实验室副主任/小牛思拓创始人王慧珍。

在本次大会上,EpiK中国区负责人Eric Yao做了题为“分布式知识地图的构建”的主题演讲,重点介绍了以去中心化的合作模式构建开放知识库的理念和实践。同时,EpiK产品负责人介绍了即将推出的游戏化数据标注平台。详情如下:

前三位老师分别讲了知识图谱、区块链、数据标注的细节,这三个方面融合起来会产生什么样的火花?接下来我要讲的是EPIK协议,它的目的是建立人类永恒的知识库,从而提高AI的智能,也就是数据开源或者知识开源。

为什么要建立开源知识平台?

EpiK项目是一个基于区块链的分布式数据和知识共享可信平台,通过去中心化的数据存储和协作,实现数据的共建共享。为什么Epik嵌入人工智能和区块链结合的视角切入创业?这和当前的时代背景是分不开的。

第四次工业革命已经到来,全面智能化是现阶段的核心目标之一。各种智能体正逐渐进入日常生活,如siri、萧艾同学等人工智能语音助手,以及冰箱、洗衣机、彩电等各种具有ai学习能力的家用电器。

人类的知识传承了几万年。它最早是由甲骨文刻在石头上,最后演变成竹纸,再数字化储存在硬盘上。这些知识存储在文本、图片、音频和视频的非结构化数据结构中。人类很容易理解这些知识。比如我们可以很容易的从电影或者歌曲中判断出这个人物的关系和情节。然而,机器很难理解这些信息。很难通过一个又一个屏幕理清人际关系。机器如何理解我们人类的知识?

Google在2012提出了知识图谱,通过结构化的人类系统,让机器掌握人类的知识,探索AI的认知。这里有一张知识图谱,也是我们熟悉的一部电影。它叫做复仇者联盟。它是由一个个地图组成的网络结构,描述了电影中透露的各种信息。有了这些地图,AI就可以阅读知识地图,回答很多问题,比如宝石的位置是怎么得到的,从谁那里得到的。

人工智能是一个大方向,但这件事和区块链有什么关系?这需要引入一个非常严肃的话题,就是人类如何信任人工智能或者机器智能。这就涉及到机器人会不会欺骗人类,引导人类做出错误的决定。

人工智能或知识地图是许多公司正在做的事情,如脸书、苹果、亚马逊、阿里巴巴等。他们每个人都要花费时间和精力来构建自己的知识图谱,但是这些知识图谱并没有互联互通,每个公司都有自己的知识库,这就涉及到一个问题。集中式知识库将面临知识图谱被篡改的隐患。因为知识图谱是一个可以由三个元素组成的拓扑网络结构,一个节点的变化很容易导致计算机或人工智能理解这个节点与其他节点关系的变化,从而引起善恶或位置的变化,这是非常危险的。

同时,超大规模知识图谱的构建也面临着无法组织大量人员参与知识库构建过程的问题。没有这样的组织结构,专业化很难实现,会成为机器智能的巨大障碍。

基于这两点,可以看出区块链技术是目前解决这一问题的唯一途径。所以知识图谱应该是开源和开放可见的,这是它的本质属性,而不是无法解释的结果。

构建开源知识平台有哪些挑战?

知识图谱底层的存储应该是开源的,有监管的,但是人与人之间如何合作建立一个知识库,同时访问它?

这里面有很多挑战。有很多人类的知识和领域。如何搭建一个分享平台我应该考虑几点?

第一,如何开放知识共享,通过构建一些合理的工具和机制,让每个人都有贡献知识的渠道,因为每个人都是一个代理人,让有需要的人都有方法和获取这些知识的途径。

第二,如何防止知识被篡改,或者当知识被更改时,可以追溯到源头。这就需要使用区块链,它可以保证知识的真实性和不可更改性,同时还可以通过适当的机制不断公开和更新。

接下来,如何才能保持知识的质量?因为区块链实际上是价值的载体,它的储存成本非常高。它的优势不在于存储成本,而在于数据的共建共享。如何保证知识的质量是一个非常重要的课题。

在知识生成层面,要对知识进行监管,当知识质量出现问题时,需要对其进行问责,这样就会形成良性循环,让链条上的数据越来越优质,越来越有价值。

最后,如何激励知识贡献,每个人都会通过我们的系统提供知识或者贡献给我们的系统,但实际上每个人都不一定是自发的爱好,所以有一个合理的激励机制,如何平衡各方面利益的动态平衡,同时使激励的分配成本相对较低,使系统健康循环运行,是非常重要的。

为什么选择在2020年做这件事?我们观察到了一些合适的机会,很多时机已经成熟:2020年,基于区块链的去中心化存储技术刚刚成熟,如知名项目Filecoin,可以借助0知识证明,以极低的管理成本组织超大规模防篡改、可共享的开放存储资源;2020年,数据标签行业也迎来大爆发,预计2025年将达到6543.8+000亿元,这也将推动大量年轻就业人口涌入,为这个行业提供丰富的知识贡献和知识质检人才;2020年,DeFi概念迎来了前所未有的发展,可以更好地帮助解决线上激励的动态分配问题,让数字货币的激励更加灵活;社会越来越接受数字货币,越来越接受激励合理性的概念。

构建超大规模知识地图的EpiK解决方案

基于上述考虑,《EPIK议定书》诞生了。EPIK指的是EpigraphyKnowledge,翻译过来就是刻在石头上的知识,代表进入区块链的知识,就像刻在石头上一样,不能随意篡改。目的是基于区块链技术建立一个永恒的人类知识库,从而开放AI的知识。针对上述问题,提出了三种解决方案。

一是利用去中心化存储技术解决数据不可篡改的问题,即这类数据不可随意篡改,这类知识不会因为私人利益而被随意篡改,从而实现知识在全国范围内永久存储的广泛传播。

第二点是借助去中心化的自治组织解决劳动问题,从而在去中心化的合作中实现各阶层、各族人民的公平受益。

第三点是借助通用证书经济解决自驱动力问题,实现生态中每个成员利益最大化的过程,从而无形中促进知识图谱数据的增长。

Epik的技术架构分为三个模块,即知识提取、知识存储和知识应用。从低到高有三个层次,包含了很多技术细节。

Epik生态参与者包括五个角色:货币用户、数据矿工、领域专家、赏金猎人和数据网关。按照数据生产、存储、使用三个流程,这些角色包括三个角色,一个是核心用户,一个是领域专家,一个是赏金猎人。核心用户可以通过投票的方式为领域专家投票,保证领域专家的权威性和专业性。领域专家是一个非常核心的人物,负责组织产生各种类别的人类知识库数据。由于整个工作非常耗费人力,因此,它涉及大量复杂的数据纠错和清理工作,这是数据专家无法完成的。他需要拆分这些任务,发布到平台上,由赏金猎人认领。他的目的是完成领域专家发布的任务,同时获得相应的奖励。

数据经过领域专家的整理和清洗后,通过领域专家上传到数据挖掘器,这是底层的存储机制。有上万个数据挖掘者共同维护整个平台的数据。

数据从生成到存储可能会涉及应用环节,上面会有很多应用生态。如何方便地访问这些数据引入第五个角色,即数据网关,其作用是为整个底层数据存储提供数据访问和数据索引服务,赋能上层应用层,让上层应用层更好地利用整个平台存储的数据。

上面提到的两个图,都是偏概念化的。下面是一个如何实现业务闭环的具体例子,是一个可视化的图形。

首先,我们可以看到上面已经标注了一些角色,比如领域专家、数据网关等。领域专家是行业专家和领域专家。目的是整理数据格式,组织数据生产,检查数据质量,他们处理的数据都是自己领域的公共数据源,如公共企业信息、公共教材信息等。当他把这两个数据源的格式整理好了,待处理的数据任务发送到去中心化平台时,赏金猎人就可以在这个平台上认领任务了。他的角色一般是大学生,年轻白领等。一些有一定空闲时间,有一定知识储备,有工具使用能力的人,可以接到众包任务,同时校对这些数据,获得一定收入。

数据按照我们需要的格式和质量产生后,会由领域专家提供给矿工。矿工是底层的分布式存储节点。因为我们的数据存储是面向的,都是针对知识领域的,所以对数据存储的要求不是很高。可能要求这些服务器八核16G,250G ssd固态硬盘,5兆带宽即可满足。数据存储后,上层会有很多应用,会访问我们的数据,因为我们的数据很有价值,因为我们整理了公开的企业信息,原题库整理了教材信息,这两者对他们来说都很有用。同时可以看到上层知识的应用场景非常大,证明我们服务的市场增长潜力和空间是巨大的,也可以保证整个项目的快速发展。

他们可以通过数据网关访问我们平台上存储的知识和数据,从而实现更多的商业应用,为整个知识的变现提供价值。

为什么这个系统运行良好?区块链行业有一个概念,叫做通用证书经济,就是我们希望设计一个合理的通用证书经济,每个人的贡献都会有相应的收益在里面。比如领域专家一天会赚5880元,月收入可能足够他支撑一个10到20人的小团队,继续做下去。赏金猎人是时间分散在小城镇的年轻人和白领中的人。他们按小时计酬,每小时可能达到36元,完成任务后可以领取这部分收入。矿工大概会以30元的价格从每个节点获得一天的收入。最后,在底层应用场景下,用户需要花费一些资源来使用数据,这是一个为整个系统注入能量的过程。他们每天需要抵押202元左右才能获得1GB的数据,随时可以赎回,形成了一个闭环业务。

接下来我们来看看整个项目的路线图:第一阶段是我们已经完成的,比如白皮书测试的发布,测试网方尖碑的发布,测试网预挖掘计划的发布,领域专家招募计划的启动。第二阶段是Rosetta的发布,主网v1.0,治理白皮书的发布和知识众包产品1.0的发布,以及今年的。

顺便问一下,为什么要介绍EVM的信息?这可以非常方便或零成本地将以太坊或去中心化Eth的经济资源引入知识生态系统。比如用户想访问我们链上的数据,但是没有链上的点怎么办?他们可以通过抵押其他资产来获取数据,从而快速扩大用户规模。这只是其中一个应用。

我们将EpiK的任务描述为从碳基生命到硅基生命的史诗般的布道,将持续至少50年。这是一个非常长期的轨道,Epik会继续赋能和迭代这个系统,让越来越多的用户贡献知识,用好知识。

游戏化数据标注平台即将发布。

在此,我想分享一些关于游戏化数据标注平台产品的思考,并向大家展示未来普通人如何轻松参与到EpiK知识图谱的构建体系中,从而为体系提供自己的知识并获得收益。

游戏现在是一个让整个互联网消耗大量用户的领域。这里有一组数据:从2004年到2010年,《魔兽世界》所有玩家的时间加起来大概有593万年,基本上比人类文明史还长。玩家平均每周花在虚拟世界的时间为17-22小时,基本相当于工作时间的50%。

世界上最好的图片数据集有654.38+0万张图片已经被标记。它的图片总数可能超过1000万,但是标记了654.38+0万。如果每张图片的标注成本是5分钟,实际上只需要《魔兽世界》六分之一的工作量。所以其实游戏才是值得我们思考的东西。

?游戏化其实就是把游戏的一些常见设计思路应用到一些非游戏领域,比如在线教育、公益项目或者产品设计。

比如支付宝的蚂蚁森林和蚂蚁庄园、蚂蚁森林的累计用户应该是5.5亿。因为这是一个公益项目,所以用户可以根据自己的能量换真树,相当于在蚂蚁森林里种了654.38+220亿棵真树。蚂蚁庄园累计用户4亿,送出6543.8+05亿个鸡蛋。这两个项目其实是一个游戏化的公益项目,只是增加了支付宝的活跃度,增加了支付宝的粘性,拓展了支付宝的社交关系链。其实这是一个商业和公益双赢的项目,虽然看起来只是一个小游戏。

另一个很好的例子是台湾省的一个工作室Fourdesire,专门做这种游戏化的产品。比如其中一个叫记账城,鼓励用户每天记账,因为记账是一件很枯燥的事情,可以用一个用户的不断记账来换取一些积分,可以发展用户自己的城市。这个城市有很多好玩的小游戏化特色,所以很多人喜欢记账,成为一种养成的存在。

这些游戏app有一个共同的特点。他们原本把一些无聊的事情和任务打包成一个游戏的外壳,用户可以逐渐沉迷其中。而且这个工作室最终在流量上取得了非常好的表现。它是一个二三十人的工作室,却在全球积累了2500多万用户,记账城经常被推荐到APP Store首页。

游戏的核心体验是什么?简单总结一下,有四点。第一个是积分的成长体验,即用户长时间完成任务会获得这种积分、奖励和等级提升。比如簿记城就是这个城市的逐渐发展壮大,又比如太空冒险就是你可能去过更远星球的经历,所以是积分的成长经历。

此外,游戏令人沉迷的另一个元素是它有故事和情感体验。比如游戏《使命召唤》会有一个战友的故事,用户可以沉浸其中,投射自己的情绪。包括蚂蚁庄园的可爱鸡,我们经常看到朋友圈很多用户其实都觉得自己的鸡很久没喂了,他其实也有负罪感。这些东西其实都是这个产品创造的优秀的情感体验。

还有一点很重要,就是游戏因为有即时反馈体验,所以可以有一种上瘾感和进入感。当用户完成某项任务时,有明显的反馈体验设计。比如我们在打篮球的时候打篮球,篮球会撞网,会发出声音,其实就是一种即时反馈。比如我们玩FPS游戏,屏幕中间会有一个巨大的图标提示,这是一种即时反馈的体验。

最后是社交互动体验,比如我们可以和朋友互动。而当时流行的社交游戏,比如偷菜,其实是借助游戏本身实现了人与人之间的互动。这种互动充满了一些小的歧义或隐含的表现力,实际上非常受玩家欢迎。

我们探索的尝试是这样的。首先是我们认为数据标签化和游戏化的业务其实是可以放在一起的。为什么我们认为数据标签化的业务更适合和游戏化放在一起?

其实是因为第一次贴标签的任务本身就很枯燥重复。此外,我们也希望用户能够在碎片化的时间里给数据贴上标签。

如果这个时候我们有一个口腔医学相关的标注任务,比如口腔呼吸会不会引起下颌收缩,这个东西一般用户是无法标注的。如果一个医生很忙,他通常有很多主要的业务工作。如果能在全国只有654.38+0.4万人左右的医生中,把这样一个类似于数据标注的业务以碎片化的方式分解成任务,并鼓励用户以游戏化的方式收集,那么也许这个标注任务就能更好的执行。

为此,我们期待做出这样一款有体验的产品。一是具有流畅的标注体验,需要强大的算法支持和智能分配标注任务。第二,要尝试不同的游戏化场景设计,给用户这个故事和世界观。

另外要融入一些游戏化的元素,比如我们做随机抽卡或者成长系统,这样游戏才能有一个基本的可玩性。

先说流畅的数据交互。我们现在认为,大多数数据标注任务实际上是上下文无关的,也就是说,标记一个任务和标记下一个任务之间没有很强的关系。所以我们可以把一些大任务拆开,拆开后分发给合适的人。比如我们会给用户下达一个任务,让用户读五遍句子,用户对照着它把句子读出来。五次之后,这个任务会自动提交,然后用户可以获得一些相应的积分,这些积分随后可以用来做游戏中一些有趣的事情。

在游戏场景中,我们要讲一个故事,这个故事可能是一种大灾难。现在人类文明已经毁灭,如何在此基础上重启人类文明?在这条主线中,我们会不断的派出探险队进行探索,找到一些过去历史中的科技遗迹,然后对我们的一些建筑进行升级。比如火,最初是用来给人类提供能量的。通过反复派遣探险队,我们最终可以成为一个蒸汽发电站。蒸汽电站改了以后,我们可能就变成核聚变电站了。这也将带领我们在科技上重塑人类文明史,带领我们的玩家经历一个把人类文明从蛮荒时代带到农业时代,到蒸汽时代,到工业文明的未来,包括现在的人工智能,未来可能会通向太空时代。

但是,这件事其实本身就很难。我们认为未来工作的难点在于:第一,我们的数据标注任务推荐系统的设计会存在很多潜在的问题。比如我们的标注任务如何实时生成和分发?当然也要考虑用户的专业门槛和反作弊。第二,和专业人士的标签化不同,我们有员工。每个人的工作场所都是安静的,我们用户的使用场景可能在地铁上,在工作的闲暇时间,也可能在家里。这样,什么样的人在什么样的情况下得到什么样的任务,才能保证我们更好的数据质量,这也是一个问题。第三,当多个用户提交时,我们的整个投标数据的质量;第四,如何合理激励每一个用户,让用户的贡献和动机达到平衡。整个一系列的事情都是我们长期要解决的问题;第五,如何实现一个真正好玩的,长用户周期,高粘度的前端游戏化,需要一步步探索。比如用户喜欢什么样的游戏玩法,我们是做一个有成长增长点的游戏,还是做一个自我挑战的游戏,或者干脆在移动app的标签中融入一点游戏化元素更好?如何才能避免用户觉得新鲜感后感到厌烦,或者说是否可以经常更换主题?这些都是我们未来在前端需要探索的地方。