中国常驻联合国代表习近平主席重要讲话是北京世妇会精神的进一步升华

新华社联合国10月1日电(记者王建刚)中国常驻联合国代表张军1日在对媒体吹风时表示,习近平主席当天在联合国大会纪念北京世界妇女大会25周年高级别会议上发表的重要讲话,立足于人类社会文明发展的历史潮流,直面性别平等事业面临的挑战冲击,就全球妇女事业发展何去何从贡献中国智慧,宣布务实举措,充分关怀妇女福祉,体现大国责任担当,是第四次世界妇女大会(即北京世界妇女大会)精神的进一步升华。

张军强调,习近平主席讲话进一步展示了中国妇女事业发展进步的辉煌成就,集中体现了以人民为中心的发展理念。中国是北京世妇会的主办者,也是妇女发展事业的实践者、先行者。25年后的今天,各国领导人和代表“云”聚一堂,共商新冠肺炎疫情背景下的妇女发展合作大计。联合国特意邀请习近平主席出席开幕式并发表重要讲话,充分体现了中国作为北京世妇会东道国,在全球妇女事业中的独特地位和重要作用。

第二,我们还是会收集用户和POI的交互数据,通过本地化差分隐私的方式注入噪音,这样传上去的是一个带噪音且能够保护隐私的版本。

这位不幸逝世的少女名叫陈彦霖,生前是一名学生。2019年9月22日,陈彦霖的尸体在香港一处海域被发现。据报道,由于陈彦霖的尸身被发现时全身赤裸,打捞的水警认为有可疑之处,遂将案件移交有关部门做进一步调查。

通过各式各样的安全聚合方式使隐私得到保护,这种方法我们称为PriRec。

8月25日,顶着巨大压力的何女士走上法庭,出示了陈彦霖的出生证明,并承诺愿意提供DNA样本,接受亲子鉴定以证实身份。9月1日,化验结果显示,何女士和陈彦霖确实是母女关系。

《意见》明确,对于依法认定为正当防卫的案件,及时作出不予立案、撤销案件、不批准逮捕、不起诉的决定或者被告人无罪的判决。对于防卫过当案件,应当依法适用认罪认罚从宽制度;对于犯罪情节轻微,依法不需要判处刑罚或者免除刑罚的,检察院可以作出不起诉决定。对于不法侵害人涉嫌犯罪的,应当依法及时追诉。

何女士出庭现场,图源:大公报

通过训练过程中引入的SGLD,也就是加噪的SGD,再加上Adversary loss,使得哪怕是服务器试图做恶,也无法由此推断出更多相应信息,安全等级进一步提升。

通过迭代式的同态加密计算,既保护了用户隐私,也保护了密态下的服务器隐私。

更过分的是,这些暴徒一边喊着“为陈彦霖讨回公道”,一边又到何女士住处附近和路上“埋伏”,对这位遭受丧女之痛的母亲辱骂骚扰,还搞出要何女士证明“我是我自己”的荒唐闹剧。

工作里面证明了,如果有恶意者在模型训练过程中拿到真正的梯度之后,就可以反推出数据中的特征(x)和标签(y)。

当然,安全的方法计算时间会更长一些,因为天下没有免费的午餐,要保护隐私,肯定有相应的计算和通信成本在里面。

对于一直借此事抹黑港警的暴徒而言,这显然不是他们希望得到的结果。在何女士发声后不久,这些暴徒就炮制了“陈彦霖母亲已经自杀”、“这是冒充的”等传言,还将何女士跟一位自杀者的照片做对比,把谣言传得“图文并茂”。

不久后,少女的母亲出面澄清女儿死于自杀。然而,没有得到自己想要结果的暴徒们,却污蔑这个母亲是“假冒的”,逼得这位母亲专门做了亲子鉴定。

我们希望能够提出一种方式,尽可能在效率、精度、安全性方面能达到比较好的折中,保护服务器和用户的隐私。

在强有力的证据下,包括立场偏向示威者和暴徒的大多数媒体,都报道了这一检验结果,也停止了对“被自杀”、“假冒”话题的炒作。

Label的部分还是放到数据持有者本身,全程能确保没有哪一部分隐私会被泄露。

同时,模型的泛化能力会有进一步提升,结合MPC里同态加密和秘密分享的技术,加固PCA(Principal Components Analysis,主成分分析),使得它能真正保护数据安全性。

其次,在服务器里面,对于网络结构这部分,设计可以非常灵活,也可以设置任意的网络结构,充分发挥中心服务器的计算力。

从它的三个数据集可以看到,改进版DLG相对于原始的DLG在攻击的准确率提升非常大。

通过这样的方式产生动态的POI,再通过去中心化的梯度下降方法学习能保护隐私的FM模型。

总体而言,我们的方法能较好地实现效率、安全性和准确率的折中。

按照联邦学习的协作方式,计算本地的梯度,发到服务器,平均之后更新本地的模型,看起来比较安全——实际上,由于A和B精确知道每一轮梯度,它其实可以反馈出很多相关信息。

刚才讲到,在服务器里,可以很好利用现有的TensorFlow或Pytorch,从右边这个代码可以看出来,该方法是非常用户友好的。

在模型训练上,涉及到前向、反向的计算,非常耗资源,它跟现有的一些隐私计算技术结合之后,对效率本身还是有比较大的影响。所以有很多工作都在考虑怎么做模型推理。在模型预测时,既要保护云上的模型,也要保护客户手里的数据。

右边的例子,是在NIPS网站上抠的一些文字,刚开始是随机生成的,迭代到第30轮的时候,可以看到从梯度里恢复出来的一个样本,跟原始样本是非常接近的,只有个别词有一定差异。

发现这些问题之后,我们提出了一个创新的体系。

究竟共享智能与我们熟知的联邦学习有何不同?在共享智能落地金融等多个重要领域的过程中,蚂蚁金服又遇到过哪些挑战,留下了怎样的宝贵经验?

同时,我们也发现用它也能很好提升模型的撸棒性, SGLD和变种,比前面单独的不加噪版本在Test上面的Metric会更好一些。

右边是MIT提出来的方法,比较快,但它的Label也放在服务器里计算,安全性有一定问题;而且它没有考虑特征之间的相关性,精度上有一定损失。

中间是完全基于MPC的方法,有很多非线性运算,可以做到可证安全,但速度会慢几个数量级,效率本身也不高。

为此,雷锋网《AI金融评论》邀请到了蚂蚁集团共享智能部总经理周俊做客线上讲堂,详解蚂蚁金服共享智能的技术进展和落地实践。

从右下角的结果中,能够看到我们攻击出来的结果,跟原始特征非常接近。这说明,不论是从学术圈里面假定的setting,还是真实情况中,目前这种共享梯度的协作方式,也包括联邦学习,本身都有比较大的安全隐患。

从结果可以看出,相比于各方单独算一个PCA再拼凑结果,我们的方法精度提升比较大。同时,它跟原始PCA方法相比,在后面都接相同的机器学习模型的情况下,几乎没有精度损失的情况。

在这之后,DLG方法有了改进。这个方法首先通过推导可以精确拿到Label本身,有了Label再去反推X就更简单了。从公式可以看到,它能更容易反推出原始数据的X。

当时正值香港骚乱期间,调查才刚开始,谣言就已经满天飞了。不少暴徒及其支持者在网上不断发声,认为陈彦霖是因为参与抗议示威才遇害的,而且死前曾遭遇性侵。更有谣言称,凶手可能是香港警方,或者“大陆方面派来的”。

DNN模型是现在大家用的比较多的。这里分别列出来业界三种典型做法。

我们在评估Membership攻击效果时,定了一个成员隐私的loss,这个loss就是为了看SGLD到底能不能保护成员隐私,我们通过大量的实验发现SGLD是能较好阻止Membership attack。

当然,即使在证据如此确凿的情况下,网上还是有个别暴徒中的“顽固派”在强词夺理。这也再次说明,相比真相,他们真正想要的,是一个能攻击香港警方和大陆的武器。

如何“精修”机器学习处理方法各环节

本报北京9月3日讯 记者周斌 最高人民法院、最高人民检察院、公安部近日联合出台《关于依法适用正当防卫制度的指导意见》。《意见》明确,要准确理解和把握正当防卫的法律规定和立法精神,对于符合正当防卫成立条件的,坚决依法认定,切实防止“谁能闹谁有理”“谁死伤谁有理”的错误做法,坚决捍卫“法不能向不法让步”的法治精神。

《意见》规定,认定防卫过当应当同时具备“明显超过必要限度”和“造成重大损害”两个条件,缺一不可。不应当苛求防卫人必须采取与不法侵害基本相当的反击方式和强度。防卫行为虽然明显超过必要限度但没有造成重大损害的,不应认定为防卫过当。防卫过当应当负刑事责任,但是应当减轻或者免除处罚。

因此,我们在训练时也把传统的SGD换成了SGLD,能进一步提升安全等级,在兼顾三方面要求后,具有比较高的安全性和高效性。

随着谣言传播得越发离谱,陈彦霖的母亲何姵谊不堪其扰,向外界发声澄清。她表示,陈彦霖在生前有精神疾病,还有过自残行为,为此曾接受过相关治疗,因此有自杀的可能。她呼吁大家停止造谣,让自己女儿能安息。

从学术上能够看到,在这种协同学习中,以前大家认为安全的共享梯度方式,本身并不是很安全,我们给它取了一个标题叫做非可证安全。

做保护隐私的机器学习方法,本身还是需要结合其他方法去弥补它的不足,才有可能让方法本身更安全,真正保护用户隐私。

典型应用案例:POI上的推荐

我们自己所做的机器学习处理方法,从数据预处理到模型训练再到模型推断,都是遵循这样切实保护用户隐私的思路,将MPC、TEE或其他技术,跟现在技术相应结合,确保中间每一步的隐私都能得到更好地保护。

《意见》明确,正当防卫必须是针对正在进行的不法侵害。对于不法侵害虽然暂时中断或者被暂时制止,但不法侵害人仍有继续实施侵害的现实可能性的,应当认定为不法侵害仍在进行;在财产犯罪中,不法侵害人虽已取得财物,但通过追赶、阻击等措施能够追回财物的,可以视为不法侵害仍在进行。

第二,无论是在数据保护还是在客户端上,用同态加密的机制去保护。

这种方法在前几年一直都比较火,无论是联邦学习还是其他的协同学习方式。

以下为周俊公开课全文,AI金融评论做了不改变原意的编辑:

阿里巴巴在去年也做过一个更加贴合实际情况的例子:假定双方有两个数据拥有者,它们的特征空间一样,样本空间不一样,我们称之为水平切分。

原来的做法,不论是非常详细的profile数据,还是一些用户跟POI的交互数据,用户的所有相关数据都要被推荐系统所收集。一些隐私模型,比如用户偏好也都是被推荐系统所保留。所以推荐系统有很大的机会窥探到用户相关隐私。

除了降维以外,还有很多类似的工作可做,比如共线性检测,隐私求交(PSI)等。

这里举了两个例子,能够看到,尤其是在图像领域,通过梯度本身是可以反推出原始输入的这张图像和原始的Y。

左边是传统的基于明文的神经网络训练方法。

张军说,习近平主席讲话紧扣新冠肺炎疫情形势下的新挑战,明确指出要更加关注妇女特殊需要,切实落实《北京宣言》和《行动纲领》,并提出“帮助妇女摆脱疫情影响”、“让性别平等落到实处”、“推动妇女走在时代前列”、“加强全球妇女事业合作”四点重要主张。这些主张全面反映了各国妇女当前最大的关切和诉求,有方向、有目标、有行动,兼顾当前和长远,并借鉴分享中国妇女事业发展成功经验,为世界妇女事业发展指明了方向、提供了指南。

为此,香港警方曾在记者会上展示了监控视频、验尸结果等证据,证明陈彦霖死于自杀,身上无可疑伤痕及性侵痕迹。至于尸身赤裸的原因,则可能是由于尸体发胀被海水冲走。

这样的方式,既保护了服务器上的模型,也保护了客户端上面输入数据的效果,起到了比较好的trade-off。

具体是把DNN的计算拆分成两级,一是首先通过采样的方法拿到W,有了W之后,客户端传过来的加密Input,通过线下的运算出Z,这也是密态的。密态下的Z在返回到客户端解密后,在客户端上就能拿到最后的a。

张军表示,习近平主席讲话体现了中国对世界妇女事业发展的巨大支持。实现性别平等,需要政治承诺,更需要切实行动。习近平主席在讲话中宣布未来5年内向联合国妇女署提供1000万美元捐款,继续设立中国-联合国教科文组织女童和妇女教育奖,并郑重宣告中方在5年前全球妇女峰会上提出的全球合作倡议已经全面落实。上述承诺和行动实实在在,很多国家的妇女和女童从中受益。这也充分体现了中国对全球妇女事业的积极贡献,体现了对联合国的坚定支持,体现了中国的大国担当。

首先,为了考虑特征之间的相关性,我们在底层利用MPC技术去做跟隐私数据相关的一部分模型计算。计算完之后,再把跟隐层相关的复杂计算,放到一个Semi-honest 服务器(半诚实服务器)去完成其他运算。 

我们跟业界的几个方法也对比过,比如2017年 MIT的 SplitNN和现在最好的SecureML。

以前很多方法都在探讨它的泛化能力,在这里我们发现了它另外的好处:因为训练过程中添加了噪声,所以可以更好的保护隐私,尤其是在对成员攻击(Membership attack)的情况。比如有时医疗领域想知道自己的数据有没有被这个模型所用。

在业界做隐私保护技术研发之前,是通过协同学习方法来实现多方信息融合,联邦学习就是其中一种。近年来,学术圈相应的证明发现此类方法的一些安全性问题,尤其是直接共享梯度,本质上存在一些安全性问题。

SGLD是在贝叶斯神经网络中应用较广泛的方法,可以看作是加噪版本的SGD。

首先是计算均值。如果是在同态加密的情况下,需要密态空间要进行计算;如果是秘密分享的方法,则需要将原始数据拆成多个秘密分片,再配合起来算出均值。

还有极端情况是完全用MPC做计算,单次模型预测用时会非常长。

《意见》规定,正当防卫的前提是存在不法侵害,不法侵害既包括侵犯生命、健康权利的行为,也包括侵犯人身自由、公私财产等权利的行为;既包括针对本人的不法侵害,也包括危害国家、公共利益或者针对他人的不法侵害。对于非法限制他人人身自由、非法侵入他人住宅等不法侵害,可以实行防卫。

此处有几步核心操作:

我们的方法,因为大量的复杂运算很多是返回到客户端上面,在非密态的情况下进行计算,所以Latency比较低。它还能支持任意的激活函数,可以比较好地扩展到RNN和CNN。

具体来讲,我们在两个数据上面做了相应的测试,无论是在Table1还是在Table2里,尤其是在Attack Metric上,SGLD跟普通的方法相比,能够大大降低成员攻击的准确率。

张军强调,习近平主席讲话为世界妇女事业发展注入新的动力。中国成功主办了1995年北京世妇会,与联合国妇女署合办了2015年全球妇女峰会,在世界妇女事业发展史上树立了新的里程碑。在此基础上,习近平主席提出2025年再次召开全球妇女峰会的重要倡议。在2025年北京世妇会30周年和联合国成立80周年的重要时间节点,再次召开全球妇女峰会,重温北京世妇会的初心使命,具有十分重要的意义,相信习近平主席这一富有远见的重要倡议一定会得到联合国和世界各国妇女的积极响应和大力支持。

另外,现在MPC尚不能完全精确计算一些比较复杂的函数,只能做一些展开或近似计算,精度上也有所损失。

方法采用了两点,一是前面介绍的贝叶斯神经网络,因为它里面可以引入权重的不确定性,这能让服务器上的精确模型不被拿到。 

这服务器里可以利用现有的各种计算资源,比如TF、PyTorch,甚至可以利用一些比较灵活的处理框架。

以数据预处理中的降维为例,假定数据在水平切分的情况下,大家样本空间不一样,两方希望能够把数据能降低一个维度,降维之后的结果能够送到后面的机器学习模型进行相应训练,这种方法能较好提升效率。

《意见》要求,准确界分防卫行为与相互斗殴。因琐事发生争执,双方均不能保持克制而引发打斗,对于有过错的一方先动手且手段明显过激,或者一方先动手,在对方努力避免冲突的情况下仍继续侵害的,还击一方的行为一般应当认定为防卫行为。双方因琐事发生冲突,冲突结束后,一方又实施不法侵害,对方还击,包括使用工具还击的,一般应当认定为防卫行为。

《意见》要求,防止将滥用防卫权的行为认定为防卫行为。对于显著轻微的不法侵害,行为人在可以辨识的情况下,直接使用足以致人重伤或者死亡的方式进行制止的,不应认定为防卫行为。不法侵害系因行为人的重大过错引发,行为人在可以使用其他手段避免侵害的情况下,仍故意使用足以致人重伤或者死亡的方式还击的,不应认定为防卫行为。

张军表示,新冠肺炎疫情对全球妇女事业带来新的冲击。广大妇女对美好生活的向往更加强烈,热切期待各国领导人亲自关心,为性别平等事业注入信心和动力。对此,习近平主席站在人类社会发展进步的高度,站在维护广大妇女根本权益的角度,提出了中国主张和中国方案,引起各方热烈反响和高度评价。

针对数据共享场景,包括联邦学习、隐私保护机器学习(PPML)在内的多个技术解决方案纷纷出炉。蚂蚁金服提出了共享智能(又称:共享机器学习),结合TEE与MPC两条路线,同时结合蚂蚁自身业务场景特性,聚焦于金融行业的应用。

我们这个方法跟原来不一样,之前可能有很多工作局限于支持一部分的激活函数。比如有时都无法支持sigmoid或max pooling,有的干脆只保护客户端的Input data,但不保护服务器上的模型。 

我们先来看一下去年在一个学术顶会上比较火的Paper引发的讨论。Paper里面的方法也比较好理解,实际上就是近几年大家保护隐私的方法之一:就是不传原始的数据,只传共享的梯度,把梯度汇聚到一起,然后再汇集到模型。

性能上,(我们的方法)比这俩更好一些。从这两个数据集来看,训练时间上,由于我们使用了中间服务器,训练时间相对于纯MPC的方法(SecureML)大大降低,但相比SplitNN训练时间还是要长,因为我们安全等级要高。

满足一定条件的情况下,尤其是逻辑回归,可以构造出这样的一组方程组,当方程组的个数大于这个数据的特征维度,方程组是可以解出来的。因此也可以反推出原始的数据。

我们的思路是:首先,比较敏感的用户隐私数据和模型,能够在用户本地,而不能上传到服务器的推荐系统这里。

Semi-honest 服务器会拿到中间的隐层结果,我们可以通过一些对抗学习方式去防止服务器获取中间信息。这一方法尽可能做到隐私、准确率、效率三者之间的平衡。此外,我们还可以使用贝叶斯学习的方法(SGLD)去替换传统的SGD(随机梯度下降),从而更好保护训练过程中的隐私。

其次是计算协方差矩阵,最后再算出相应的特征值、特征向量,就得到了降维后的X′。同态加密和秘密分享的技术,跟PCA做相应结合,就能比较好的拿到相应结果。