三峡水库提前消落到位

中新社宜昌6月8日电 (记者 郭晓莹)据水利部长江水利委员会水旱灾害防御局和三峡集团消息,三峡水库水位8日17时消落至防洪限制水位——高程144.99米,提前2天完成消落任务。

三峡水库总库容为393亿立方米,设计有高程175米到145米之间的30米防洪落差,防洪库容为221.5亿立方米。根据相关调度规程,原则上,汛期三峡水库水位将按防洪限制水位145米控制运行,以保证防洪库容充足。当长江上游来水可能对中下游安全造成威胁时,三峡水库将利用提前腾出的防洪库容,将洪水拦蓄在库内;待洪水退去,在保证下游安全、库岸稳定等前提下,三峡水库将逐步降低水位至145米,再次腾出防洪库容。

但作者确实需要证明至少有一个标准适用性很强,并使审稿人相信没有严重的缺陷(例如,通过丢弃大部分数据来放大内部注释器的一致性)。雷锋网(公众号:雷锋网)雷锋网雷锋网

在 ACL 中,什么样的资源论文才是有价值的?

为有效防汛,三峡集团流域管理中心、长江电力等单位,正加强对三峡水库上下游的水雨情监测和水文气象预报,密切关注来水变化和枢纽运行状态,并积极推进金沙江下游—三峡梯级水库防洪度汛准备工作,发挥梯级水库联合防洪效益。

以上所有的谬论都很容易被驳斥,因为它们反映了逻辑上的谬误和一种研究倾向——不喜欢与主流 NLP 系统论文不一样。但其中有一个似乎与社区真正的分歧相对应:

甘如意 ——骑行4天3夜300公里返岗的90后女孩

误区 3:新资源必须大于竞争

误区 6:每一篇 ACL 资源论文都必须随附 DL 实验

工信部还设立专家会商机制,邀请两院院士担任顾问,共同研讨三家电信企业数据该怎样联动,跨网分析如何进行,如何构建相关模型,包括建模、算法、人工智能等。

北京世纪坛医院急诊科护士

针对这一点,我自己在 ACL 2020 上收到了以下评论:

大多数 ACL 会议都提供一个专门的「资源和评估」通道,但是资源论文的作者通常被建议将他们的工作提交给语言资源和人类语言技术评测方面的国际顶级会议 LREC 或一些专题研讨会。我们再次借用下 Rachel Bawden 在 ACL 2019 中论文评论里面的一句话:

中国联通介绍,大数据方面目前有600人的专业团队,疫情发生后又专门成立一支疫情防控大数据团队。截至2月13日,中国联通已经建立了“区域人口流动”等13个大数据模型,开发了基于人口流动的疫情防控、风险预报等大数据平台,向各级疫情防控部门交付3017份数据分析报告。

那么,非英语资源呢?我们不能指望总是有这样一批审稿人,他们都是该领域的专家,而且都会说一种特定的稀有语言,所以答案很可能是「分工」。当我们以审稿人的身份注册会议时,除了专业领域外,我们还可以指定语言。如果一篇资源(或系统)论文不是用英语撰写的,那么除了目标领域的两位专家外,领域主席最好能找到至少一位会说这种语言的审稿人。不懂这门语言的人仍然可以评估能判断部分的贡献(方法、分析、与其他工作的有意义的比较)。只要领域主席在你的评论中清楚地知道论文的哪些部分超出了你的范围,都将能够做出明智的决定,并在必要时招募额外的审稿人。当然,作者应该通过添加注释来帮助应对这一问题。

中国信息通信研究院院长刘多表示,电信大数据来源于公众通信网络中的基础数据,一般可以分析到区县级流动和分布情况。结合卫生防疫等其他部门数据,可以进一步对确诊、疑似患者和密切接触者等重点人群的分布等进行分析研判。

武汉市汉口医院呼吸内科主任

国家援鄂医疗队北京医院肾内科主任

目前电信大数据只向部省两级联防联控机制提供相关数据,不向公众开放。

蔡志芳 ——本院上一线最早、坚持时间最长、年纪最大的病区主任

毛永辉 ——被称为危重病房里医术精湛的“拼命三郎”

误区 1:资源论文不是科学

韩夏介绍,目前通过大数据技术进行统计分析,提供人员分布、流动和区域预警等信息,都是基于大量网络信令而形成的统计性大数据,不涉及普通人群的个人信息。

韩夏还表示,从底层处理看,按照最小化原则收集数据,并在数据流转、使用等各环节设计了数据防攻击、防泄露、防窃取等安全防护技术手段,例如部署了加密机、漏扫系统、数据库审计系统等,确保相关数据安全。(完)

以下是资源论文的一些主要类型,以及撰写高质量评论所需的专业知识:

然而,创建模型和资源这两项任务所需要的技能集并不相同,往往也来自不同的领域,这两个领域的研究者往往也对「论文应该是怎样的」抱有不同的期望。这就使得审稿人的工作进入一个雷区:如果期望得到一个橘子结果得到的却是一个苹果,那么这个苹果看起来就是错的。以双方最大的善意来看,论文被拒绝的原因可能并非论文实际存在任何缺陷,而是它的基本方法论「不合适」。

高影响力:解决一个普遍存在的问题,提出具有高度概括性的新方法(跨语言或任务)。

看过几十条评论,显而易见人们在听到「资源论文」时,很明显会有不同的想法。是否需要进行 DL 实验,甚至是否合适,都取决于贡献的类型。

使用域内单词嵌入获得的结果不足为奇。一个众所周知的事实是,域内单词嵌入相对于一般单词嵌入更具信息性。 

湖北省中西医结合医院急救科护士长

基于电信大数据分析模型,可实现人员流动和分布情况、城市企业复工复产情况、地区物资资源情况的综合研判,但对人们所关注的疫情“拐点”,单凭电信大数据是不够的。

我认为这篇文章不适合 ACL。它非常适合 LREC 和特定的机器翻译会议和研讨会。

基于注释的迭代准则开发增加了对长尾现象的了解。

误区 4:资源必须是英语或跨语言较大的

电信大数据分析会泄露个人隐私吗?

国家援鄂医疗队中日友好医院大外科科护士长、援鄂重症护理队队长

其结果是,这种工作正在被边缘化,并受到了阻碍。我有幸参加了 ESSLLI 2019,并与一些出色的拉脱维亚文研究人员进行了交流,他们研究针对自己的语言的 NLP 系统。他们告诉我,他们放弃了主要的 ACL 会议,因为他们的工作范围太过狭窄,大多数人没有兴趣。这对每个人来说都是一个损失:要把对英语有用的想法转移到其他语言上绝非易事,这些拉脱维亚文研究人员想出的诀窍可能在全球范围内都有很大的用处。此外,如果我们在 NLP 社区的目标是建立「人类语言」的模型,我们不太可能只关注其中一种语言就获得成功。

王冰 ——用中西医结合、中医为主的治疗救助患者,火线入党

湖北省第三人民医院(湖北省中山医院)呼吸内科医生

除资源外,可能还有注释准则或新的数据收集方法;

然而,如果在所有这些语言中执行任何有意义的分析,那么语言数量通常会随着作者列表长度的增加而增加:例如有一篇关于通用依赖性的论文就有 85 位作者(论文地址:https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1548 ),该论文涉及的语言数量就比较多。

以我的一篇论文作为具体案例,这篇论文提出了一个新的情感标注方案,一个新的数据集,并展示了一些基线实验(论文地址:https://www.aclweb.org/anthology/C18-1064.pdf)。审稿人指出的一个不足之处是:

人们普遍认为 NLP 系统工程相关的工作比资源相关的工作更有声望,而这一观点可能正是与此有关。由于 ACL 是顶级会议,因此,资源论文应该被提交给研讨会和级别较低的 LREC 会议。

国家援鄂医疗队北京协和医院内科ICU护士长

误区 5:已有数据集太多了

目前,长江中下游地区已陆续进入梅雨期,待长江流域全面进入主汛期后,强降水过程将进一步增多,防洪度汛形势日趋严峻。

高新颖度:重大概念创新

国家中医医疗队队员广安门医院护理部副主任

苹果是苹果,橘子是橘子,两者都有自己的优点。因为资源论文不是系统论文而拒绝它,是没有意义的。要写一篇建设性的评论,首先,你需要从与作者同样的方法论角度来看待它的贡献。如果有不匹配的地方,也就是说,如果你被分配去审一篇贡献类型不在你的研究范围内的论文,最好让领域主席重新分配。

何雯 —— 严把每一个关口,因地制宜优化就诊流程

国家中医医疗队队员西苑医院呼吸科主治医师

      反例:使用现有框架收集更多数据或更新现有资源,或只是将现有资源转换为其他语言。

一旦你确定你看待这篇论文的角度与作者的方法论一致,你就需要判断它的实际贡献。当然,并不是所有的资源论文都值得发表在一个顶级的 NLP 会议上!对于系统和资源论文来说,接收标准并没有太大的不同。大多数会议都对这种方法的新颖性、贡献大小、潜在影响的大小感兴趣。在 ACL 中具有价值的论文,无论是任何一种类型,论文作者都需要对其中的至少一项进行有力的论证。

语言的数量似乎与数据集的大小具有大致相同的功能:一种判断其潜在影响的启发式方法。以下是 Robert Munro 从另一篇 ACL 论文评论中引用的一段话:

      示例:新任务,新注释方法;

我们对域内嵌入的评论只是简单地描述了结果表,并无意作为启示。这篇论文的贡献在于资源和方法,但在文中出现的这些实验显然引发了审稿人的错误预期。虽然最终我们的论文被接收了,但其他很多人可能掉进了这个陷阱。

它们是从建模中获得任何知识的先决条件;

误区 2:资源论文更适合 LREC 或研讨会

一个普通的机器学习实验室没有办法做这样的事情,所以为了取悦审稿人,他们使用了机器翻译来扩增语言数量,甚至在类型声明中也使用了机器翻译(以「BERT Is Not an Interlingua and the Bias of Tokenization」论文为例:https://doi.org/10.18653/v1/D19-6106 )。在这种情况下,语言数量并不能完全代表论文的整体质量。

高质量、丰富性或规模:重要的公共数据发布,能在语言描述,数据质量或资源量方面提供明显的优势。 

非公开数据的发布:以前非公开的数据资源,如匿名医疗数据或来自私人公司的数据。作者的贡献是使发布成为可能的法律或行政工作。

将语言数量与论文的潜在影响混为一谈,会给跨语言研究带来一个有趣的结果:他们拥有的语言越多,在审稿人眼中就越好。

计算语言资源(词汇、词典、语法):其价值在于从某些角度提供尽可能完整的详细语言描述。类似 VerbNet 这样的语言资源,并不是为任何特定的 DL 应用程序创建的,因此不应该要求包含任何这样的实验。

总的来说,没有好的迹象表明其他语言对能取得好的结果。

夏思思 —— 用生命践行医者誓言

包含这样的实验可能不会取悦任何一方。如果作者不是必须在论文中包含基线的话,会给语言学家们留下一些本可以解决的问题。工程师们会变得只关注基线部分,然而最终发现基线部分并没有那么引人关注。

三峡水库本轮消落自2019年12月开始,水位自正常蓄水位175米左右消落至汛限水位145米,共消落水位约30米,腾出防洪库容221.5亿立方米,相当于1550多个西湖的全部防洪库容。

继续进行 #NLProc 同行评审辩论! 到目前为止,最棘手的问题是:ACL 是否应该要求资源论文进行一些概念验证的应用? 支持方:没有 ML 实验=>就投稿到 LREC 反对方:超新的方法论/高影响力的数据就足矣 你的观点是什么?

大数据能预测疫情拐点吗?

NLP 任务/基准:主要观点通常是,新基准比以前的基准更具挑战性。这一说法显然必须得到实验结果的支持。

对于这一点比较失望的作者们在线上或线下展开的讨论,是这篇文章的写作缘由。有一件事很明显:如果作者和审稿人不能就「论文应该是怎么样的」达成一致,那么提交论文就是浪费彼此的时间。我希望本文能帮助那些使用数据的人,更好地理解那些制作数据的人,并对他们的论文做出更好的评价。

夏莹 ——ICU病房里永不知疲倦的“大管家” ,带领团队48小时新建重症病房

      示例:发现影响多个数据集的偏差,发布时间敏感的数据(例如,有关冠状病毒最新研究数据集);

在这两种情况下,数据可能以多种不同的方式使用。可以只提供标准的训练/测试拆分,并将资源作为新任务或基准来呈现,从而使某些实践者的生活变得更轻松——这些实践者只想寻找新任务来设置自己喜欢的算法。但这可能不是唯一用来思考新数据的方法,甚至不是最好的方法。这时,这场讨论演变成了一场不科学的拔河比赛,大致是这样的:

下面是一些符合(或不符合)这些标准的资源论文类型的示例。

工程师:这个数据是给我的吗?如果是,我想看看相关实验,证明这是可以学习的。

1月26日,武汉市披露,近500万人离开武汉,还有900多万人生活在城市里。那么这500万人都流向了哪里?

针对资源论文的这一评论,其实就相当于在评审系统论文以「如果不是 SOTA,则拒绝」来判定一篇论文的生死。测试性能提供了一种简单的启发式方法来判断新模型的潜在影响,与此同时数据集大小成为其实用性好坏的指标。在这两种情况下,来自工业界和资金雄厚的实验室的论文都有优势。

“需要综合各方面的数据和因素,以及医疗等相关专业分析模型,电信大数据是其中的重要数据来源之一”,刘多表示。

针对这一观点,以下是 EMNLP 2019 论文评论中的一个例子:

鉴于 ACL 2019 有一个专门的「资源和评估」领域,因此,这种观点的提出看起来甚至是不可能的,而出现在评论中更是不可接受!需要明确的是,资源建设至少以三种方式增加了知识:

电信大数据的背后是如何工作的?

韩夏表示,运用大数据防控疫情,资源统筹还需加强。在实现对疫情的风险评估和精确预测研判方面,还需要医疗、气象、人口等专业领域的协同,才能进一步发挥大数据分析的支撑服务作用。

叶黎文 ——接诊三千余名发热病人,被同事称为“叶坚强”

刘宇航 ——接力曾参加抗击“非典”的母亲,奔赴战“疫”前线

有趣的是,对于系统论文也可以提出同样的观点:在下一次突破之前,社区应该对 BERT 进行多少增量修改是否应该有一个上限?(相关论文地址:https://arxiv.org/pdf/2002.12327.pdf)

赵培玉 ——用无微不至的护理和关爱给患者传递希望

郭敬 ——通过中医传统医术促进患者康复

让我们从消除一些关于资源论文的误区开始。不幸的是,下面所有引用都来自 ACL 审稿人对论文的真实评论!

本文提出的新语料库并不比现有语料库大。

中国拥有16亿手机用户。通过电信大数据,可以统计分析全国特别是武汉和湖北等重点地区的人员动态流动情况。

电信大数据都能做什么?

众包NLP训练/测试数据集:基础众包方法论的知识、对潜在问题(如非自然信号)的认识(论文地址:https://arxiv.org/pdf/1803.02324.pdf )和注释者偏差(论文地址:https://arxiv.org/abs/1908.07898 ),以及此任务的其他可用数据集。理想情况下,你至少自己构建了一个此类资源。

中国电信、中国移动、中国联通都建立了大数据平台,实现对全网信令数据的统一采集、分析处理。

也许这一观点最有代表性的例子来自于 Rachel Bawden。ACL 2019 年的一位审稿人对他这篇以机器翻译为媒介的双语对话资源论文提出了以下意见:

如何给论文写出好的评论

有一种观点认为,有太多基准会稀释社区的努力。然而,只有当有一个基准本质上比所有其他基准都好时,这一点才会成立。如果不是这样,只关注一个数据集可能会适得其反。有了大量的数据集,我们至少可以进行更好的泛化研究。例如,在 SQuAD、CoQA 和 QuAC 上训练的模型不会相互转移,即使这三个数据集都基于 Wikipedia(论文地址:https://arxiv.org/pdf/1809.10735.pdf)。

雷锋网原创文章,。详情见转载须知。

      反例:没有明显优势的噪声数据,不公开的数据。

语言学家:这实际上是关于语言而不是深度学习的数据。但如果你愿意,欢迎使用这些数据。

本文提出了另一种问答测试。

郭琴 —— 不幸感染病毒,治愈后第一时间重返战场

复工季来临,中国三大电信运营商推出“漫游地查询”,帮助返工人员与社区企业沟通。除对个人的大数据服务之外,电信大数据在抗击疫情中,已经发挥了基础支撑作用。

      反例:减小由一个特定数据集中注释器准则引起的特定偏差。

武汉大学中南医院急救中心护士

据介绍,通过对于武汉、湖北人员流出情况的大数据分析,已及时对相关地区发出疫情态势预警。目前正值节后返程高峰,中国工业和信息化部及三大电信运营商启动了对重点城市的人员流动分析,为北京、上海等大城市的疫情防控工作提供参考。

“利用电信大数据支撑疫情防控,是一个新事物”,中国工业和信息化部信息通信管理局局长韩夏表示,疫情发生后,工信部组织成立电信大数据支撑服务疫情防控领导小组,三大电信运营商董事长分别为副组长。

这种观点非常不公平,甚至会适得其反。首先,NLP 工程论文每年通常都有好几次机会提交给 NLP 领域的主流顶级会议。而 LREC 是唯一一个专门讨论资源的会议,每两年才举办一次。

这是一个绝对有效的评论,它适用于大多数只关注英语却探讨建模「语言」(#BenderRule) 的 NLP 论文。因此,如果这一观点被认可,那么每一篇论文都要求必须是跨语言的研究。然而这一观点,往往是由非英语资源论文的评审人提出的。

语言知识资源(语法、词典、词汇数据库):语言理论的其他知识和所有其他相关资源。理想情况下,你至少自己构建了一个此类资源。

由于数据量往往与数据质量成反比,因此这种态度隐晦地鼓励众包并阻碍专家注释。上述提到的向 ACL 2020 提交的论文提供了一个具有专家语言注释的资源,其中存在着更大、噪声更多的众包替代方案。这篇论文特别讨论了为什么直接比较这些资源的大小是没有意义的。不过,其中一位评审人认为,新的语料库比众包语料库要小,这显然降低了它的价值。

      示例:语言数据库(如 VerbNet),带有语言注释的语料库,在特定情况下有机收集的数据(如匿名医疗数据);

就我个人而言,我反对将基线实验作为硬性要求,理由如下:

NLP 是一个跨学科的项目,我们需要尽可能得到来自各个学科的所有帮助。要求每一次提交都要用机器学习方法打包,这不仅会阻碍拥有不同技能的研究者的数据和想法之间流动,还会影响语言学、社会学和心理学等领域之间的数据和思想流动。

本文主要是对语料库及其集合的描述,几乎不包含科学上的贡献。

据长江水利委员会水旱灾害防御局数据显示,截至8日17时,纳入联合调度的控制性水库群共腾出防洪库容约560亿立方米,部分水库在汛限水位以下还有217亿立方米调节库容,40座控制性水库共有777亿立方米库容可调蓄洪水,为迎战流域可能发生的大洪水提供了可靠保障。(完)

具有语言注释的资源(树库,共指,照应,时态关系等):这些资源的质量传统上是由注释之间的一致性来衡量的。作者的贡献是注释工作或注释方法。

 重申一下:只要满足其中一个标准,一篇论文就是值得发表的:一个狭窄的问题可以用一种非常新颖的方式来解决;如果噪声数据集非常完整,那么会产生很大的影响;如果论文表明了为英语版本开发的技术完全无法推广,仅仅简单地将资源改写为另一种语言也可能会引起巨大轰动。

其次,NLP 的进展取决于系统和基准的共同演进。NLP 基准并不完美,当我们在其中任何一个基准上停留太久时,我们很可能会开始针对错误的事情进行优化,发表许多 SOTA 论文,但却并没有取得真正的进展。因此,开发更具挑战性的基准与建模工作同等重要。我们至少可以做到的是,在顶级会议上发表此类文章来推动这件事。此外,将数据和模型各自置于不同的会议,不太可能改善这两个社区之间的思想交流。

武汉江夏区金口中心卫生院范湖分院医生

我适合当这篇论文的审稿人吗?

为了保证公平性,这位审稿人随后提到,如果一个新的基准提供了一些全新的方法,它可能会拥有一席之地。不过,其隐含的假设是,资源论文应该有一个上限,有大量的问答数据多少会适得其反。

在这一灰色地带,我恳请领域主席定好他们的期望,并向作者和审稿人明确说明这一点。否则我们会陷入一个雷区:一些审稿人认为基线实验是一项硬性要求,但作者没有预料到这一点。不然作者们提交的论文对作者本身以及审稿审得疲惫不堪的审稿人和领域主席来说都是浪费时间。而他们明确说明这一点,则可以很容易地防止这种浪费。 

介于这两个极端之间的,是可以很容易地构建为 DL 任务/基准的资源类型,但还不清楚它们是否应该是必需的,甚至是最好的选择。具体而言,这涉及:

带语言注释的语料库(语法、复指、共指、时态关系):有关语言理论和注释经验的知识,注释可靠性估计,以及这一特定子领域的现有资源。理想情况下,你至少自己构建了一个此类资源。