埃默里大学最新“大数据年代作业猜测”总述ACM尖端期刊上宣布_yh86银河·国际官方网站(中国)有限公司官网

yh86银河·国际 / Products

yh86银河·国际埃默里大学最新“大数据年代作业猜测”总述ACM尖端期刊上宣布

发布时间：2021-07-30 09:51:17 来源：yh1122银河国际作者：yh86银河国际官方网站

　　作业是依据特定地址、时刻和语义产生的对咱们的社会或自然环境产生严重影响的作业，例如地震、内争、体系故障、盛行病和违法。可以提早猜测此类作业的产生以削减潜在的危害是十分重要的。虽然作业猜测传统上极具应战性，但它现在正成为大数据年代的一种可

客户服务热线
027-62430409

邮箱：sales@tlxdlkj.com

传真：027-62430409

产品介绍

　　作业是依据特定地址、时刻和语义产生的对咱们的社会或自然环境产生严重影响的作业，例如地震、内争、体系故障、盛行病和违法。可以提早猜测此类作业的产生以削减潜在的危害是十分重要的。虽然作业猜测传统上极具应战性，但它现在正成为大数据年代的一种可行选择并正在阅历快速增长。当然，这也归功于高性能核算机和人工智能技能的前进。最近来自艾默里大学的教授赵亮博士初次对该范畴进行了全面的总述和数据代码资源收拾。该作业全面总结了作业猜测的问题界说，办法，运用，测评，数据，以及未来开展方向。该作业刚刚宣布在核算机总述顶刊 ACM Computing Surveys 上。

　　咱们国际中的作业无处不在，大到疾病迸发和地震，中到体系故障和违法，小到网络行为和化学反应。作业的剖析在不同的范畴中现已有重要运用，比方医疗保健、商业、网络范畴、政治和文娱，简直影响着日子的每一个旮旯。因而，作业剖析在曩昔几年引起了极大的重视，可以分为作业总结、检测和猜测。其间总结和检测为回忆性剖析，与它们不同，本总述专心的作业猜测侧重于猜测未来的作业。对未来作业的准确猜测使人们可以最大极限地削减与未来某些作业相关的丢失，或许为社会的许多方面如疾病防备、灾祸办理、商业智能和经济稳定性带来不行估量的收益。

　　作业猜测向来在不同范畴都极具应战性，由于咱们对大大都范畴的作业产生的实在原因和驱动机制的了解一般并不完好。可是，大数据年代、高性能核算、以及人工智能技能的前进对上述应战的处理供给了史无前例的时机。经过依据数据驱动的办法，比方例如机器学习、数据发掘、形式辨认、核算和其他核算模型，咱们有了更多的时机补偿上述缺少，乃至可以有时机协助发现作业产生的动因和开展规律。该范畴现在正阅历高速开展，以期处理许多作业猜测范畴一起的应战：

　　应战 1: 异构多输出猜测问题。作业猜测办法一般需求猜测作业的多个方面，包含时刻、地址、主题、强度和继续时刻，每个方面都常常运用不同的数据结构。除了异构性，多个输出之前也有很强的相关性。别的，杂乱的输出也导致了练习数据标示的难度和精度，以及猜测准确性评价的难度。

　　应战 2: 不同输出之间的杂乱联系。不同于机器学习里常常运用的传统的独立性假定，实在国际的作业猜测往往是彼此影响乃至互为因果。因而，除了树立当时观测与未来作业的前瞻性映射，未来作业之间的相关性也需求考虑。

　　应战 3: 实时猜测的需求。作业猜测一般需求对观测进行施行继续监控然后及时预告未来作业。可是在这个进程中，经过练习的猜测模型逐步变得过期，由于实际国际的规矩和概念是继续改变的，数据的散布也是在改变的，比方交际媒体数据的用户年纪散布、全球气候状况等。

　　应战 4: 作业大数据自身的应战。上述说到的应战在作业猜测的使命中进一步导致搜集和运用作业数据的困难。这包含比方带有异构噪声、数据不完好、多模态，多分辩率这些常见问题。一起作业的产生一般属稀有现象，因而样本的不平衡性是重要问题。别的在许多状况下会有对抗性数据引进，比方言论监管导致的定向性数据缺失。

　　近年来，许多研讨致力于作业猜测技能的开发和运用，以处理上述应战。当时，作业猜测技能全体上仍处于起步阶段，但作业猜测的研讨和运用已出现在十分广泛的许多范畴中。现存最多的作业猜测办法是为特定的运用范畴规划的，可是不同范畴中作业猜测技能其实有许多共性和联络。不同的运用范畴办法的彼此参阅和评论现在依然许多的缺失，可是这样的跨范畴考虑关于作业猜测范畴的技能前进极为重要。此外，作业猜测成果的质量评价也缺少一致规范。因而该范畴需求体系性总述以确认其规范、技能分类、前沿问题、以及需求处理的问题。本总述的宣布正式为了满意上述需求，首要有以下几方面奉献：

　　对现有技能的体系分类和总结。本文供给了作业猜测办法的正式问题表述，并据此对当时技能进行体系性分类。一起本文评论了不同子类别之间的联系、长处和缺陷，以及每个子类别下技能的具体信息。慎重提出的分类法可以协助范畴专家找到适宜的技能然后有针对性的处理问题。

　　首要运用范畴的归纳分类和总结。本文供给了对作业猜测的运用范畴具体分类。说明每个运用范畴的实际意义、难点、常用技能以及数据。这将有望协助数据科学家和模型开发人员查找其他运用范畴和数据集来评价他们提出的办法，并扩展他们的先进技能以包含新的运用范畴。

　　规范化的评价方针和程序。如前所述，作业猜测的数据结构是杂乱的，包含时刻、方位、语义等。本文全面总结了作业猜测的试验办法，然后规范化了作业猜测的评价体系和办法。

　　对该范畴研讨现状和未来方向的深化评论。依据对现有的作业的查询，本文总结和划定了当时作业猜测技能和运用的研讨前沿。文章最终提出对当时瓶颈、长时刻应战和未来方向的评论。

　　这篇总述对作业猜测的问题及办法归类如下：其首要按不同输出进行分类，分为时刻猜测，地址猜测，主题猜测，以及多输出猜测。每个类别依据输出的数据办法进一步分类并给出相应的猜测技能。

　　别离表明时刻域、地址域和主题域。留意这儿的域具有很广泛的意义，比方地址可以是任何可以确认表明作业方位的量，它可以是欧氏空间的坐标，区域，也可以是流形空间或许是网络空间等的方位表明。相似的，主题域

　　可以包含任何描绘作业的语义特征比方作业发起者、接受者、作业类别、规划等。作业猜测要求输入的观丈量

　　具有可以暗示未来作业的信息。其间是时刻和地址之外的特征域。依据以上界说，作业猜测问题可以表述如下：

　　不同于一般的监督学习猜测的精度评价，由于作业数据自身的杂乱结构，作业猜测精度评价分为两个进程，即 1）猜测作业和线）依据作业匹配成果的准确度方针核算。

　　1）猜测作业和实在作业的匹配。现在有两种匹配办法，咱们把它们命名为固定匹配以及优化匹配。在固定匹配中，时刻域、地址域和主题域首要都会被栅格化，栅格空间中值为 “1” 的点代表有时刻，否则为无作业。然后依此办法处理猜测作业和实在作业。若猜测成果中某个点的数值和实在值相同即为准确猜测，反之为过错猜测。虽然上述办法简略易懂，可是栅格化时刻域、地址域和主题域一般会产生精度丢失和差错。别的许多猜测作业和实在作业没有办法做到彻底匹配。比方假定咱们有两个猜测作业 Prediction 1: (“9am, June 4, 2019,” “Nogales, Sonora, Mexico,” “Worker Strike”), and Prediction 2: (“11am, June 1, 2019,” “Hermosillo, Sonora, Mexico,” “Student Protests”)和两个实在作业 Real Event 1: (“9am, June 1, 2019,” “Hermosillo, Sonora, Mexico,” “Teacher Protests”), and Real Event 2: (“June 4, 2019,” “Navojoa, Sonora, Mexico,” “General-population Protest”)。很简略看到一切的猜测作业没有做到彻底匹配任何一个实在作业，可是部分匹配在实际问题中更为常见且有严重意义。猜测作业和实在作业的部分匹配问题是一个典型的组合优化问题。如下图 2 中左图所示，由于其杂乱度为

　　，很难直接处理。因而一些合理的束缚和先验被用来加以运用简化匹配难度，比方图 2 的中图和右图所示的二分匹配以及非穿插匹配。

　　图 2 猜测作业和线）依据作业匹配成果的精度方针核算。得到作业匹配的成果后，精度方针核算会集在两方面：一方面是成功匹配的 “猜测 - 实在” 作业对的数量。另一方面是成功匹配的 “猜测 - 实在” 作业对的均匀质量。前者一般运用精度（precision），查全率（recall）等常用方针衡量。后者首要核算每一对猜测作业和实在作业的间隔（或相似性程度）。间隔的核算方针首要取决于具体的数据办法，比方方位猜测可运用空间间隔，主题猜测可运用自然语言处理范畴的办法比方修改间隔，BLEU score，Top-K 精度等。

　　本节简略介绍用于每个类别的分类法和代表性技能，以及它们的子类别。由于猜测输出的异质性，技能类型取决于要猜测的输出类型，例如时刻、方位和语义。如图 1 所示，一切的作业猜测办法依据其方针进行分类，包含时刻、方位、语义、以及这三者的各种组合。

　　作业时刻猜测侧重于猜测未来作业何时产生。依据他们的时刻分辩度，时刻猜测办法可以分为三类：（1）作业产生：关于作业在未来时刻段内是否产生的二元值猜测；(2) 离散时刻猜测：作业将在未来的哪个时刻段产生；(3) 接连时刻猜测：未来作业将在哪个准确时刻点产生。

　　作业产生猜测。它可以说是最广泛、最经典的而且一般是最简略的作业时刻猜测使命类型。它侧重于辨认是否在未来的时刻段内将有作业产生（正类）或不产生（负类）。因而这个问题一般被表述为一个二元分类问题，并用常见的分类器模型处理。当然也可由回归模型处理。别的，由于许多作业猜测问题为非均衡（imbalance）样本问题，单分类模型或许是反常检测模型也常常被运用在极点稀有作业（rare event）的猜测上。

　　离散时刻猜测。在许多运用中，从业者除了想知道未来作业的产生之外，还想知道未来作业的大致时刻（即日期、星期或月份）。为此，一般首要将时刻区分为不同的时段和各种办法专心于确认未来作业或许产生在哪个时刻段。现有的研讨问题可以分为直接办法或直接办法。直接办法即为简略回归、整数回归、有序回归、或许自回归问题。直接办法分为两步：第一步运用自回归模型猜测输入数据在未来的走势；第二步对猜测的未来数据进行反常检测，检测为反常的时刻窗即为猜测作业产生的时刻段。

　　接连时刻猜测。离散时刻猜测办法，虽然简略却有几个坏处。首要它们的时刻分辩率受限于离散化粒度；添加这个粒度会显着添加核算资源要求，这意味着分辩率不能恣意高。此外，这种权衡自身便是一个对猜测准确性敏感的超参数，这使得在练习期间进行调整变得困难且耗时。为了处理这些问题，一些技能直接猜测作业准确时刻 [163]。最简略的为简略的回归模型。简略回归的首要问题是高斯散布并不能反映时刻量的实质，比方非负性。因而另一类办法比方点进程办法更拿手建模时刻散布。最近，一些依据深度学习的办法测验进一步进步传统的依据参数模型的点进程办法，下降学习时刻的散布时对参数模型的依托。另一个常用的办法为生计剖析办法，它可以直接建模“还要多久产生”（time-to-event）的散布，而且可以有用运用练习数据里的删失（censoring）数据。

　　作业地址猜测侧重于猜测未来作业在特定（欧式或非欧）空间中的方位。地址信息可以表述为以下两种类型之一：(1) 依据栅格。这儿会将接连空间区分成单元格网格，每个单元格代表一个空间区域。这个类型表明适用于作业的空间巨细不行疏忽的状况。(2) 依据矢量。在这种状况下，每个方位都由一个无限小的笼统点表明巨细。这种表明办法最适合的状况包含作业的空间巨细可以疏忽不计或许作业的方位区域只能在离散空间，如网络节点等。

　　依据栅格的地址猜测。依据栅格的作业方位猜测技能包含多种类型，比方空间聚类、空间差值、空间卷积、轨道方针猜测等办法。这儿空间聚类的意图是对体现出显着反常的大片空间区域进行辨认和分组。这些办法一般是凝集式的，即他们一般从原始最细粒度的空间栅格单元开端，并经过在每次迭代中兼并特定单元的空间邻域来进行。空间聚类完成后，每个空间聚类会被送入分类器判别是否有与之对应的未来作业。别的，在曩昔的几年中，卷积神经网络 (CNN) 在学习和体现杂乱的空间形式方面取得了巨大的成功来自图画和空间数据。CNN 包含多个卷积层，用于提取图画的分层空间语义。此类别中的现有办法一般将空间图作为输入来猜测另一个表明未来作业热门的空间图。这种公式相似于近年来在核算机视觉范畴盛行的 “图画翻译” 问题。具体来说，研讨人员一般运用编码器 - 解码器架构，其间输入图画（或空间图）由多个卷积层处理成更高等级的表明，然后经过反向卷积解码回相同巨细的输出图画。轨道方针猜测办法一般侧重于依据人群的作业，例如 “集合作业” 和“散布作业。这些办法同享一个一致的流程，包含两个进程：首要依据观察到的轨道猜测未来的轨道，然后依据猜测的未来轨道检测他们一起构成的比方 “集合” 和“散布”等作业。

　　依据矢量的地址猜测。不同于依据栅格的办法，依据矢量的猜测可以重视离散的空间区域，这些区域可以散布在欧几里德（例如，空间区域）或非欧几里德空间（例如，图拓扑）。这些办法可以分为有监督和无监督的办法。在监督办法中，每个方位将被分类为关于未来作业产生的 “正效果” 或“负效果”。最简略的设置是依据方位之间的独立和同散布（i.i.d）假定，其间每个方位由分类器运用各自的输入特征独立猜测。可是，鉴于不同方位一般具有很强的空间依托性和异质性，该范畴作业进一步现已提出研讨依据不同方位的猜测变量和输出来处理它们。这引出了两个首要研讨方向：即空间多使命学习和空间自回归办法。多使命学习是一种盛行的学习战略，它可以一起学习不同使命的模型，这样学习的模型不只可以同享他们的常识，但也保留了特定使命的一些一起特征。这个特色与空间作业猜测使命中的空间异质性十分符合。空间多使命学习把不同的空间方位作为不同的使命，在对不同空间地址的数据进行一起练习的一起会考虑它们的空间依托性和异质性。空间自回归模型已在地舆和计量经济学等范畴得到广泛探究，在这些范畴中，不同地址的数据不符合独立同散布假定。一个地址的未来作业及或许由当时的观测影响也有或许由相邻地址的未来作业影响。空间自回归模型即被用来建模上述假定。为了削弱空间自回归模型关于空间相邻联系先验信息的依托，最近一些作业可以在练习模型的一起自学习或部分学习空间相邻联系。

　　作业语义猜测首要处理时刻和地址之外的信息猜测，包含作业主题、描绘或其他元特点。与时刻和方位猜测不同，作业语义猜测中的数据一般触及符号和自然语言。依据对历史数据的安排和运用办法可将办法分为三类。第一个为依据相关规矩的办法，其间未来作业先兆是经过发掘历史数据中的相关或逻辑形式来提取的。第二种是依据序列的，即经过期刻作业的演化趋势链条来猜测未来作业。第三种类型将作业链进一步泛化为作业图，一些作业测验经过因果揣度的办法。

　　依据相关规矩的办法。依据相关规矩的办法是数据发掘范畴中最经典的作业猜测办法之一，一般由两个进程组成：首要学习先兆和方针作业之间的相关，然后运用所学的相关猜测未来作业。

　　依据因果联系的猜测。这种办法一般同享一个通用的根本进程：(i) 作业表明. 这种办法一般从提取运用自然语言处理技能从方针文本中提取作业，符号化、词性标签剖析和称号实体辨认; (ii) 作业图构建. 这儿的方针是揣度历史作业之间的因果联系。由于其组合优化的性质，缩小候选对的数量是至关重要的。现有的作业一般首要将作业集合成作业链，每个作业链由相关语义下的一系列作业按时刻排序组成，他们一般同享相同主题、参加者和方针。然后可以经过各种办法揣度作业对之间的因果联系。最简略的办法是依据贝叶斯揣度的办法。其他办法运用 NLP 技能以及常识图谱来辨认和扩展因果联系。(iii) 未来作业推理。给定一个恣意的种子作业，咱们会用它查询它或许导致的未来作业。

　　依据序列的猜测。给定历史作业链的时刻序列，这类办法的方针是猜测运用序列猜测的下一个作业。现在的办法来自两大类：全序列分类和序列猜测。依据全序列分类的办法将作业语义猜测表述为多类分类问题，其间有限数量的候选作业被排名，而且排名靠前的作业被视为未来作业语义。多类分类问题可以拆分为具有不同主题 / 语义意义的作业。当时办法首要分为如下三个子类，即依据特征的办法、依据原型的办法和依据模型的办法。序列猜测首要探究怎么猜测序列的下一个元素，及其所代表的作业。序列猜测办法首要分为两种类型，其间第一种需求人为界说要害特点，而更现代化的办法可以依据深度学习等学习序列的隐含表征以直接猜测未来作业。

　　许多办法不独自猜测作业时刻、方位、或语义，而是一起猜测他们。现有的作业首要可以分为三类：（1）一起的时刻和语义猜测；(2) 一起的时刻和地址猜测；(3) 一起的时刻、地址和语义猜测。

　　一起的时刻和语义猜测。该问题首要盛行的有三种办法：最经典的为依据时刻相关规律的办法。它们经过将额定的时刻信息嵌入到一般的相关规律中，然后扩展了原有界说。比方两个相关作业有必要产生在特定时刻段才当作相关等等。依据时刻序列猜测的办法近年来也获得了必定不错的开展。依据时刻序列猜测的办法分为直接办法和直接办法。直接办法一般将作业猜测问题界说为多变量时刻序列猜测问题，其间每个变量对应于作业类型的表明（比方 one-hot 表明或更杂乱的表明），因而可以一起猜测未来的作业类型和时刻。

　　一起的时刻和地址猜测。这类办法侧重于联合猜测未来作业的地址和时刻。这些办法可以分为两种子类型：第一种为依据栅格的办法，专心于对时段和方位区域的猜测，另一种为依据点的办法，它可以猜测准确的时刻点和方位点。这些办法一般将数据表明成 “图片” 序列，这儿的每一张 “图片” 为每一个时刻段的空间信息。最简略的技能一般是对各个时刻段的空间信息提取特征然后用传统的处理序列分类的办法处理。最近几年，尤其是深度学习在核算机视觉范畴中的图片加快了上述时空数据端到端表征的开展。其间最有代表性的为依据卷机 - 循环神经网络（CNN+RNN）的架构。在此之上一些改善的技能比方 convLSTM，stack-convLSTM 之后进一步提出以更好的权衡模型表征才能和学习功率。依据点的办法首要选用时空点进程模型。时空点进程模型在空间和时刻点对作业产生率进行建模。传统的时空点模型一般需求假定先验核算参数模型来建模数据的散布。最近几年深度学习的开展影响了端到端的时空点模型来增强模型对不知道散布的建模才能。

　　一起的时刻、地址和语义猜测。这类办法可以分为以下首要类别：依据集体才智的办法、依据对未来作业表述的检测办法以及依据张量分化的办法。

　　依据集体才智的办法可以进一步按人工智能体的集体才智以及人类的集体才智区分。依据人工智能的集体才智首要指模型集成（model ensemble）办法和体系。最直观的办法是运用比方大都投票法整合多个上文中说到的猜测器的猜测成果。一些现有的体系常常强化各独自猜测器的准确率（precision），弱化召回率（recall）因而在他们交融时一起完成高准确率和召回率。依据人类集体才智的办法首要运用众包（crowdsourcing）技能来交融人类对未来作业作出的猜测。例如当时一些依据引荐体系的方案可以针对所需猜测的作业类型选择具有适宜技能的人类团队，以最大极限地进步其交融的准确性猜测。

　　还有一类办法侧重于检测现已方案好的未来作业。这类信息广泛存在于各种媒体，例如交际媒体和新闻。一般咱们依托自然语言处理技能和语言学原理可以有用找到这样的信息。之后对其进行解析，完成对未来作业的画像。

　　作业猜测的技能现已在各个范畴得到广泛的运用，散布在社会科学、健康、工程、自然科学、互联网等等。本文对它们做了全面的调研，请阅览原文了解具体内容。下表罗列了其间有代表性的运用以及规范数据集。

　　虽然近年来作业猜测取得了严重开展，而且取得了广泛的运用，但收拾来说作业猜测仍是一个处于起步阶段的范畴，由于它自身极大的应战性以及现存的许多敞开的科研问题。本文首要罗列一下几个方面，具体解说请查阅原文。

　　为了给国内 NLP 社区的从业人员建立一个自在轻松的学术交流平台，机器之心方案于 7 月 31 日安排「ACL 2021 论文同享会」。

　　ACL 论文同享会设置 Keynote、论文同享、圆桌论坛、 Poster与企业展台环节。Keynote 嘉宾包含字节跳动人工智能试验室总监李航和华为诺亚方舟试验室语音语义首席科学家刘群，立异工场首席科学家周明将作为圆桌论坛嘉宾参加此次活动。

yh86银河·国际
上一篇：我国记协发布《我国新闻事业展开陈述（2016年）下一篇：重庆天气预报15天