没有发现任何项目。

用自回归预训练改进非自回归ASR

Yanjia Li, Lahiru Samarakoon, Ivan Fung,ICASSP 2023, June 2023

摘要

自回归(AR)自动语音识别(ASR)模型对每个输出标记的预测都以先前的标记为条件,这降低了其推理速度。另一方面,非自回归(NAR)模型在恒定的解码迭代次数内独立并同时预测标记,这带来了高推理速度。然而,非回归模型的准确度通常低于AR模型。在这项工作中,我们提出对NAR编码器进行AR预训练,以减少AR和NAR模型之间的准确性差距。实验结果表明,我们的AR预训练MaskCTC在Aishell-1上达到了与AR Conformer相同的准确度(都是4.9%的CER),并且在LibriSpeech上与AR Conformer的性能差距相对减少了50%。此外,我们的AR-retrained MaskCTC只需要单次解码迭代,这使推理时间减少了50%。我们还研究了在训练MaskCTC的掩码语言模型时的多种掩码策略。

链接到出版物

用于高效的基于变换器的语音识别的不绑定位置编码

Lahiru Samarakoon, Ivan Fung,SLT 2022, 2023年1月

摘要

自我注意已经成为端到端(E2E)自动语音识别(ASR)的一个重要组成部分。带有相对位置编码(RPE)的卷积-增强变换器(Conformer)取得了最先进的性能。本文提出了一种位置编码(PE)机制,称为Scaled Untied RPE,它在自我注意计算中把特征-位置相关性结合起来,并使用不同的投影矩阵分别计算特征相关性和位置相关性。此外,我们建议将特征相关与位置相关进行缩放,这种乘法互动的积极性可以用一个称为振幅的参数来计算。此外,我们表明,PE矩阵可以被切片以减少模型参数。我们在国家语音语料库(NSC)上的研究结果表明,与Conformer基线相比,带有Scaled Untied RPE的Transformer编码器在准确度上实现了1.9%的相对改善,在延迟上实现了高达50.9%的改善。

链接到出版物

微调预训练的语言模型,用于少量的意图检测。有监督的预训练和同位素化

Haode Zhang, Haowen Liang, Yuwei Zhang, Liming Zhan, Xiao-Ming Wu, Xiaolei Lu,林潤生博士 Y.S. Lam, arXiv:2205.07208, 2022.

摘要

在只有少量注释的情况下,为一个面向任务的对话系统训练一个好的意图分类器是很有挑战性的。最近的研究表明,以监督的方式,用来自公共基准的少量标记的语料对预训练的语言模型进行微调是非常有帮助的。然而,我们发现,有监督的预训练会产生一个各向异性的特征空间,这可能会抑制语义表征的表达能力。受最近的各向同性研究的启发,我们建议通过对各向同性的特征空间进行正则化来改善监督预训练。我们提出了两个分别基于对比学习和相关矩阵的正则器,并通过大量实验证明了它们的有效性。我们的主要发现是,用各向同性的方法对监督性预训练进行正则化,以进一步提高几张照片的意图检测的性能是有希望的。源代码可以在这个https网址上找到。

链接到出版物

以线性Nystrom注意和旋转位置嵌入为基础的构型器语音识别

Tsun-Yat Leung, Lahiru Samarakoon, ICASSP 2022, May 2022

摘要

自我注意已经成为端到端(E2E)自动语音识别(ASR)的一个重要组成部分。最近,带有相对位置编码(RPE)的卷积增强型变换器(Conformer)取得了最先进的性能。然而,自我注意的计算和记忆复杂性随着输入序列长度的增加而呈四分法增长。在处理较长的序列时,这对Conformer编码器的影响可能是很大的。在这项工作中,我们建议用线性复杂度的Nystro ̈m注意代替自我注意,这是一种基于Nystro ̈m方法的注意分数的低等级近似。此外,我们建议使用旋转位置嵌入(RoPE)和Nystro ̈m注意力,因为RPE的复杂度是二次的。此外,我们还表明,通过从顶部编码器层中移除自我关注的子层,可以使模型变得更轻,而性能不会有任何下降。此外,我们证明Conformer中的卷积子层可以有效地恢复由于Nystro ̈m近似而丢失的信息。

链接到出版物

长期参与众包的两阶段拍卖机制

Timothy Shin Heng Mak,林潤生博士 Y.S. Lam, arXiv:2202.10064, 2022.

摘要

众包已经成为收集各种人工智能应用数据的重要工具,拍卖可以成为众包平台中分配工作和确定奖励的有效方式。在本文中,我们专注于小任务的众包,如图像标签和语音记录,在这方面我们面临着一些挑战。首先,工人对他们愿意做的工作量有不同的限制,他们也可能在工作竞标中误报这些限制。其次,如果拍卖长期重复进行,不成功的工人可能会退出系统,减少竞争和多样性。为了解决这些问题,我们首先将著名的迈尔森单参数出价的最优拍卖机制的结果扩展到出价由工作的单位成本、自己愿意做的最大工作量和实际完成的工作组成的情况。我们表明,一个简单的支付机制足以确保工人的主导策略,而且这种主导策略对工人的真实效用函数是稳健的。其次,我们提出了一种新的、灵活的工作分配机制,它允许请求者在成本效率和平等之间取得平衡。虽然成本最小化显然很重要,但在工作分配中鼓励平等,可以增加劳动力的多样性,并促进对众包平台的长期参与。我们的主要结果是通过分析证明的,并通过模拟验证。

链接到出版物

带有顺应器和附加边际惩罚的稳健的端到端演讲者排位法

Tsun-Yat Leung, Lahiru Samarakoon, Interspeech 2021, August 2021

摘要

传统上,一个说话人日记系统有多个组件来提取和聚集说话人的嵌入。然而,端对端日记是更可取的,因为它有利于优化一个模型,而不是传统设置中的多个组件。此外,端到端diarization系统能够处理重叠的语音。最近提出的基于编码器-解码器的自关注端到端diarization模型(EEND-EDA)能够处理来自未知数量扬声器的语音,并报告了与传统系统相当的性能。在这项工作中,我们旨在改进EEND-EDA模型。首先,我们通过加入一个用于最小化类内方差的附加边际惩罚来提高模型的稳健性。第二,我们建议用Conformer编码器取代Transformer编码器,以捕捉局部信息。第三,我们建议使用卷积子采样和上采样,而不是只使用人工子采样。我们提出的改进措施在DIHARD III挑战赛第2赛道的评估全集上报告了21.6%的DER相对减少。

链接到出版物

使用高斯混合模型进行未知意图检测,并将其应用于零次拍摄的意图分类中

闫广峰,范璐,李启迈,刘晗,张晓彤,吴晓明,和林潤生博士 Y.S. Lam,在2020年计算语言学协会年会论文集,2020年7月。

摘要

用户意图分类在对话系统中起着至关重要的作用。由于在许多现实场景中,用户的意图可能会随着时间的推移而改变,因此未知(新)意图的检测已经成为一个重要的问题,而这方面的研究才刚刚开始。本文提出了一个语义增强的高斯混合模型(SEG)用于未知意图的检测。特别是,我们用高斯混合分布对语料嵌入进行建模,并将动态的阶级语义信息注入高斯手段中,这使得学习更多的阶级集中的嵌入,有助于促进下游的离群点检测。与基于密度的离群点检测算法相结合,SEG在两种语言的三个真实任务导向的对话数据集上取得了具有竞争力的结果,用于未知意图的检测。在此基础上,我们建议将SEG作为一个未知意图识别器整合到现有的广义零次元意图分类模型中,以提高其性能。对最先进的方法ReCapsNet的案例研究表明,SEG可以将分类性能推到一个明显的更高水平。

链接到出版物

Deep-AIR:用于细粒度空气污染预测的混合CNN-LSTM框架

Q.Zhang, J.C.K. Lam, Victor O.K. Li, and Y. Han, arXiv:2001.11957 [eess.SP], Jan.2020.

摘要

糟糕的空气质量已经成为许多大都市的一个日益严峻的挑战,它对人类健康和生活质量带来了许多灾难性的身体和精神后果。然而,准确监测和预测空气质量仍然是一项极具挑战性的工作。受限于地理上的稀疏数据,传统的统计模型和新出现的数据驱动的空气质量预测方法主要关注空气污染物的历史时间数据集之间的时间相关性。然而,在现实中,空气污染物的分布和散布都是高度依赖地点的。在本文中,我们提出了一个新颖的混合深度学习模型,将卷积神经网络(CNN)和长短时记忆(LSTM)结合在一起,以高分辨率预测空气质量。我们的模型可以利用空气污染物数据集的空间相关性特征,实现比现有空气污染预测的深度学习模型更高的预测精度。

链接到出版物

将先前的知识融入到话者分离和链接中以识别共同的发言者

Tsun-Yat Leung, Lahiru Samarakoon, and林潤生博士 Y.S. Lam, in Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop(ASRU 2019), December.

摘要

发言人日记和连接发现 "谁在什么时候说话 "的跨录音,而不需要任何发言人登记。对每个录音单独进行日记化,而连接则是将不同录音中同一说话人的群组结合起来。这是一个两步法,但是它存在着错误从日记化步骤传播到链接步骤的问题。在一个给定的录音中出现了一个独特的说话者的情况下,本文旨在利用他或她存在的预先知识来定位共同的说话者。这意味着没有这个共同发言人的注册数据。我们提出了成对共同说话人识别(PCSI)方法,与两步法相比,该方法将共同说话人的存在考虑在内。我们进一步表明,PCSI可以用来减少两步法的日记步骤中引入的错误。我们的实验是在一个由AMI语料库合成的语料库和一个与普通话混合的内部电话交谈语料库上进行的。我们显示,与最先进的X-矢量日记和链接系统相比,时间加权等值错误率有7.68%的相对改善。

链接到出版物

用于大数据处理和分析的五层架构

J.Y. Zhu, B. Tang, and Victor O.K. Li, International Journal of Big Data Intelligence, Vol. 6, pp.38-49, Nov. 2019.

摘要

近年来,大数据技术引起了广泛关注。学术界和工业界已经达成共识,即大数据的最终目标是关于将 "大数据 "转化为 "真正的价值"。在这篇文章中,我们讨论了如何实现这一目标,并提出了大数据处理和分析(BDPA)的五层架构,包括收集层、存储层、处理层、分析层和应用层。五层架构的目标是为当前的BDPA解决方案建立一个事实上的标准,以收集、管理、处理和分析大量的静态数据和在线数据流,并为所有类型的行业做出有价值的决策。我们说明了这五层的功能和挑战,并相应地讨论了最新的技术和解决方案。最后,我们提出了对未来BDPA解决方案的要求,这可以作为未来大数据生态系统的基础。

链接到出版物

从一般到特殊。使用领域转换网络的多领域翻译

Y Wang, L Wang, S Shi, Victor O.K. Li, Z. Tu, arXiv:1911.09912 [cs.CL], Nov. 2019.

摘要

多领域翻译的关键挑战在于如何在一个统一的模型中同时编码各领域共享的一般知识和各领域特有的知识。以前的工作表明,在混合领域数据上训练的标准神经机器翻译(NMT)模型通常能捕捉到一般的知识,但却忽略了特定领域的知识。针对这个问题,我们用额外的领域转换网络来增强NMT模型,将一般的表征转换为特定领域的表征,然后再将其输入NMT解码器。为了保证知识转化,我们还利用知识提炼和对抗性学习的力量,提出了两个互补的监督信号。在几个语言对上的实验结果,涵盖了平衡和不平衡的多领域翻译,证明了所提方法的有效性和普遍性。令人鼓舞的是,所提出的统一模型取得了与微调方法相当的结果,后者需要多个模型来保留特定的知识。进一步的分析显示,领域转换网络如预期的那样成功地捕获了特定领域的知识。

链接到出版物

重构胶囊网络以实现零距离的意图分类

Han Liu, Xiaotong Zhang, Lu Fan, Xuandi Fu, Qimai Li, Xiao-Ming Wu, and林潤生博士 Y.S. Lam, in Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP 2019), Hong Kong, Nov.

摘要

意图分类是对话系统的一个重要组成部分。随着对话式人工智能的蓬勃发展,现有的系统没有能力处理众多快速出现的意图,这就促使了零散的意图分类。然而,对这个问题的研究仍处于萌芽阶段,可用的方法很少。最近提出的一种零次元意图分类方法,IntentCapsNet,已经被证明可以达到最先进的性能。然而,它有两个未解决的局限性:(1)在提取语义胶囊时,它不能处理多义词;(2)在广义的零次元意图分类设置中,它很难识别未见过的意图的语篇。为了克服这些局限性,我们建议重建胶囊网络,用于零次元意图分类。首先,我们引入了一个维度关注机制来对抗多义词。其次,我们通过利用标记语料的丰富的潜在信息来重建未见意图的转换矩阵,这大大提高了模型的泛化能力。在两个以任务为导向的不同语言的对话数据集上的实验结果表明,我们提出的方法优于IntentCapsNet和其他强基线。

链接到出版物

使用半监督的图卷积网络进行公共交通等待时间的估算

Kai Fung Chu,林潤生博士 Y.S. Lam, Becky P.Y. Loo, and Victor O.K. Li, in Proceedings of 22nd IEEE International Conference on Intelligent Transportation Systems(IEEE ITSC 2019), Auckland New Zealand, October.

摘要

一个有效的交通系统对于支持现代智能城市的各种人类活动非常重要。各个车站的等待时间对整个交通系统的效率和人们的健康(如压力和焦虑)有很大影响。提前了解不同地点的等待时间可以帮助旅行者计划他们的行程。然而,这种等待时间可能取决于许多因素,如拥挤程度和相关旅客的集体旅行行为。一般来说,在每个地点收集所有需要的数据是非常昂贵的。本文提出了一种深度学习方法,用于确定基于一些代理数据和一些车站有限的历史等待时间数据的公共交通车站的等待时间水平。我们将公共交通网络表述为一个图,并开发了一个基于图卷积网络的半监督分类模型,该模型可以在有限的标记数据下直接操作图结构的数据。我们用真实的数据对香港的大众运输铁路进行了实验,我们提出的方法可以达到89%的等待时间级别的分类精度。

链接到出版物

同步相位的恢复和预测。基于图形的深度学习方法

J.J. Q. Yu, D. J. Hill, V. O. K. Li and Y. Hou, in IEEE Internet of Things Journal, vol. 6, no.5, pp. 7348-7359, Oct. 2019.

摘要

电力系统状态的数据完整性对现代电网运行和控制至关重要,由于通信延迟,控制中心不能立即获得状态测量数据,导致对时间敏感的应用反应缓慢。本文提出了一种新的基于图形的深度学习方法,利用电力网络拓扑结构和现有的测量数据,提前恢复和预测状态。设计了一个图形卷积的递归对抗网络来处理现有信息,并提取图形和时间数据的相关性。这种方法克服了现有同步相位恢复和预测实施的缺点,以提高整个系统的性能。此外,该方法提供了一种自适应的数据处理方法来处理各种规模的电网。案例研究证明了所提出的方法具有出色的恢复和预测精度,并进行了调查以说明其对不良通信条件、测量噪声和系统拓扑结构变化的鲁棒性。

链接到出版物

通过忽略虚假的相关关系来改进零散的神经机器翻译

J.Gu, Y. Wang, K. Cho, and Victor O.K. Li, in Proceedings of 57th Annual Meeting of the Association for Computational Linguistics (ACL), Florence, Italy, Jul. 2019.

摘要

零点翻译,即在神经机器翻译(NMT)系统从未训练过的语言对之间进行翻译,是在多语言环境中训练系统时出现的一种特性。然而,零点翻译的天真训练很容易失败,而且对超参数设置很敏感。其性能通常远远落后于更传统的基于支点的方法,该方法使用第三种语言作为支点进行两次翻译。在这项工作中,我们通过定量分析源句子和解码句子的语言ID之间的相互信息,解决了由于捕捉虚假的关联性而导致的退化问题。在这一分析的启发下,我们提出使用两种简单而有效的方法:(1)解码器预训练;(2)回译。在三个具有挑战性的多语言数据集上,这些方法比虚无缥缈的零点翻译有了明显的改善(4~22个BLEU点),并取得了与基于枢轴的方法类似或更好的结果。

链接到出版物

深度多尺度卷积LSTM网络对旅行需求和出发地-目的地的预测

Kai Fung Chu,林潤生博士 Y.S. Lam, and Victor O.K. Li, to appear in IEEE Transactions on Intelligent Transportation Systems, 2019.

摘要

传感和物联网(IoT)技术的进步产生了大量的数据。按需流动(MoD)服务从智能交通系统的大数据可用性中受益。鉴于对未来出行需求或出发地-目的地(OD)流量的预测,服务提供商可以预先将未占用的车辆分配到客户的服务出发地,以减少等待时间。关于未来旅行需求和OD流量预测的传统方法依赖于统计或机器学习方法。在图像和视频处理的深度学习技术的启发下,通过将本地化的出行需求视为图像像素,本文开发了一种新型的深度学习模型,即多尺度卷积长短期记忆网络(MultiConvLSTM)。我们没有使用可能导致地理信息损失的传统OD矩阵,而是提出了一种新的数据结构,即OD张量来表示OD流量,并引入了一种称为OD张量置换和矩阵化的操作方法,以处理OD张量的高维特征。MultiConvLSTM考虑了时间和空间上的相关性,以预测未来的旅行需求和OD流量。我们在现实世界的纽约出租车数据上进行了实验,这些数据大约有4亿条记录。我们的结果表明,MultiConvLSTM在单步和多步预测中都达到了最高的准确率,它在旅行需求和OD流量预测方面优于现有方法。

链接到出版物

低资源环境下的端到端语音识别的领域适应性

Lahiru Samarakoon, Brian Mak, and林潤生博士 Y.S. Lam.IEEE口语技术研讨会(IEEE SLT 2018),希腊雅典,2018年12月。

摘要

端到端自动语音识别(ASR)简化了传统的ASR系统构建管道,不再需要多个组件,也不再需要专家语言知识来创建发音词典。因此,在为新领域建立系统时,端到端ASR很适合。然而,端到端ASR的一个主要缺点是,与传统方法相比,它需要有大量的标记语音。因此,在本文中,我们探索了在低资源环境下端到端ASR的领域适应方法。我们表明,通过在标签序列的开头插入域的符号、因数化隐层适应和特定域的门控机制,联合域识别和语音识别提高了低资源目标域的性能。此外,我们还展示了所提出的适应方法对一个未见过的领域的鲁棒性,当只有3小时的未转录数据可用时,改进报告的相对值高达8.7%。

链接到出版物

基于子空间的LSTM声学模型序列判别训练与前馈层的关系

Lahiru Samarakoon, Brian Mak, and林潤生博士 Y.S. Lam。ISCSLP,台湾台北,2018年11月。

摘要

最先进的自动语音识别(ASR)系统使用序列判别训练来提高性能,而不是帧级交叉熵(CE)标准。尽管序列判别训练改善了长短期记忆(LSTM)递归神经网络(RNN)声学模型(AMs),但由于过度拟合,这些系统是否达到了最佳性能还不清楚。本文研究了状态级最小贝叶斯风险(sMBR)训练对LSTM AMs的影响,并表明通过更新所有LSTM参数进行sMBR的传统方式并不是最优的。我们研究了两种方法来提高LSTM AMs的序列判别训练的性能。首先,在最后一个LSTM层和输出层之间加入了更多的前馈(FF)层,因此这些额外的FF层可能更适合于sMBR训练。其次,在对AM的LSTM层进行sMBR时,子空间被估计为rank-1矩阵的内插。我们的方法在基准的AMI单一距离麦克风(SDM)任务中进行了评估。我们发现,所提出的方法比强sMBR训练的LSTM基线有1.6%的绝对改善。

链接到出版物

使用深度多尺度卷积LSTM网络进行旅行需求预测

Kai Fung Chu,林潤生博士 Y.S. Lam, and Victor O.K. Li。第21届IEEE智能交通系统国际会议(IEEE ITSC 2018),夏威夷毛伊岛,2018年11月。

摘要

按需流动改变了人们在城市中的出行方式,促进了实时的车辆租用服务。鉴于对未来出行需求的预测,服务提供商可以协调他们的可用车辆,使其提前分配到客户的服务来源地,以减少等待时间。关于未来旅行需求预测的传统方法依赖于统计学或机器学习方法。传感器技术的进步产生了大量的数据,这使得数据驱动的智能交通系统成为可能。在本文中,受图像和视频处理的深度学习技术的启发,我们提出了一个新的深度学习模型,称为多尺度卷积长短时记忆(MultiConvLSTM),将出行需求视为图像像素值。MultiConvLSTM同时考虑了时间和空间的相关性,以预测未来的旅行需求。我们在真实世界的纽约出租车数据上进行了实验,这些数据有大约4亿条记录。我们表明,MultiConvLSTM在预测出行需求方面优于现有的预测方法,在单步和多步预测中都达到了最高的准确率。

链接到出版物

延迟感知的电力系统同步相位恢复和预测框架

James J.Q. Yu,林潤生博士 Y.S. Lam, David J. Hill, Yunhe Hou, and Victor O.K. Li。IEEE Transactions on Smart Grid, 2018.

摘要

本文提出了一种新型的延迟感知同步相位恢复和预测框架,以解决由于通信延迟的存在而导致的电力系统状态变量缺失问题。这种能力对于动态电力系统场景来说尤其重要,在这种情况下,由于系统事件或故障,需要采取快速补救控制行动。虽然广域测量系统可以用相位测量单元对高频系统状态进行采样,但由于延迟和数据丢失,控制中心无法实时获得这些数据。在这项工作中,我们提出了一个同步相位恢复和预测框架及其实际实施,以恢复当前的系统状态,并利用现有的不完整的同步相位数据预测未来的状态。该框架建立了一个迭代预测方案,所提出的实施方案采用了数据处理方面的最新机器学习进展。仿真结果表明,所提出的框架具有卓越的准确性和速度,并进行了调查,以研究其对各种通信延迟模式的敏感性,以满足实际应用。

链接到出版物

带有同步相位恢复和预测框架的延迟感知暂态稳定性评估

James J.Q. Yu, David J. Hill, and林潤生博士 Y.S. Lam。Neurocomputing, 2018.

摘要

瞬态稳定性评估对电力系统运行和控制至关重要。现有的相关研究做了一个强有力的假设,即系统变量测量到达控制中心的数据传输时间是可以忽略不计的,这是不现实的。在本文中,我们重点研究了数据传输延迟对基于同步相位的瞬态稳定性评估的影响。特别是,我们采用了最近提出的一种名为同步相位恢复和预测框架的方法来处理延迟问题,并弥补丢失的同步相位。采用先进的深度学习技术,利用处理后的数据进行评估。与现有的工作相比,我们提出的机制能够以更快的响应速度做出准确的评估。

链接到出版物

智能时间自适应暂态稳定评估系统

James J.Q. Yu, David J. Hill,林潤生博士 Y.S. Lam, Jiatao Gu, and Victor O.K. Li。IEEE Transactions on Power Systems, vol. 33, no. 1, pp. 1049-1058, Jan. 2018.

摘要

在线识别事故后的暂态稳定性在电力系统控制中至关重要,因为它有利于电网运营商决定和协调系统故障修正控制行动。随着广域保护和控制系统的逐步部署,利用机器学习方法和同步相位测量来进行暂态稳定性评估最近受到了广泛关注。在本文中,我们开发了一个基于长短期记忆网络的瞬态稳定性评估系统。通过提出一个时间上的自适应方案,我们提出的系统旨在平衡评估精度和响应时间之间的权衡,这两者在现实世界中可能是至关重要的。与以前的工作相比,最重要的改进是我们的系统从输入数据的时间依赖性中学习,这有助于提高评估准确性。此外,我们系统的模型结构相对不那么复杂,加快了模型训练过程。对三个电力系统的案例研究证明了所提出的瞬态稳定性评估系统的功效。

链接到出版物

使用Gumbel-Greedy解码的神经机器翻译

Jiatao Gu, Daniel Jiwoong Im,李安國教授 。AAAI人工智能会议(AAAI),2018。

摘要

以前的神经机器翻译模型使用一些启发式搜索算法(如波束搜索),以避免在测试时解决翻译句子的最大后验问题。在本文中,我们提出了Gumbel-Greedy Decoding,它训练了一个生成网络来预测训练过的模型下的翻译。我们使用Gumbel-Softmax再参数化来解决这样的问题,这使得我们的生成网络可以通过标准的随机梯度方法进行区分和训练。我们通过经验证明,我们提出的模型对于生成离散词的序列是有效的。

链接到出版物

非自回归神经系统机器翻译

Jiatao Gu, James Bradbury, Caiming Xiong,李安國教授, Richard Socher.国际学习表征会议(ICLR),2018。

摘要

现有的神经机器翻译方法将每个输出词都置于先前生成的输出上。我们引入了一个模型,该模型避免了这种自回归特性,并以并行方式产生其输出,使推理过程中的延迟降低了一个数量级。通过知识提炼、使用输入令牌肥度作为潜变量以及政策梯度微调,我们以相对于用作教师的自回归变压器网络的2.0个BLEU点的代价实现了这一目标。我们展示了与我们训练策略的三个方面相关的大量累积改进,并在IWSLT 2016英德语和两个WMT语言对上验证了我们的方法。通过在推理时平行采样,我们的非自回归模型在WMT 2016英语-罗马尼亚语上取得了接近最先进的性能,即29.8 BLEU。

链接到出版物

极低资源语言的通用神经机器翻译

Jiatao Gu, Hany Hassan, Jacob Devlin,李安國教授 。计算语言学协会北美分会会议(NAACL),2018。

摘要

在本文中,我们提出了一种新的通用机器翻译方法,重点是具有有限数量平行数据的语言。我们提出的方法利用转移学习的方法,将多种源语言的词汇和句子层面的表述共享到一种目标语言中。词法部分是通过通用词法表示法来支持多语言的词级共享。句子层面的共享是通过一个来自所有源语言的专家模型来表示的,该模型与所有其他语言共享源编码器。这使得低资源语言能够利用高资源语言的词汇和句子表示。我们的方法能够在罗马尼亚-英语WMT2016上使用6千句的微小平行语料库达到23个BLEU,而使用多语言训练和回译的强大基线系统只有18个BLEU。此外,我们还表明,通过在零点设置中对预训练的多语言系统进行微调,拟议的方法可以在同一数据集上实现近20个BLEU。

链接到出版物

延迟感知的智能暂态稳定评估系统

James J.Q. Yu,林潤生博士 Y.S. Lam, David J. Hill, and Victor O.K. Li。IEEE Access,第5卷,第17230-17239页,2017年12月。

摘要

瞬态稳定性评估是电力系统设计和运行的一个重要工具。随着先进的同步相位测量技术的出现,机器学习方法在电力系统稳定性评估中发挥着越来越重要的作用。然而,现有的研究大多做了一个强有力的假设,即测量数据的传输延迟是可以忽略的。在本文中,我们重点研究了通信延迟对基于同步相位器的瞬态稳定性评估的影响。特别是,我们开发了一个延迟感知的智能系统来解决这个问题。通过利用多个长短期记忆网络的集合,所提出的系统可以进行早期评估,通过利用不完整的系统变量测量实现更短的响应时间。与现有的工作相比,我们的系统能够做出准确的评估,而且效率明显提高。我们进行了大量的案例研究,以证明所提出的智能系统的优越性,其中准确评估的时间比最先进的方法少三分之一。此外,模拟结果表明,测量中的噪声对评估性能的影响微乎其微,这证明了拟议系统的稳健性。

链接到出版物

用于异质性空气质量评估的扩展时空格兰杰因果模型

Zhu, J.Y., Sun, C., and Li, V.O.K., IEEE Transactions on Big Data, Vol. 3, no.3, pp. 307-319, Jul. 2017.

摘要

本文涉及的是在有限的空气质量监测站的情况下进行城市范围的空气质量估计,这些监测站在地理上是稀疏的。由于空气污染受到整个城市动态(如气象和交通)的影响,我们可以根据这种空间-时间(ST)异质的城市大数据来推断没有监测站的地区的空气质量。然而,大数据支持的估计工作带来了三个挑战。第一个挑战是数据的多样性,即有许多不同类别的城市数据,其中一些可能对估计没有用。为了克服这个问题,我们将格兰杰因果关系扩展到ST空间,以一种一致的方式分析所有的因果关系。第二个挑战是处理大量数据所带来的计算复杂性。为了克服这个问题,我们引入了非因果性测试,以排除不 "格兰杰 "导致空气污染的城市动态,以及影响区域(ROI),这使得我们只分析具有最高因果性水平的数据。第三个挑战是使我们基于网格的算法适应于非网格的应用。通过开发一个灵活的基于网格的估计算法,我们可以在保持计算效率的同时减少基于网格算法的不准确性。

链接到出版物

搜索引擎引导的非参数化神经机器翻译

Gu, J., Wang, Y., Cho, K, and Li, V.O.K., arXiv: 1705.07267, May 2017.

摘要

在本文中,我们扩展了一个基于注意力的神经机器翻译(NMT)模型,允许它在训练后也能访问整个平行句子对的训练集。建议的方法包括两个阶段。在第一阶段--检索阶段--中,一个现成的黑盒搜索引擎被用来从给定的源句子的训练集中检索出一个小的句子对子集。这些句子对在基于编辑距离的模糊匹配分数的基础上被进一步过滤。在第二阶段--DeepL,一个新的翻译模型,称为翻译记忆增强型NMT(TM-NMT),无缝使用源句和一组检索的句子对来进行翻译。对三种语言对(法语、德语和英语)的实证评估表明,所提出的方法明显优于基线方法,当检索到更多的相关句子对时,其改进更为明显。

链接到出版物

零资源神经机器翻译的教师-学生框架

Chen Y., Liu, Y., Cheng, Y., Li, V.O.K., arXiv:1705.00753, 2017.

摘要

虽然端到端神经机器翻译(NMT)最近取得了显著的进展,但它仍然受到低资源语言对和领域的数据稀缺问题的困扰。在本文中,我们通过假设平行句子产生第三语言句子的概率接近,提出了一种零资源NMT的方法。基于这一假设,我们的方法能够在没有平行语料的情况下训练一个源到目标的NMT模型("学生"),由现有的源-支点平行语料上的支点到目标NMT模型("教师")指导。实验结果表明,所提出的方法比基于枢轴的基线模型在不同的语言对中明显提高了3.0个BLEU点。

链接到出版物

基于小波的深度神经网络的微电网智能故障检测方案

James J.Q. Yu, Yunhe Hou,林潤生博士 Y.S. Lam, and Victor O.K. Li, to appear in IEEE Transactions on Smart Grid, 2017.

摘要

故障检测在微电网控制和运行中至关重要,因为它使系统能够进行快速的故障隔离和恢复。在微电网中采用变频器连接的分布式发电,使得传统的故障检测方案因其对重大故障电流的依赖而不合适。在本文中,我们设计了一个基于小波变换和深度神经网络的微电网智能故障检测方案。该方案旨在为微电网保护和服务恢复提供快速的故障类型、相位和位置信息。在该方案中,由保护继电器采样的支路电流测量值通过离散小波变换进行预处理以提取统计特征。然后将所有可用数据输入深度神经网络,以开发故障信息。与以前的工作相比,提出的方案可以提供明显更好的故障类型分类精度。此外,该方案还可以检测出故障的位置,这是以前的工作中所没有的。为了评估所提出的故障检测方案的性能,我们对CERTS微电网和IEEE 34总线系统进行了综合评估研究。仿真结果证明了所提方案在检测精度、计算时间和对测量不确定性的鲁棒性方面的功效。

链接到出版物

用于神经机器翻译的可训练的贪婪解码法

Gu, J., Cho, K., Li, V.O.K., arXiv:1702.02429, 2017.

摘要

最近,神经机器翻译的研究主要集中在两个方面;神经网络架构和端到端学习算法。然而,解码问题在研究界受到的关注相对较少。在本文中,我们只关注给定一个经过训练的神经机器翻译模型的解码问题。我们没有试图为任何特定的解码目标建立一个新的解码算法,而是提出了可训练的解码算法的想法,其中我们训练一个解码算法来寻找一个最大化任意解码目标的翻译。更具体地说,我们设计了一个观察和操纵神经机器翻译解码器的隐藏状态的角色,并建议使用确定性策略梯度的变体来训练它。我们使用四种语言对和两个解码目标对所提议的算法进行了广泛的评估,并表明我们确实可以训练一个可训练的贪婪解码器,以最小的计算开销产生一个更好的翻译(就目标解码目标而言)。

链接到出版物

用于在线和历史大数据分析的四层架构

Zhu, J. Y., Xu, J, and Li, V.O.K., Proc. IEEE DataCom, Oakland, New Zealand, Aug 2016.

摘要

近年来,大数据处理和分析技术已经引起了人们的广泛关注。然而,最近在线数据流的爆炸性增长给现有技术带来了新的挑战。这些在线数据流往往是海量的、持续到达的、异质的、时间变化的和无限制的。因此,有必要采用一种综合方法来处理大的静态数据和在线大数据流。我们把这种综合方法称为在线和历史大数据分析(OHBDA)。我们提出了OHBDA的四层架构,即包括存储层、在线和历史数据处理层、分析层和决策层。我们进一步讨论了这四层的功能和挑战。最后,我们讨论了对未来OHBDA解决方案的要求,这可以作为未来大数据分析研究的基础。

链接到出版物

在序列对序列学习中纳入复制机制

Gu, J., Lu, Z., Li, H., and Li, V.O.K., Proc.计算语言学协会(ACL)年度会议,德国柏林,2016年8月。

摘要

我们讨论了序列到序列(Seq2Seq)学习中的一个重要问题,该问题被称为复制,即输入序列中的某些片段被选择性地复制到输出序列中。在人类的语言交流中也可以观察到类似的现象。例如,人类倾向于在对话中重复实体名称或甚至长短语。在Seq2Seq中复制的挑战是需要新的机器来决定何时执行该操作。在本文中,我们将复制纳入基于神经网络的Seq2Seq学习中,并提出了一个名为CopyNet的编码器-解码器结构的新模型。CopyNet可以很好地将解码器中常规的单词生成方式与新的复制机制结合起来,后者可以在输入序列中选择子序列并将其放在输出序列的适当位置。我们对合成数据集和真实世界数据集的实证研究证明了CopyNet的功效。例如,CopyNet在文本总结任务中的表现明显优于基于RNN的常规模型。

链接到出版物

基于城市大数据的高斯贝叶斯模型识别空气污染的时空因果关系

Zhu, J. Y., Zheng, Y., Yi, X., and Li, V.O.K., SmartCity16: The 2nd IEEE INFOCOM Workshop on Smart Cities and Urban Computing, San Francisco, California, USA, April 2016。

摘要

识别空气污染物的因果关系,并回答诸如北京的空气污染物来自何处等问题,对政府决策至关重要。在本文中,我们通过挖掘城市大数据来确定不同地点的空气污染物的时空因果关系。这具有挑战性,原因有二。1)由于空气污染物可以在本地产生,也可以从附近分散开来,我们需要从许多候选地点中发现ST空间中的原因,并提高时间效率;2)空气污染物之间的因果关系会受到气象等混杂变量的进一步影响。为了解决这些问题,我们提出了一个由两部分组成的高斯贝叶斯耦合模型。1)高斯贝叶斯网络(GBN)来表示空气污染物之间的因果关系,用基于熵的算法在ST空间中有效地定位原因;2)将因果关系与气象学相结合的耦合模型,在消除混杂影响的同时更好地学习参数。使用2013年6月1日至2015年5月1日期间52个城市的空气质量和气象数据对所提出的模型进行了验证。结果表明,我们的模型在时间效率和预测精度方面都优于基线因果关系学习方法。

链接到出版物

利用神经机器翻译学会实时翻译

Gu, J., Neubig, G., Cho, K., and Li, V.O.K., arXiv:1610.00388, 2016.

摘要

实时翻译,又称同声翻译,在输入句子结束之前输出翻译词,这对传统的机器翻译方法来说是一个挑战。我们提出了一个用于同步翻译的神经机器翻译(NMT)框架,其中一个代理学会从与预先训练的NMT环境的互动中决定何时进行翻译。为了权衡质量和延迟,我们广泛地探索了各种延迟目标,并设计了一种适用于同步翻译环境的波束搜索方法。在两种语言对上与最先进的基线进行的实验从数量和质量上证明了所提出的框架的功效。

链接到出版物

Pg-causality:利用城市大数据识别空气污染物的时空因果途径

Zhu, J.Y., Zhang, C., Zhi, S., Li, V.O.K., Han, J., Zheng, Y., arXiv:1610.07045, 2016.

摘要

Many countries are suffering from severe air pollution. Understanding how different air pollutants accumulate and propagate is critical to making relevant public policies. In this paper, we use urban big data (air quality data and meteorological data) to identify the \emph{spatiotemporal (ST) causal pathways} for air pollutants. This problem is challenging because: (1) there are numerous noisy and low-pollution periods in the raw air quality data, which may lead to unreliable causality analysis, (2) for large-scale data in the ST space, the computational complexity of constructing a causal structure is very high, and (3) the \emph{ST causal pathways} are complex due to the interactions of multiple pollutants and the influence of environmental factors. Therefore, we present \emph{p-Causality}, a novel pattern-aided causality analysis approach that combines the strengths of \emph{pattern mining} and \emph{Bayesian learning} to efficiently and faithfully identify the \emph{ST causal pathways}. First, \emph{Pattern mining} helps suppress the noise by capturing frequent evolving patterns (FEPs) of each monitoring sensor, and greatly reduce the complexity by selecting the pattern-matched sensors as "causers". Then, \emph{Bayesian learning} carefully encodes the local and ST causal relations with a Gaussian Bayesian network (GBN)-based graphical model, which also integrates environmental influences to minimize biases in the final results. We evaluate our approach with three real-world data sets containing 982 air quality sensors, in three regions of China from 01-Jun-2013 to 19-Dec-2015. Results show that our approach outperforms the traditional causal structure learning methods in time efficiency, inference accuracy and interpretability.

链接到出版物

非定向主题模型的高效学习

Gu, J. and Li, V.O.K., Proc.ACL-IJCNLP,中国北京,2015年7月。

摘要

Replicated Softmax模型是一个著名的无定向主题模型,在提取文档的语义表征方面非常强大。传统的学习策略,如反差法(Contrastive Divergence)是非常低效的。本文提供了一种新的估计方法,以加快基于噪声对比估计的学习速度,并针对不同长度的文档和加权输入进行了扩展。在两个基准上的实验表明,新的估计器在文档检索和分类上取得了很好的学习效率和高的准确性。

链接到出版物

基于格兰杰因果关系的空气质量估计与时空(S-T)的异质大数据

Zhu, Y., Sun.C., and Li, V.O.K., Proc. IEEE INFOCOM Smart City Workshop, China Hong Kong, April 2015.

摘要

本文考虑了在有限的可用监测站中进行城市范围的空气质量估计,这些监测站在地理上是稀疏的。由于空气污染高度依赖于时空(S-T),并受到城市动态(如气象和交通)的很大影响,我们可以用S-T异质城市大数据推断出监测站未覆盖的空气质量。然而,利用S-T异质性大数据来估计空气质量有两个挑战。第一个挑战是由于数据的多样性,也就是说,有不同类别的城市动态,有些可能是无用的,甚至是不利于估计的。为了克服这个问题,我们首先提出了一个S-T扩展的格兰杰因果关系模型,以一致的方式分析城市动态中的所有因果关系。然后,通过实施非因果关系检验,我们排除了那些不 "格兰杰 "导致空气污染的城市动态。第二个挑战是由于处理大量数据时的时间复杂性。我们建议通过选择在空间和时间上具有最高因果关系水平的数据来发现影响区域(ROI)。结果显示,我们使用 "部分 "数据比 "全部 "数据取得了更高的准确性。这可能是由于最有影响力的数据消除了由冗余或噪声数据引起的错误。我们使用中国深圳的数据对因果关系模型的观察和整个城市的空气质量地图进行了说明和可视化。

链接到出版物

构建基于WIFI的室内定位RSSI指纹图谱的时空相似性模型(S-T)

Zhu, Y., Zheng, X., Xu, J., and Li, V.O.K., Proc.Fifth International Conference on Indoor Positioning and Indoor Navigation (IPIN 2014), Busan, Korea, Oct 2014.

摘要

基于WIFI的接收信号强度指标(RSSI)指纹法由于具有普遍可用性、隐私保护和低部署成本等理想特性而被广泛用于室内定位。RSSI指纹法的关键是构建一个可信的RSSI地图,其中包含在不同校准点的接收接入点(AP)信号强度的测量值。通过将实时RSSI与RSSI地图相匹配,可以估计位置。然而,细粒度的地图需要大量的人力和时间。这就要求开发高效的插值和近似方法。此外,由于环境变化,RSSI地图需要定期更新以保证定位的准确性。在本文中,我们提出了一个空间-时间(S-T)相似性模型,该模型使用S-T相关性来构建一个细粒度和最新的RSSI地图。提出了五个S-T相关度量,即空间距离、信号相似性、相似性可能性、RSSI矢量距离和S-T可靠性。该模型在我们的室内WIFI定位系统测试平台的实验基础上进行了评估。结果显示,与四种常用的RSSI地图构建方法,即线性插值、立方插值、近邻插值和压缩传感相比,插值精度(高达7%)和定位精度(高达32%)都有提高。

链接到出版物

云存储系统中访问延迟的性能模型

Shuai, Q., Li, V.O.K., and Zhu, Y., Proc.第四届大数据架构与系统研讨会,美国明尼苏达州明尼阿波利斯,2014年6月14日。

摘要

访问延迟是云存储系统的一个关键性能指标,对用户体验有很大的影响,但大多数论文关注的是其他性能指标,如存储开销、修复成本等。最近才有一些模型认为,编码可以减少访问延迟。然而,它们是为特殊场景开发的,可能无法反映现实。为了填补现有工作和实践之间的空白,在本文中,我们提出了一个更实用的模型来衡量访问延迟。这个模型也可以用来比较不同公司使用的不同代码的访问延迟。据我们所知,这个模型是第一个提供比较不同擦除码的访问延迟的一般方法。

链接到出版物