AI已经出现了几十年了,而近五年发展明显加速,为什么?
当以前的机器学习算法性能上升到一定程度,即使再增加数据样本量(前文谈到的输入A、响应B的A-B映射),性能改善也很有限。似乎超过一定样本量之后,再多的数据也对算法不起作用。
而过去几年,主要由于GPU,我们终于实现了能利用这么巨大的数据集的机器学习软件。将数据输入一个小的神经网络,当超过一定性能后,上升变得平缓。而不断地把数据输入一个很大的神经网络时,即使性能上升没有那么快,也会保持上升趋势,随着数据量的增大,不断提高。
因此,要想获得很好的AI性能,需要两样东西:
-
很大的A-B映射的数据集;
-
大的神经网络。现在常用的大型神经网络建立在HPC高性能计算集群上。
现在的大型AI团队包括机器学习和高性能计算两组人,才能获得足够计算能力。百度AI团队里的这两种人员都专注于各自领域,没有人能两者兼备。