这种新的编程语言有助于在大数据上提升4倍
内存管理可以在传统数据集中挑战足够的挑战,但是当大数据进入图片时,事情可以慢速方式。本周麻省理工学院宣布的新编程语言旨在解决这个问题,到目前为止,它已被发现在普通算法上提供四倍速度提升。
当地的原则是当今大多数计算机芯片中的内存管理,这意味着如果程序需要存储在某些内存位置的数据块,则通常假设也需要邻近的块。然而,在大数据中,不总是如此。相反,程序通常必须仅在跨越数据集中分散的一些数据项。
从主存储器中获取数据是当今芯片中的主要性能瓶颈,因此必须更频繁地获取它可以大大减慢执行。
“就好像你想要一勺谷物,你打开冰箱,打开牛奶纸盒,倒一勺牛奶,关闭纸箱,然后把它放回冰箱里,”Vladimir Kiriansky,博士生,博士生在麻省理工学院电气工程与计算机科学。
由于考虑到这一挑战,来自麻省理工学院计算机科学和人工智能实验室(CSAIL)的基年人和其他研究人员已经创造了一种新的语言,这是一种新的语言,让应用程序开发人员在大数据集中处理分散数据点的程序中更有效地管理内存。
基本上,牛奶将一些命令添加到OpenMP,一个用于C和Fortran等语言的API,这使得更容易编写多核处理器的代码。使用它,程序员围绕任何迭代的指令围绕迭代的任何指令围绕稍微少量的项目插入一些额外的代码行。牛奶的编译器然后ps out相应的方法如何管理内存。
使用用牛奶编写的程序,当核心发现它需要一条数据时,它不会要求它 - 以及来自主内存的伴奏者相邻的数据。相反,它将数据项的地址添加到本地存储的地址列表中。当列表足够长时,所有芯片的核心池都会汇集它们的列表,将这些地址汇总在一起,并将其重新分配给核心。这样,每个核心只请求它知道它需要的数据项,并且可以有效地检索。
麻省理工学院说,在几种常见算法上,用新语言编写的程序的程序是现有语言编写的程序。因为研究人员进一步改善了技术,这也可能更好。他们本周在国际并行架构和汇编技术会议上举办了一篇论文。