上篇文章前瞻-主流处理器中的数据并行支持(SIMD)》 介绍了当今主流CPU中的SIMD扩展,本文将介绍前人是物和利用SIMD来做优化的,下篇<前瞻-拿起SIMD的武器II>将探讨如何使用CPU的向量指令为程序做优化

已有在SIMD上的优化工作:

正如之前提到的,SIMD对具有以下特性的程序性能提升明显:天然数据并行,访存模式重复、在局部数据上重复操作、控制流数据无关。很多应用有这方面的特性,并能通过使用SIMD扩展提高性能,但实际仅有小部分从中获益,接下来将介绍在单核处理器上,利用Intel的SIMD扩展针对某些应用提升性能的研究,如多媒体,数据安全,数据库和一些科学计算应用。

多媒体处理

多媒体处理需要软件和硬件的很多支持。如MPEG-1,MPEG-2,MPEG-4,MPEG-7,H.263,JPEG2000等需要实时做复杂的媒体处理.3D图像和立体视频处理都需要更强劲的实时处理.因为各种媒体都需要不同的处理方式,技术支持、算法和硬件,因此针对他们的SIMD扩展改进也很不同。 Continue reading »

 

引言部分:

多媒体处理算法应用在很多媒体处理环境中,如对文本,手写数据,2D/3D图形和音频对象的捕捉、制造、存储和传输等。过去 都是使用昂贵的多媒体处理硬件协同工作来加速。现在,通用处理器通过在体系结构上增加媒体处理支持来减少使用协同处理器分配和返回带来的开销。在通用处理 器上一个基本的操作能同时作用多个元素的支持成为SIMD并行处理。通过SIMD扩展,通用护理器通过捕捉多媒体算法中潜在的并行特性来加速应用。

自 Intel在Pentium II和Pentium 处理器引入了MMX技术以来,IA-32架构已经引入了许多SIMD扩展,分别是:MMX,流SIMD扩展(SSE), 流SIMD扩展(SSE2)和流SIMD扩展(SSE3),SSSE3,SSE4和高级向量扩展(AVX).这些扩展都提供了一组指令,能够为封装好的整点或浮点数据提供SIMD类型的操作。其他结构也 有自己的SIMD扩展。如AMD的3DNow!,Cell和PowerPC的AltiVec等等。 Continue reading »
 

2010年美国高校计算机系排行榜出炉–《U.S. News》公布了新一期美国大学计算机系实力排名。前四:卡内基-梅隆大学(CMU)、麻省理工学院(MIT)、斯坦福大学(Stanford U)和加州大学伯克利分校(UC Berkely).

前四名具体排名


Continue reading »

 

今天的会议日程比昨天轻松。五个报告。

  1. 台湾资讯研究院的游本中老师,未来编译研究的潜在领域展望。
  2. 江南所,关于精细编译调优的
  3. 计算所,关于并行的
  4. 上交 关于llvm的
  5. 武大 关于MCU编译器开发的

其中,游老师的演讲最为重量级,也对我们这些晚生最有指导意义。大牛就是大牛,在美国混了这么久,现在又是台湾某个研究所的所长,编译领域的了解可谓渊博,虽然还谦虚的说自己的讲义只是匆匆的准备,但是演讲的过程却功底颇厚。 Continue reading »

 

3.0 应用和小矮人

(译者注:原文单词为Dwarfs,意思是有魔法的小矮人)

图1左侧的塔是应用。除了传统的桌面、服务器、科研和嵌入式应用外,面向消费生产的重要性正在增加。

我们决定发掘高性能计算领域中并行化的经验,以期能从中学到有关更广泛领域的并行计算的知识。这样做的前提并非传统的科学计算是并行计算的未来;而是在大规模并行计算机上开发高效运行程序的经验本身或许能为以后应用的并行化提供有用的经验。而且许多其他领域的作者,如嵌入式计算,也为他们自己领域内的未来应用与现有并行计算问题如此的相似而感到吃惊。 Continue reading »

 

胡伟武   时间:2008-1-10


自从我们于2001年5月正式开始龙芯处理器的研制以来,龙芯已经有了六年的历史。从那时起,龙芯就是在关心者和反对者的疑虑和质疑中前进的。我们每前进 一步,老的问题就会消失,同时新的更难的问题就会出来。总结起来,龙芯的成长过程中,必须先后回答三个问题,或者打三大战役。第一个问题是“中国要不要研 制通用CPU”;第二个问题是“中国有没有能力研制通用CPU”;第三个问题是“龙芯能不能卖出去”。在过去六年中,我们已经成功回答了前两个问题,取得 了前两场战役的胜利,现在面临的是第三个问题,或者第三场战役,也是龙芯前进道路上最关键的一场战役。 Continue reading »

2009-2011© 编译点滴 Suffusion theme by Sayontan Sinha

无觅相关文章插件,快速提升流量