此次讲习班,因为没有资助,没钱参加。所以本博只厚着脸皮蹭了最后的讨论会。会上,来自全国不少地方的学生、老师都在,踊跃发言提问。Godson-T是热点,但因为本博做编译,呵呵,所以当时记录时,着眼这方面的较多。各位看官谅解。 Continue reading »
上周末中国计算机学会(CCF)举办了《多核技术讲习班》,举办地点在北京,中科院计算所。邀请了明尼苏达大学的丁晨副教授、华为美国研究所的胡子昂博士、美国宾州州立大学的谢源副教授和中科院计算所的范东睿副研究员分别做讲座。
四位的报告题目:
- 丁晨:并行编程与编译技术
- 谢源:新型半导体器件与工艺
- 胡子昂:通信与多核计算
- 范东睿:Godson-T与众核体系结构 Continue reading »
《关于并行貌似正确的废话》系列文章:
封装这一永恒的主题,在多核的时代还会永恒下去吗?答案是肯定的!
既然四个核的存储一致性都很难通过高效的机制保证,众核时代,更是如此。这众核肯定是若干个小的,结构简单的,功能不同的核的集合体。未来的程序,单单的串行,这么多核,很难充分的利用。功耗已经很高了,多少个核,就至少是多少倍的功耗提升,仅仅依靠投机也是不行的。
《关于并行貌似正确的废话》系列文章:
怎么办?解铃还需系铃人。既然自动的做不了,程序员就需要有并行的头脑,用并行的语言和开发方式,设计,实现。怎么并行?
或许计算机和程序语言的发展史能给我们一些启发。
《关于并行貌似正确的废话》系列文章:
在没有革命性的芯片制造技术之前,咱们必须得接受要想快,只能并行!即使出来了新的CPU制造技术,只要有计算,就需要时间,只要有时间需求,人就想要程序跑的越快越好。这是必须的,除了程序员,没有人会享受程序运行的过程。用计算机的人只想要结果!所以性能,将是永恒的主题。
怎么提升性能?咱们从下往上看。
上篇文章《前瞻-主流处理器中的数据并行支持(SIMD)》 介绍了当今主流CPU中的SIMD扩展,本文将介绍前人是物和利用SIMD来做优化的,下篇<前瞻-拿起SIMD的武器II>将探讨如何使用CPU的向量指令为程序做优化
已有在SIMD上的优化工作:
正如之前提到的,SIMD对具有以下特性的程序性能提升明显:天然数据并行,访存模式重复、在局部数据上重复操作、控制流数据无关。很多应用有这方面的特性,并能通过使用SIMD扩展提高性能,但实际仅有小部分从中获益,接下来将介绍在单核处理器上,利用Intel的SIMD扩展针对某些应用提升性能的研究,如多媒体,数据安全,数据库和一些科学计算应用。
多媒体处理
多媒体处理需要软件和硬件的很多支持。如MPEG-1,MPEG-2,MPEG-4,MPEG-7,H.263,JPEG2000等需要实时做复杂的媒体处理.3D图像和立体视频处理都需要更强劲的实时处理.因为各种媒体都需要不同的处理方式,技术支持、算法和硬件,因此针对他们的SIMD扩展改进也很不同。 Continue reading »
今天听了一个博士师兄的论文答辩,试图提高分布式存储并行和共享存储并行中,循环中并行粒度。
分布式存储下的并行,可以简单的理解为片间的并行,集群,很多CPU的计算机中的并行都属于这一类,这类并行强调的是消息传递,因为每个计算单元都有自己的存储空间,且这些存储是相互独立的,靠消息传递的方式来维护存储一致性,这类程序通常使用MPI工具做并行程序开发。这种并行一般是进程之间的并行,每个进程都有独立的资源管理和消息收发,地址空间相互独立。
共享存储下的并行则不同,采用线程间的并行策略,即并行任务之间采用共享存储空间的形式,存储和资源都是共享的。这类并行多存在于现在流行的多核和众核系统中。主要面临的问题是一致性,缓存一致性是最主要的,因为多核系统通常是每个单核有一级cache,而多个核之间又共享二级或者三级cache,据说CPU上30%多的功耗都用在了维持一致性上。片上面积也一半多用来做了cache。OPENMP就是为共享存储而生的编程工具。 Continue reading »
今天的会议日程比昨天轻松。五个报告。
- 台湾资讯研究院的游本中老师,未来编译研究的潜在领域展望。
- 江南所,关于精细编译调优的
- 计算所,关于并行的
- 上交 关于llvm的
- 武大 关于MCU编译器开发的
其中,游老师的演讲最为重量级,也对我们这些晚生最有指导意义。大牛就是大牛,在美国混了这么久,现在又是台湾某个研究所的所长,编译领域的了解可谓渊博,虽然还谦虚的说自己的讲义只是匆匆的准备,但是演讲的过程却功底颇厚。 Continue reading »
今天参加了国内几个做编译器的单位做的研讨会,有计算所,中国科大,intel,北京大学,清华大学,武汉大学,复旦大学,北京科技大学,北京理工大学,浙江大学,国防科技大学等,据说基本云集了国内几乎所有做编译研究的机构(公司除外)。
一天,10几个报告下来,基本发现国内做编译的无非做几个领域,最多的在并行优化,做有GPU的混合结构下的优化,国防科大的天河,北大的实验集群,基本都在做GPU和CPU混合的优化,看来它们最头疼的问题是之间的通信。还有其他几家做多核的基本也一样,如浙江大学的多核嵌入式,清华的程序切片技术提取并行通信模型。 Continue reading »


近期评论