HOME> 本届世界杯> 同时多线程

同时多线程

英特尔奔腾4 HT是首个实现同时多线程的桌面處理器。英特尔将其称之为超線程(Hyper-threading),并提供了一个基本的双线程SMT引擎。英特尔宣称...

英特尔奔腾4 HT是首个实现同时多线程的桌面處理器。英特尔将其称之为超線程(Hyper-threading),并提供了一个基本的双线程SMT引擎。英特尔宣称这比其他参数完全相同但非SMT的奔腾4速度提高30%[2]。可观察到的性能改进非常取决于应用;但是,当超线程打开并同时运行两个需要处理器全力关注的程序时,它实际上似乎会稍慢一些。[3]这是由于奔腾4的重放系统(英语:Replay system)占用了宝贵的执行资源,增加了对资源(例如带宽、缓存、TLB、重排序缓冲区项)的争用,均衡两个程序之间的处理器资源增加了耗费的执行时间。奔腾4 Prescott核心获得了一个重放队列,减少了重放系统所需的执行时间。这足以完全克服性能下降。[4]

最新的MIPS架構设计包括一个称为“MIPS MT”的SMT系统。[5]MIPS MT提供重量级虚拟处理元件和轻量级的硬件微线程。RMI(英语:RMI Corporation)是一家基于Cupertino的初创公司,它是第一家提供八核心处理器SOC的MIPS供应商,其中每个核心运行四个线程。线程可以以细粒度模式运行,其中每个周期可以执行不同的线程。线程也可以分配优先级。Imagination Technologies的MIPS CPU的每个核心有两个SMT线程。

IBM的Blue Gene/Q有四路SMT。

2004年5月宣布的IBM POWER5为双核双芯片模块(DCM),或者说四核或者八核多芯片模块(MCM),其每个核心包含一个双线程SMT引擎。IBM的实现比以前更复杂,因为它可以为不同的线程分配不同的优先级,这更加细粒度,并且SMT引擎可以动态地开启和关闭,从而更好地执行那些SMT处理器不能提高性能的工作负载。这是IBM通用可用硬件多线程的第二个实现。2010年,IBM发布了基于八核心的POWER7处理器的系统,每个核心具有四个智能并发线程。这切换线程模式为一个线程、两个线程或四个线程,取决于当时调度的线程数量。这可以优化内核对最小响应时间或最大吞吐量的使用。IBM POWER8(英语:POWER8)的每个核心(SMT8)有8个智能并发线程。

IBM z13(英语:IBM z13 (microprocessor))在每个核心(SMT-2)有两个线程。

尽管许多人报告,昇陽電腦的UltraSPARC T1(在其于2005年11月14日发布前,它被称为“Niagara”)和现在已经停用的代号“Rock”(最早于2005年宣布,但在许多延误后于2009年取消)的处理器是着眼于几乎完全利用SMT和CMP技术的SPARC的实现,Niagara实际并不使用SMT。Sun将这些组合方法称为“CMT”,并将整体概念称为“吞吐量计算。Niagara有八个核心,但每个核心只有一个管道,因此实际上它使用细粒度多线程。不同于SMT,它的来自多个线程的指令在每个周期共享问题窗口{{fact}},处理器使用循环策略在每个周期发出下一个活动线程的指令。这使它更类似一个桶式处理器。Sun Microsystems的Rock处理器则不同,它有有多个管道的更复杂的内核。

甲骨文公司Sparc T3的每个核心有8个细粒度线程;Sparc T4、Sparc T5及Sparc M5、M6和M7的每个核心有8个细粒度线程,其中两个可以同时执行。

富士通Sparc64 VI有粗粒度的垂直多线程(VMT),Sparc VII和更新版有双向SMT。

英特尔安腾(Itanium)Montecito使用粗粒度多线程,Tukwila和更新版使用双路SMT(双域多线程)。

英特尔至强融核(Xeon Phi)有四路SMT(时间复用多线程),基于硬件的线程不能像常规超线程一样被禁用。[6]

发布于2008年的英特尔Atom是英特尔首个实现双路SMT特性(市场名“超线程”)而不支持指令重排序、推测执行和寄存器重命名的产品。

英特爾酷睿2處理器不支援超線程,英特爾酷睿i3/i5/i7/i9部分型號支援超线程。

AMD Bulldozer微架构FlexFPU和共享二级高速缓存为多线程,但模块中的整数核心为单线程,因此它是一个SMT的部分实现。[7]

AMD Ryzen有两路SMT。

VISC架构[8][9][10]使用虚拟软件层(翻译层)以向全局前端分发单个指令线程,该全局前端将指令分割成虚拟硬件线程,然后将虚拟硬件线程分派到单独的虚拟核心。这些虚拟核心可以将它们发送到任何物理核心上的可用资源。多个虚拟核心可以将线程推入单个物理核心的重排序缓冲器中,其可以同时通过执行端口从多个线程拆分部分指令和数据。每个虚拟核心保持跟踪相对输出的位置。这种形式的多线程可以借允许单个线程使用CPU的所有资源来增加单线程性能。资源的分配在接近单个周期的延迟级别上是动态的(1-4个周期取决于分配的变化,这取决于各个应用的需要)。因此,如果两个虚拟核心竞争资源,则有适当的算法来确定在哪里分配什么资源。


什么什么一窝成语动物(什么什么一窝的成语)(17个) 定期扫盲很重要 幼教版GPU-Z使用指南(全文)