Intel Xeon Phi coprocessor high-performance programming
副标题:无
作 者:(美)Jim Jeffers,(美)James Reinders著;陈健[等]译
分类号:
ISBN:9787115347848
微信扫一扫,移动浏览光盘
简介
·由英特尔的技术专家撰写,是目前为止最全面、最系统地讲解在英特尔至强处理器和至强融核协处理器上进行并行应用开发的专著
·《Intel Xeon Phi协处理器高性能编程指南》所采用的方法兼容了对未来编程模式的支持,书中所阐述的统一、标准和灵活的编程模式,对于未来作为独立处理器使用的MIC众核产品同样适用。
目录
第1章绪论
1.1更加并行化
1.2为什么需要IntelXeonPhi协处理器
1.3协处理器平台
1.4第一款IntelXeonPhi协处理器
1.5控制“Ninja鸿沟”于一定范围
1.6移植与优化的双重优势
1.7何时使用IntelXeonPhi协处理器
1.8实现处理器性能最优
1.9为何扩展超过100个线程如此重要
1.10最大化并行程序性能
1.11评估高度并行执行的能力
1.12对于GPU是怎么样的
1.13易于移植,也易于提升性能
1.14性能移植
1.15超线程与多线程
1.16协处理器主要使用模型:MPI和Offload
1.17编译器和编程模型
1.18缓存优化
1.19案例和细节
1.20更多信息
第2章高性能封闭追踪测试驱动
2.1揭开引擎盖:协处理器详解
2.2发动汽车:与协处理器沟通
2.3轻松上路:首次运行代码
2.4开始加速:多线程运行代码
2.5全速行驶:使用所有核心
2.6轻松过弯:访存带宽
2.7高速漂移:内存带宽最大化
2.8总结
第3章一场乡间公路友谊赛
3.1赛前准备:本章重点
3.2初识赛道:9点模板算法
3.3起跑线上:9点模板基准程序
3.4路在前方:运行基准模板代码
3.5石子路上:向量化而未扩展
3.6全力比赛:向量化加上规模扩展
3.7扳手和润滑油:代码微调
3.7.1基准校正
3.7.2使用流存储
3.7.3使用2MB大型存储页
3.8总结
3.9更多信息
第4章都市畅游:实际代码优化案例
4.1选择方向:基本的扩散算法
4.2到达路口:计算边界效应
4.3寻找林荫大道:代码扩展化
4.4雷霆之路:保证向量化
4.5剥离:从最内层循环开始
4.6尝试辛烷含量更高的燃料:利用数据局部性与切片分块提升速度
4.7高速驾驶认证:高速旅行的总结
第5章大数据(向量)
5.1为什么向量化
5.2如何向量化
5.3实现向量化的五种方法
5.4六步向量化方法论
5.5通过Cache流:布局、对齐、预取数据
5.5.1为什么数据布局影响向量化性能
5.5.2数据校准
5.5.3预取
5.5.4流存储
5.6编译器技巧
5.6.1避免手动展开循环
5.6.2循环向量化的要求(英特尔编译器)
5.6.3内联的重要性,简单性能分析的干扰
5.7编译器选项
5.8编译器指导指令
5.8.1SIMD指令
5.8.2VECTOR与NOVECTOR指令
5.8.3IVDEP指令
5.8.4随机数函数向量化
5.8.5充分向量化
5.8.6—opt—assume—safe—padding选项
5.8.7数据对齐
5.8.8在数组表示法(ArrayNotation)中权衡向量长度
5.9使用数组段(ArraySection)支持向量化
5.9.1Fortran数组段
5.9.2CilkPlus数组段和元素函数
5.10查看编译器生成:汇编代码检测
5.10.1如何找到汇编代码
5.10.2快速查看汇编代码
5.11向量化数值结果差异
5.12总结
5.13更多信息
第6章多任务(非多线程)
6.1OpenMP、Fortran2008、IntelTBB、IntelCilkPlus、IntelMKL
6.1.1需在协处理器上创建任务
6.1.2线程池的重要性
6.2OpenMP
6.2.1并行处理模型
6.2.2指导性语句
6.2.3OpenMP上的有效控制
6.2.4嵌套
6.3Fortran2008
6.3.1DOCONCURRENT
6.3.2DOCONCURRENT以及数据竞争
6.3.3DOCONCURRENT定义
6.3.4DOCONCURRENT对比FORALL
6.3.5DOCONCURRENT对比OpenMP“Parallel”
6.4IntelTBB
6.4.1发展历史
6.4.2使用TBB
6.4.3parallel_for
6.4.4blocked_range
6.4.5Partitioners
6.4.6Parallel_reduce
6.4.7Parallel_invoke
6.4.8C++11相关
6.4.9TBB总结
6.5CilkPlus
6.5.1发展历史
6.5.2从TBB借用组件
6.5.3向TBB提供组件
6.5.4关键字拼写
6.5.5cilk_for
6.5.6cilk_spawn与cilk_sync
6.5.7Reducers(超对象)
6.5.8数组表示法与基本函数
6.5.9CilkPlus总结
6.6总结
6.7更多信息
……
第7章分载(Offload)
第8章协处理器架构
第9章协处理器系统软件
第10章协处理器的Linux系统
第11章数学库
第12章MPI
第13章采样和计时
第14章总结
术语表
1.1更加并行化
1.2为什么需要IntelXeonPhi协处理器
1.3协处理器平台
1.4第一款IntelXeonPhi协处理器
1.5控制“Ninja鸿沟”于一定范围
1.6移植与优化的双重优势
1.7何时使用IntelXeonPhi协处理器
1.8实现处理器性能最优
1.9为何扩展超过100个线程如此重要
1.10最大化并行程序性能
1.11评估高度并行执行的能力
1.12对于GPU是怎么样的
1.13易于移植,也易于提升性能
1.14性能移植
1.15超线程与多线程
1.16协处理器主要使用模型:MPI和Offload
1.17编译器和编程模型
1.18缓存优化
1.19案例和细节
1.20更多信息
第2章高性能封闭追踪测试驱动
2.1揭开引擎盖:协处理器详解
2.2发动汽车:与协处理器沟通
2.3轻松上路:首次运行代码
2.4开始加速:多线程运行代码
2.5全速行驶:使用所有核心
2.6轻松过弯:访存带宽
2.7高速漂移:内存带宽最大化
2.8总结
第3章一场乡间公路友谊赛
3.1赛前准备:本章重点
3.2初识赛道:9点模板算法
3.3起跑线上:9点模板基准程序
3.4路在前方:运行基准模板代码
3.5石子路上:向量化而未扩展
3.6全力比赛:向量化加上规模扩展
3.7扳手和润滑油:代码微调
3.7.1基准校正
3.7.2使用流存储
3.7.3使用2MB大型存储页
3.8总结
3.9更多信息
第4章都市畅游:实际代码优化案例
4.1选择方向:基本的扩散算法
4.2到达路口:计算边界效应
4.3寻找林荫大道:代码扩展化
4.4雷霆之路:保证向量化
4.5剥离:从最内层循环开始
4.6尝试辛烷含量更高的燃料:利用数据局部性与切片分块提升速度
4.7高速驾驶认证:高速旅行的总结
第5章大数据(向量)
5.1为什么向量化
5.2如何向量化
5.3实现向量化的五种方法
5.4六步向量化方法论
5.5通过Cache流:布局、对齐、预取数据
5.5.1为什么数据布局影响向量化性能
5.5.2数据校准
5.5.3预取
5.5.4流存储
5.6编译器技巧
5.6.1避免手动展开循环
5.6.2循环向量化的要求(英特尔编译器)
5.6.3内联的重要性,简单性能分析的干扰
5.7编译器选项
5.8编译器指导指令
5.8.1SIMD指令
5.8.2VECTOR与NOVECTOR指令
5.8.3IVDEP指令
5.8.4随机数函数向量化
5.8.5充分向量化
5.8.6—opt—assume—safe—padding选项
5.8.7数据对齐
5.8.8在数组表示法(ArrayNotation)中权衡向量长度
5.9使用数组段(ArraySection)支持向量化
5.9.1Fortran数组段
5.9.2CilkPlus数组段和元素函数
5.10查看编译器生成:汇编代码检测
5.10.1如何找到汇编代码
5.10.2快速查看汇编代码
5.11向量化数值结果差异
5.12总结
5.13更多信息
第6章多任务(非多线程)
6.1OpenMP、Fortran2008、IntelTBB、IntelCilkPlus、IntelMKL
6.1.1需在协处理器上创建任务
6.1.2线程池的重要性
6.2OpenMP
6.2.1并行处理模型
6.2.2指导性语句
6.2.3OpenMP上的有效控制
6.2.4嵌套
6.3Fortran2008
6.3.1DOCONCURRENT
6.3.2DOCONCURRENT以及数据竞争
6.3.3DOCONCURRENT定义
6.3.4DOCONCURRENT对比FORALL
6.3.5DOCONCURRENT对比OpenMP“Parallel”
6.4IntelTBB
6.4.1发展历史
6.4.2使用TBB
6.4.3parallel_for
6.4.4blocked_range
6.4.5Partitioners
6.4.6Parallel_reduce
6.4.7Parallel_invoke
6.4.8C++11相关
6.4.9TBB总结
6.5CilkPlus
6.5.1发展历史
6.5.2从TBB借用组件
6.5.3向TBB提供组件
6.5.4关键字拼写
6.5.5cilk_for
6.5.6cilk_spawn与cilk_sync
6.5.7Reducers(超对象)
6.5.8数组表示法与基本函数
6.5.9CilkPlus总结
6.6总结
6.7更多信息
……
第7章分载(Offload)
第8章协处理器架构
第9章协处理器系统软件
第10章协处理器的Linux系统
第11章数学库
第12章MPI
第13章采样和计时
第14章总结
术语表
Intel Xeon Phi coprocessor high-performance programming
- 名称
- 类型
- 大小
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×