高性能计算
Linux HPC (高性能计算)
在买球平台的高性能计算
最初只支持一个系的一个教员, 买球平台HPC环境现在支持各种学科的教师和学生, 包括生物学, 化学, 计算机科学, 数字与计算研究, 环境研究, 经济学, 地质, 历史, 社会学, 数学, 和物理, 以及许多学生和教师的个人研究项目.
在Linux HPC环境中可以使用各种各样的软件包和编程语言, 无论是商业的还是开源的, 包括但不限于ADF, 野兽, C, C++, CUDA, Fortran, 游戏, 高斯, 草, IDL, Java, 数学ematica, Matlab, Mopac, NBO, NWChem, Perl, Python, R(连同RStudio), Ruby, 圣人, SPSS, Stata-MP, SuperMongo, 还有数百个.
There are two different methods for using the Linux HPC resources; interactively, 并通过管理HPC集群的批调度程序.
交互式计算
交互式计算是大多数人使用计算机的方式. 这实际上是坐在一台电脑前, 运行程序, 并通过GUI(图形用户界面)或命令行界面与这些程序进行交互. 检查电子邮件、浏览网页和编写文档都是交互式计算的例子. 如果您正在运行任何显示图形的软件,您将使用交互式计算, 或者需要在程序运行时与程序进行手动交互, 比如输入更多的数据, 输入附加信息, 或者点击一个图标. 当您能够在计算机前完成您的目标时,最好使用交互式计算, 当你离开的时候,你可以退出这个项目, 当你离开电脑时,你并没有离开正在运行的电脑。.
买球平台计算集群
Bowdoin计算集群是一组看起来像一个大的Linux服务器, 多处理器, 可以并发运行许多计算密集型作业的计算服务器. Cluster支持范围广泛的作业,从简单的shell脚本到繁重的计算作业和并行进程. 在典型的桌面计算机上花费数天时间完成的作业,在Cluster环境下只需数小时即可完成, 从而释放桌面计算机用于其他任务,而集群资源则在专用计算节点上处理作业. 人们通过Slurm与买球平台计算集群进行交互, 哪一种软件环境能够协调多台计算机的资源. Slurm接受工作, 将它们放在等待队列中,直到它们可以运行, 将它们发送到计算节点, 在运行期间管理它们, 并在完成时通知用户.
通常情况下,如果一个作业需要在台式机上运行几个小时以上, 或者桌面机器需要可用于其他任务, 您应该考虑在集群上运行作业.
Bowdoin维护一个超过1个的高性能计算集群,跨越50多个节点的400个处理核心,具有各种内存配置(从384 Gb到2 Tb), 和20个NVIDIA gpu. 所有现有的教师都可以访问该集群, 学生和工作人员没有额外的费用或退款. 一个专门的高性能计算主任维护集群,并与教师密切合作, 学生和员工安装和维护通用和专用软件. 集群除了使用JupyterHub和我们的HPC Web Portal (Open OnDemand)外,还使用Linux操作系统上的Slurm工作负载管理器。.
HPC社区@Bowdoin
- “我的合作者, 蒂姆·迪沃尔来自印第安纳州立大学, 我使用HPC对高通量DNA测序数据进行生物信息学分析. DNA序列是一项元条形码研究,以了解新热带蝙蝠物种的饮食, 吃青蛙的蝙蝠. T. 肝硬化已经在圈养环境中得到了很好的研究,因为它通过窃听青蛙的叫声来捕猎青蛙, 但它们在野外的饮食基本上是未知的. 我们收集了100多只T的粪便样本. 在巴拿马的干湿季节,肝硬化个体持续数年. 然后我们对两个基因区域进行了测序, 16S和CO1(分别采用454测序和illumina测序), 从粪便样本中的猎物残骸中提取. 我们正在使用HPC对这些下一代测序方法产生的数百万个序列进行排序和分类. 我们的目标是能够第一次全面描述这种蝙蝠的饮食, 同时评估成年和未成年鱼的饮食有何不同, 跨捕获站点, 跨越季节. 了解一个物种的饮食是更好地了解其生态的第一步, 以及潜在的保护方法.——帕特里夏·琼斯,生物学
- “我最近的几个项目涉及福利等公共援助如何影响儿童的长期结果. 例如, 其中一个项目侧重于公共援助在延缓某些疾病或病症(如糖尿病)发病方面的作用, 哮喘, 还有高血压. 这需要纵向数据,我们可以跟踪人们从童年到成年. 该项目采用收入动态小组研究(PSID), 一个从1968年开始跟踪家庭到今天的年度样本. 对几千个家庭进行了40年的跟踪调查,得到了大量的人口统计信息, 收入, 劳动, 健康, 等. 该研究使用计算密集的潜在变量方法估计了不良健康发病年龄的过渡模型,该方法允许对家庭收入和公共援助进行联合建模. HPC环境允许我估计使用最多几天CPU时间的模型, 一次运行不止一个 . 这在台式计算机上是不可行的.——约翰·菲茨杰拉德《经济学
- “我正在使用深度神经网络来研究理论数学中的一个问题:两个矩阵相乘所需的最小标量乘法次数是多少?. 这是一个长期存在的问题,从未使用机器学习进行分析. 基于一些使用买球平台图形处理器的初步实验, 看起来,目前已知的乘法次数界限可以得到改进, 可能大幅.——托马斯·彼得拉霍《数学
- “我是一名生物学家,研究缅因湾海洋生物对不断变化的水域的反应以及适应的潜在遗传机制. 为了完成我的工作, 我使用Bowdoin HPC Grid来对齐和分析DNA和RNA序列的大型数据集. 除了, 我利用高性能计算网格的计算能力,将潜在的遗传变异与对野生生物有影响的特征联系起来, e.g. 贻贝在酸性水中的外壳形成能力如何.
在秋天, 我的买球平台海洋科学学期的学生学习使用HPC网格上的生物信息管道来调查缅因湾原生潮间带蜗牛物种的种群基因组模式. These snails exhibit physical differences between populations in sheltered shorelines versus wave-exposed shorelines; the BMSS students utilized next generation sequencing techniques and the HPC to discern the genetic architecture underlying these physical differences.
2017年春季学期, 我教授的课程是组学革命:生物学领域的计算基因组学和大数据, 让学生学习如何使用HPC网格来分析“组学”领域中常见的各种大规模数据集. 组学革命的学生将选择一个问题和现有的感兴趣的组学规模数据集, 分析这些数据来验证他们的假设, 然后写一篇科学论文总结他们的发现.——莎拉·金斯顿,生物学 - “自2001年以来,我将阿姆斯特丹密度泛函(ADF)计算纳入我与学生的研究工作中. ADF计算使他们能够更好地理解含有金属(如铂)的分子的键合和光化学性质, 黄金, 铱, 钌, 和锇. 大约从2005年开始, 我增加了一个计算化学项目作为化学3400的一部分, 高级无机化学课程. 该项目要求学生对他们选择的分子进行ADF计算, 并写一份报告,描述和解释计算结果. 这个项目是本课程其他部分的补充, 除此之外, 为对化学研究生工作感兴趣的学生提供宝贵的计算化学经验. 自2008年以来, Bowdoin高性能计算网格使我们能够运行更大的任务, 同时做多份工作, 与在台式电脑上运行相比,这是一个很大的改进, 而且还可以腾出桌面电脑来执行其他任务.——Jeff Nagle,《化学
- “HPC网格已经成为教学和使用计算文本分析进行研究的重要资源. I was able to be up and running quickly; the process is not intimidating. 在我的第一年研讨会“如何阅读”的学生,000,“000本书”使用用R编写的程序来隔离语言使用模式.从谷歌图书收集的20亿个数据点. 我的不同研究项目使用较小的数据集:100万条推文, 近46,000篇期刊文章, 将近1,000本书. 有了HPC,我可以在不占用教学和日常活动用的电脑的情况下进行分析,我的学生研究助理也可以这样做, 这有助于合作. 有时这意味着重新配置一个包含数十亿个元素的矩阵, 其他时候,它意味着创建数千个较小的文档进行比较. 完成这些工作, 并在合理的时间框架内完成, 没有高性能计算是不可能的.——Crystal Hall,《数字与计算研究
- “我和我的学生使用买球平台计算网格对黑洞进行数值相对论模拟. 爱因斯坦的引力理论, 广义相对论, 在爱因斯坦的方程里, 一组复杂的偏微分方程. 这些方程只有在特殊情况下才能精确解出. 在一般情况下, 为了研究黑洞的行为和相互作用,我们必须依靠一些近似技术, 以及它们发出的引力辐射. 一种特别强大的技术是数值模拟. 近年来,我们使用这种“数值相对论”模拟来研究, 例如, 由两个绕轨道运行的黑洞组成的双星, 以及黑洞形成过程中所谓的“临界现象”. 这些模拟需要大量的计算资源,并且只能在高性能计算环境中执行. 在买球平台拥有这样的资源是非常有用的.——托马斯·鲍姆加特,《物理学
- “我正在利用HPC来研究板球对损伤的神经元可塑性. 博士. 霍希的湿实验室, 我们从成年雄性蟋蟀的末端神经节中提取了RNA,现在正在根据这些序列构建转录组. 到目前为止,我们已经使用HPC Grid来运行bowtie、Fastqc、trim等程序! 构建我们的转录组. 寻找与神经元可塑性相关的导分子、狭缝和信号蛋白等候选靶点, 我们将在高性能计算网格上使用Trinity程序套件并进行差异分析. 高性能计算的高计算能力使我可以轻松地提交不使用计算机本地资源的作业, 也不会花几年的时间来完成我正在处理的高容量文件. 如果没有HPC网格,我不可能以彻底或有效的方式完成我的项目.——Meera Prasad,生物和宗教研究双学位
- "我是一名经济学和数学专业的学生,HPC一直是我与教授一起研究的重要资源. 在经济系的纳尔逊教授和我的独立研究. 彼得拉霍在数学系. 在我的经济学研究中,我使用HPC应用机器学习包来估计可能性,并描述影响缅因湾渔点的因素. 该数据集包含21个生物心理和社会经济变量,约为2.在缅因湾的600万座标上. HPC的处理能力允许对这个数据集进行简单的分区,以了解这些变量如何相互作用, 然后可以用哪个来分类相应的钓鱼点的发生. 另一方面, 在我独立学习数学时,我正在使用深度神经网络对图像进行分类. 我们的目标是使用一个预先训练好的神经网络,它已经在一个大数据集和多个类别上进行了训练,然后在我的小数据集上重新训练它. 这样的再训练可以让我们探索如何探索分类的准确性是如何受到影响的. 我的两个项目都不可能在我的PC上实现. 在探索我的研究问题和揭开计算世界的神秘面纱方面,HPC一直是一个伟大的促进者.——Parikshit Sharma,经济学和数学专业
- “我主修神经科学,辅修数学,使用HPC进行生物信息学方面的研究,研究蟋蟀受伤后的补偿性生长反应. 在实验室, 我采集了21只雄性成年蟋蟀的前胸神经节进行RNA提取和测序. 2016年夏天,我使用HPC Grid上的Trinity程序套件,组装了一个 新创 RNAseq转录组读取数据并使用EdgeR进行差异表达分析. 我也用过领结, FastQC, BLAST套件, 以及在高性能计算机上的Tophat来进一步分析我的数据集. 在对我的转录组中的引导线索肽肽进行初步表征后, 我的目标是通过差异表达分析来确定新的候选基因,以参与对损伤的补偿可塑性反应. 网格的高计算能力和提交不需要计算机本地资源的作业的能力对我的项目非常有益.——神经科学专业的哈里斯·费舍尔
买球平台HPC的历史
2003年春-创建专门的物理集群(共16个CPU核心),支持Thomas Baumgarte的一个计算应用程序
2008年春季-雇用Dj Merrill来支持HPC /研究计算
2008年秋季-创建通用高性能计算SGE网格,以支持校园范围内的研究. 化学系的丹·奥利里(Dan O’leary)是第一个使用新资源的教员
2009年秋季——HPC的使用扩展到课堂教学环境, 支持研究和学术使用. 化学, 计算机科学, 数学, 物理, 地质, 经济学, 和生物学都在积极地使用高性能计算环境
2010年春季——代码从旧的物理集群移植到新的HPC网格
2010年夏天-专业物理集群退役
2010年夏天- Dhiraj Murthy, 社会学, 开始使用HPC环境来分析推特内容
2011年夏天——GPU计算能力被添加到HPC网格中
2012年秋季-数字与计算研究专业成立
2013年夏天,Gluster高速数据存储解决方案被添加到HPC环境中
2014年夏季-校园核心服务器环境升级. 这些系统中的“最佳”被重新用作HPC计算节点,打破了500个CPU核心的障碍
2014年夏天——莎拉·金斯顿, 生物学, 开始使用高性能计算环境进行生物信息学研究
2015年夏季-升级HPC核心网络,使用Cisco的10gb超低延迟Nexus 3548交换机, 提供与Infiniband网络相当的速度
2016年夏季- Sarah Kingston教授使用Bowdoin计算网格运行生物信息学分析的研讨会
2016年秋季-机构研究,分析 & 咨询部开始使用HPC环境进行数据集分析, 代表第一次商业(非学术)使用
2017年冬季-除了正常的研究工作, 多个类, 一篇荣誉论文, 一些独立的研究正在使用高性能计算环境.
2021年冬季- SGE Grid软件被Slurm Cluster软件取代.
当前状态:~1400个CPU内核, 20块GPU卡, 15+商业应用, 数百个开源应用程序