第761章 CUDA决赛(1/2)
有做空的必然也有承接盘, 特别是像课程表这类大盘股,除了部分做空机构会做多对冲风险外,还有国家队、大机构以及一些券商们,都在趁着做空机构发布看空的时候,悄悄吸筹。
这也导致了课程表股价在200元左右反复拉扯,一会跌破了200港元,一会又被做多的拉到了210。
总之这场突如其来的金融暗战,课程表团队沦为了看客,或者说并未主动参与其中。
3月14日-15日,人大选举产生了新一届的国家领导班子。
随着新一届领导班子的诞生,此届人大会议也渐渐进入了尾声。
与此同时,申城交大那边的CUDA决赛个人赛也已经结束,只剩下最后一组团队赛还未进行评审。
“今天已经有了两组选择了量化交易,看来你们对这个领域是非常看好啊”
张明拿起话筒,笑呵呵说道。
从上午的个人赛到下午的团队赛,整整一天,他也见识到了不少技术高手。
特别是团队赛这边,除了之前的两组选择了量化交易系统外,还有团队做出了跨境金融数据实时并行分析与风险预警系统。
这都还能理解,毕竟金融领域对于计算的需求一直都比较旺盛,而当看到计算机与医学结合的CT影像系统时,还是超出了他的预期。
他根本就没想到学生团队能把GPUDirect技术与医疗重建算法融合得这么成熟,这完全达到了商用级。
看来这次大赛还真是炸出了不少牛人了。
崔天意团队将提交物上交,包含了系统完整可运行原型、技术白皮书、性能检测报告以及1年历史数据回测报告和商业白皮书。
随着CUDA组委会的工作人员开始针对系统进行技术测试,重点检查超高频行情优化。
“你的技术白皮书上说可以支持45万笔/秒的行情处理?”
“是的,老师”
“是最高承压45万?还是说稳定支持这个数?”
张明继续问道。
“稳定运行40万笔/秒,高并发处理可以达到45万笔/秒”
崔天意回道。
“今天关于量化交易这块,你们的数据是最高的,请问你们的系统如何基于CUDA 5实现45 万笔/秒的高并发处理?相比CPU集群,GPU优化的核心突破点在哪里?”
“核心通过三层CUDA优化实现高并发”
他沉思数秒,开始作答。
“一是利用动态并行技术,主内核根据行情类型自主启动子内核,如套利策略子内核、数据清洗子内核,无需CPU调度,减少上下文切换耗时”
“二是针对Feri架构优化线程布局,线程块设为256,适配32线程特性,共享内存按数据类型分区缓存,避免bank flict,内存带宽利用率提升至78%”
“三是通过GPU流,实现数据预处理与策略计算异步并行,隐藏数据传输延迟”
“突破点呢?”
张明记录下选手的回答,接着问道。
这个问题比较简单,崔天意只是略做思考,便给出了答案。
“相比CPU集群,核心突破点在单节点效率”
“CPU集群依赖节点间通信,延迟高且易出现负载不均,而我们的双GPU协同方案,可以通过CUDA MecpyPeer实现GPU间直接数据传输,单节点处理能力达CPU集群8节点水平,且硬件成本仅为其1/3”
“Feri M2090GPU显存仅4GB,如何支撑45万笔/秒行情的实时存储与计算,又避免显存溢出?”
“我们采用三级内存分层管理方案解决显存瓶颈”
崔天意思路片刻,继续答道。
“首先是常量内存存储策略参数,如套利阈值、VAR系数,这些不会超过128MB”
本章未完,点击下一页继续阅读。