第761章 CUDA决赛（1/2）

有做空的必然也有承接盘，特别是像课程表这类大盘股，除了部分做空机构会做多对冲风险外，还有国家队、大机构以及一些券商们，都在趁着做空机构发布看空的时候，悄悄吸筹。

这也导致了课程表股价在200元左右反复拉扯，一会跌破了200港元，一会又被做多的拉到了210。

总之这场突如其来的金融暗战，课程表团队沦为了看客，或者说并未主动参与其中。

3月14日-15日，人大选举产生了新一届的国家领导班子。

随着新一届领导班子的诞生，此届人大会议也渐渐进入了尾声。

与此同时，申城交大那边的CUDA决赛个人赛也已经结束，只剩下最后一组团队赛还未进行评审。

“今天已经有了两组选择了量化交易，看来你们对这个领域是非常看好啊”

张明拿起话筒，笑呵呵说道。

从上午的个人赛到下午的团队赛，整整一天，他也见识到了不少技术高手。

特别是团队赛这边，除了之前的两组选择了量化交易系统外，还有团队做出了跨境金融数据实时并行分析与风险预警系统。

这都还能理解，毕竟金融领域对于计算的需求一直都比较旺盛，而当看到计算机与医学结合的CT影像系统时，还是超出了他的预期。

他根本就没想到学生团队能把GPUDirect技术与医疗重建算法融合得这么成熟，这完全达到了商用级。

看来这次大赛还真是炸出了不少牛人了。

崔天意团队将提交物上交，包含了系统完整可运行原型、技术白皮书、性能检测报告以及1年历史数据回测报告和商业白皮书。

随着CUDA组委会的工作人员开始针对系统进行技术测试，重点检查超高频行情优化。

“你的技术白皮书上说可以支持45万笔/秒的行情处理？”

“是的，老师”

“是最高承压45万？还是说稳定支持这个数？”

张明继续问道。

“稳定运行40万笔/秒，高并发处理可以达到45万笔/秒”

崔天意回道。

“今天关于量化交易这块，你们的数据是最高的，请问你们的系统如何基于CUDA 5实现45 万笔/秒的高并发处理？相比CPU集群，GPU优化的核心突破点在哪里？”

“核心通过三层CUDA优化实现高并发”

他沉思数秒，开始作答。

“一是利用动态并行技术，主内核根据行情类型自主启动子内核，如套利策略子内核、数据清洗子内核，无需CPU调度，减少上下文切换耗时”

“二是针对Feri架构优化线程布局，线程块设为256，适配32线程特性，共享内存按数据类型分区缓存，避免bank flict，内存带宽利用率提升至78%”

“三是通过GPU流，实现数据预处理与策略计算异步并行，隐藏数据传输延迟”

“突破点呢？”

张明记录下选手的回答，接着问道。

这个问题比较简单，崔天意只是略做思考，便给出了答案。

“相比CPU集群，核心突破点在单节点效率”

“CPU集群依赖节点间通信，延迟高且易出现负载不均，而我们的双GPU协同方案，可以通过CUDA MecpyPeer实现GPU间直接数据传输，单节点处理能力达CPU集群8节点水平，且硬件成本仅为其1/3”

“Feri M2090GPU显存仅4GB，如何支撑45万笔/秒行情的实时存储与计算，又避免显存溢出？”

“我们采用三级内存分层管理方案解决显存瓶颈”

崔天意思路片刻，继续答道。

“首先是常量内存存储策略参数，如套利阈值、VAR系数，这些不会超过128MB”

本章未完，点击下一页继续阅读。