GPU Pascal GP100 Nvidia: bandwidth besar, kinerja presisi ganda yang luar biasa

Tesla-Fitur

Selama setahun terakhir, para penggemar telah sedikit menunggu kedatangan kartu grafis generasi berikutnya. Node 28nm telah bertahan jauh lebih lama daripada generasi sebelumnya, dan sementara AMD dan Nvidia telah memperkenalkan banyak produk pada node tersebut, pelanggan jelas menginginkan peningkatan efisiensi daya dan kinerja yang dapat diberikan oleh node 14 / 16nm. Hari ini, Nvidia memamerkan Pascal versi HPC lengkap dan merinci apa yang akan ditawarkan kartu tersebut dibandingkan dengan produk Maxwell dan Kepler sebelumnya.

Fokus baru Pascal pada komputasi berkecepatan tinggi

Ketika Nvidia mendesain Maxwell, ia membuat desain untuk menghilangkan banyak kemampuan floating point presisi ganda yang dimasukkan ke dalam arsitektur Kepler sebelumnya. Tesla K40 lama, berdasarkan GPU GK110, mampu mencapai 1,68 TFLOPS / s, sedangkan Tesla M40, yang menggunakan Maxwell GM200, hanya bisa mencapai 213 GFLOP. M40 masih memiliki keunggulan dibandingkan K40 dalam hal floating point presisi tunggal, tetapi performa floating point presisi ganda dibatasi secara tajam. Seperti yang kita bahas minggu lalu, saat AMD meluncurkan FirePro-nya S9300 x2, ini membatasi jenis beban kerja di mana M40 dapat unggul.

Varian Pascal GP100 saat ini menambahkan kembali semua floating point presisi ganda yang hilang dari Maxwell - kemudian menambahkan beberapa lagi, hanya untuk pengukuran yang baik. Bagan di bawah membandingkan Kepler, Maxwell, dan Pascal. Perhatikan bahwa posting blog dev menyatakan bahwa Pascal dapat menyertakan hingga 60 SM, sedangkan varian yang dijelaskan di bawah hanya memiliki 56.



Grafik Pascal

Salah satu aspek menarik dari desain Pascal adalah bahwa Nvidia kembali mengurangi jumlah streaming core di setiap blok pemrosesan, atau SM dan mengadopsi rasio yang sama yang digunakan AMD, dengan setiap blok komputasi berisi 64 prosesor. Jumlah total prosesor streaming meningkat 17%, seperti halnya jumlah prosesor tekstur. Belum ada kabar tentang jumlah ROP, tetapi dengan asumsi Nvidia mengikuti pola historisnya, GP100 harus memiliki setidaknya 96 ROPS dan mungkin 128. Jam dasar juga naik 40% dari Maxwell, dan sementara jam Tesla biasanya lebih konservatif daripada rekan desktop mereka. , fakta bahwa Nvidia menghasilkan lompatan jam 40% dari silikon ini menunjukkan bahwa kita dapat menantikan keuntungan serupa ketika Pascal datang ke pasar konsumen.

Antarmuka memori adalah peningkatan generasi terbesar. HBM2 menawarkan bus 4096-bit dan bandwidth memori 720 GB / dtk, dibandingkan dengan bandwidth 336GB / dtk yang tersedia pada Titan X.

GP100

One Pascal SM.

Pascal juga menggunakan organisasi data yang lebih sederhana, penjadwalan yang lebih baik dengan efisiensi daya yang lebih baik, instruksi pemuatan / penyimpanan yang tumpang tindih, dukungan untuk antarmuka NVLink Nvidia, dukungan untuk floating point 16-bit (presisi setengah), dan peningkatan fungsi atom. GP100 juga mendukung memori ECC secara native, yang berarti tidak ada penalti performa atau penyimpanan untuk mengaktifkan fitur tersebut.

8-GPU-hybrid-kubus-mesh

Komunikasi GPU-GPU melalui NVLink.

Satu catatan tentang NVLink: Ada kebingungan di mana dan bagaimana bus ini digunakan. Secara umum, NVLink adalah metode untuk menghubungkan beberapa GPU satu sama lain, terutama koneksi silang dalam sistem multi-soket, di mana memaksa GPU yang terpasang ke dua CPU berbeda untuk berbicara satu sama lain akan menurunkan kinerja secara signifikan.

NVLink dapat digunakan untuk menghubungkan GPU ke CPU secara langsung, tetapi entri blog Nvidia menetapkan bahwa ini hanya berlaku untuk prosesor POWER.

4-GPU-CPU-Quad-206x300

Direct CPU - hubungan GPU dimungkinkan dengan perangkat keras Power

Diagram di atas dijelaskan sebagai berikut: “Gambar (di atas) menyoroti contoh sistem empat GPU dengan CPU berkemampuan NVLink ganda yang terhubung dengan NVLink. Dalam konfigurasi ini, setiap GPU memiliki kombinasi bandwidth dua arah sebesar 120 GB / dtk ke 3 GPU lainnya dalam sistem, dan bandwidth dua arah sebesar 40 GB / dtk ke CPU. ”

Nvidia juga mengklaim bahwa Pascal akan menawarkan 'Compute Preemption' dengan model komputasi yang ditingkatkan secara signifikan. Ini adalah salah satu area di mana Team Green sangat tertinggal dari AMD, yang kinerja komputasi asinkronnya jauh lebih kuat daripada apa pun yang dibawa NV. Asynchronous compute dan compute pre-emption bukanlah hal yang sama - kita harus menunggu pengiriman hardware untuk melihat bagaimana perbandingannya dengan implementasi AMD dan apa perbedaannya.

Lompatan ke depan yang mengesankan untuk HPC, tetapi belum ada tanggal peluncuran konsumen

Jelas bahwa Pascal akan secara signifikan meningkatkan posisi HPC Nvidia, dan itu penting karena perusahaan memiliki rencana besar untuk pembelajaran mendalam, mobil tanpa pengemudi, dan beban kerja HPC lainnya. Pascal sepertinya akan menjadi lawan yang kuat bagi Xeon Phi, pesaing utama Nvidia di bidang ini.

Namun, Nvidia tetap bungkam pada tanggal peluncuran konsumen, jadi kami harus menunggu dan melihat kapan teknologi ini berhasil masuk ke pasar massal. Rumor yang kami dengar dalam konteks lain menunjukkan bahwa perangkat keras HBM2 tidak akan memasuki pasar konsumen hingga akhir tahun ini karena harga awal yang tinggi untuk peralatan yang pertama kali dijalankan. Sangat mungkin bahwa Nvidia menggunakan GP100 untuk mengisi produk kelas atas awal, tetapi hanya akan beralih ke standar HBM2 untuk tingkat konsumen kelas atas pada paruh terakhir tahun 2016.

Ketika kartu-kartu itu benar-benar tiba, itu harus menjadi peningkatan yang signifikan atas Maxwell. Jumlah inti pada Pascal tidak jauh lebih tinggi dari Maxwell, tetapi kecepatan clock yang ditingkatkan akan mendorong kinerja yang lebih tinggi juga, dan itu sebelum peningkatan apa pun dari peningkatan efisiensi. Jika Anda berada di pasar untuk GPU baru tahun ini, saya sangat menyarankan menunggu untuk melihat apa yang NV dan AMD kirimkan di ruang konsumen jika itu memungkinkan.

Copyright © Seluruh Hak Cipta | 2007es.com