NVIDIA Titan V: Bug en la Memoria Produce Errores Inesperados en Cálculos Científicos

La Tarjeta más potente al día del Fabricante NVIDIA con costo de $3000, un tamaño de Die de 815mm2 y 21.2 billones de transistores GV100 sufre un bug en la memoria que produce errores en los cálculos científicos y simulaciones. Como les habíamos reportado ya  en su lanzamiento Titan V  no es para Juegos sino para Investigación, Cálculo e IA.

DUkcWucXUAAeAp-

Errores en Cálculos Científicos:

Titan V, que fue introducida el pasado año 2017, es la GPU discreta más potente que existe en el mercado hoy. También es la más costosa Tarjeta Titan que NVIDIA haya sacado. De acuerdo a un Ingeniero que habló con The Register, la Titan V es incapaz de producir resultados confiables bajo ciertas condiciones específicas. Se dice que la tarjeta sufre de un bug muy precario que causa resultados inesperados a la hora de realizar 2 cálculos idénticos. Por ejemplo, al correr una simulación de interacción entre una proteína y una enzima, debería llegar exactamente al mismo resultado, sin embargo 2 de las 4 Titan V que se testearon acusaron errores mientras corrían la misma simulación.

El problema parece ser un Error en el Diseño de la Memoria:

Se piensa que los errores que presentan las Titan V son en sí un error de memoria, en concreto en el diseño de esta. Según un veterano de la industria que no quiso dar su nombre y que habló con The Register, NVIDIA habría llevado el hardware de su Titan V hasta el límite, y, a diferencia de tarjetas como las Quadro o AMD Radeon Pro, NVIDIA ha deshabilitado la corrección de errores en la misma. Estos dos problemas combinados, es lo que se supone que está produciendo el error al leer grandes porciones de datos de la memoria.

d-800x445

Los Científicos confían en los resultados del hardware, de otra forma sería imposible confiar en los resultados de las pruebas. Por tanto, esto es un verdadero problema, no poder confiar en lo que se tiene, es como tener una calculadora que hace cada tanto hace las mismas cuentas pero dando resultados diferentes.

Lo que responde NVIDIA:

Todas nuestras GPU hacen los cálculos en forma correcta. Toda nuestra línea Tesla, que tiene ECC (error-correcting code memory), ha sido diseñada para simulaciones de gran escala y de alto rendimiento. Cualquiera que encuentre problemas en nuestras tarjetas gráficas debería ponerse en contacto con support@nvidia.com.

 Fuente: wccftech, theregister

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s