NVIDIA-SMI ha fallado porque no se pudo comunicar con el controlador NVIDIA. Asegúrese de que el último controlador NVIDIA esté instalado y funcionando


23

Acabo de instalar CUDA en un cuaderno como este:

sudo apt-get install cuda

Como dijo aquí .

La compilación funciona bien, pero cuando intento ejecutar me sale el siguiente problema: error de CUDA en file.cu:128 código = 35 (cudaErrorInsufficientDriver) "cudaStreamCreate (& (stream [i]))"

Mi versión nvcc:

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2016 NVIDIA Corporation
Built on Tue_Jan_10_13:22:03_CST_2017
Cuda compilation tools, release 8.0, V8.0.61

Información de la tarjeta gráfica:

lspci | egrep 'VGA|3D'
00:02.0 VGA compatible controller: Intel Corporation Skylake Integrated Graphics (rev 06)
02:00.0 3D controller: NVIDIA Corporation GM107M [GeForce GTX 960M] (rev a2)

También instalé VirtualGL, bumblebee-nvidia, primus, freeglut3-dev. Siguiendo esto .

Cuando intento ejecutar algo en abejorro, obtengo esto: optirun glxspheres64

[   41.413478] [ERROR]Cannot access secondary GPU - error: Could not load GPU driver
[   41.413520] [ERROR]Aborting because fallback start is disabled.

El controlador nvidia no funciona.

nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Parece que la versión nvidia 375 está instalada, pero no puedo hacer que funcione.

whereis nvidia
nvidia: /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-375-375.66/nvidia

Y algo de información del conductor.

modinfo nvidia_375
filename:       /lib/modules/4.8.0-54-generic/updates/dkms/nvidia_375.ko
alias:          char-major-195-*
version:        375.66
supported:      external
license:        NVIDIA
srcversion:     68751AFD79A210CEFFB8758
alias:          pci:v000010DEd00000E00sv*sd*bc04sc80i00*
alias:          pci:v000010DEd*sv*sd*bc03sc02i00*
alias:          pci:v000010DEd*sv*sd*bc03sc00i00*
depends:        
vermagic:       4.8.0-54-generic SMP mod_unload modversions 
parm:           NVreg_Mobile:int
parm:           NVreg_ResmanDebugLevel:int
parm:           NVreg_RmLogonRC:int
parm:           NVreg_ModifyDeviceFiles:int
parm:           NVreg_DeviceFileUID:int
parm:           NVreg_DeviceFileGID:int
parm:           NVreg_DeviceFileMode:int
parm:           NVreg_UpdateMemoryTypes:int
parm:           NVreg_InitializeSystemMemoryAllocations:int
parm:           NVreg_UsePageAttributeTable:int
parm:           NVreg_MapRegistersEarly:int
parm:           NVreg_RegisterForACPIEvents:int
parm:           NVreg_CheckPCIConfigSpace:int
parm:           NVreg_EnablePCIeGen3:int
parm:           NVreg_EnableMSI:int
parm:           NVreg_TCEBypassMode:int
parm:           NVreg_UseThreadedInterrupts:int
parm:           NVreg_MemoryPoolSize:int
parm:           NVreg_RegistryDwords:charp
parm:           NVreg_RmMsg:charp
parm:           NVreg_AssignGpus:charp

Creo que puede ser un problema de versión del controlador:

dpkg -l | grep nvidia
ii  bumblebee-nvidia                            3.2.1-10                                      amd64        NVIDIA Optimus support using the proprietary NVIDIA driver
ii  nvidia-375                                  375.66-0ubuntu0.16.04.1                       amd64        NVIDIA binary driver - version 375.66
ii  nvidia-375-dev                              375.66-0ubuntu0.16.04.1                       amd64        NVIDIA binary Xorg driver development files
ii  nvidia-modprobe                             375.51-0ubuntu1                               amd64        Load the NVIDIA kernel driver and create device files
ii  nvidia-opencl-icd-375                       375.66-0ubuntu0.16.04.1                       amd64        NVIDIA OpenCL ICD
ii  nvidia-prime                                0.8.2                                         amd64        Tools to enable NVIDIA's Prime

¿Qué me estoy perdiendo?


¿Cómo instalas los controladores?
Charlie Parker el

Enfrenté el mismo error y ninguna de las respuestas funcionó. Lo que hizo fue un trabajo sencillo: $ reboot now.
darthbhyrava

Respuestas:


14

Si nvidia-smino pudo comunicarse pero ha instalado el controlador tantas veces, verifique prime-select.

  1. Corre prime-select querypara obtener todas las opciones posibles. Deberías ver al menos nvidia | intel.
  2. Elija prime-select nvidia.
  3. Si dice nvidia is already selected, seleccione uno diferente, por ejemplo prime-select intel, luego vuelva a nvidiaprime-select nvidia
  4. Reiniciar y verificar nvidia-smi.

Me ayudó. ¡Gracias!
Yaroslav Schubert

uh oh, prime-select queryni siquiera enumeré información, supongo que tengo 2 problemas ahora ...
Inspi

11

Es posible que desee instalar el kit de herramientas de Cuda. Usando el siguiente comando para instalarlo.

sudo apt install nvidia-cuda-toolkit

Una vez que se realiza la instalación, reinicie la máquina. nvidia-smiDeberia trabajar.


funciona para mi !!
x0v

Esto funciona para mí
Sundeep

66
No funcionó aquí
Bill Kotsias

1
no hagas esto si tienes cuda> = 10. Reducirá tu cuda a 9, que está disponible actualmente en ubuntu sin CUDA PPA.
loretoparisi

Haciendo sudo apt-get purge nvidia-*antes, entonces la línea anterior arregló todo lo relacionado con CUDA para mí, instalé el controlador 430 con CUDA 10.1
Dinari

6

Deshabilité el arranque seguro y funcionó bastante bien.

@ rod-smith respondió otra pregunta más específica que explica cómo hacerlo, básicamente es una configuración de configuración, pero también escribe un buen artículo sobre cómo hacerlo aquí .


2
¡También me ayudó con el controlador nvidia 390! Nunca pensé que podría ser debido a un arranque seguro, gracias :)
samutamm

El modo UEFI con arranque seguro deshabilitado ya se ha hecho aquí. =) Parece que no funciona para todos, desafortunadamente.
Renan Willian Prado

3

Como no puedo comentar la respuesta de @ Rodolfo arriba (no hay suficiente reputación), estoy agregando una nueva respuesta.

En mi máquina tuve que configurar el arranque seguro de acuerdo con mi sistema operativo. Tengo una placa base ASUS que ejecuta Ubuntu 18.04 e intenté instalar NVIDIA CUDA 10.1 Update 2 con el controlador NVIDIA empaquetado. Me enfrenté al mismo problema que el descrito anteriormente. Al final resultó que, el arranque seguro se configuró en modo UEFI de Windows. Cambiarlo a otro sistema operativo me lo arregló.


1
¡Gracias, tuve que desactivar lo Secure Bootque se volvió a activar automáticamente durante una actualización automática de Windows / BIOS! Ahora nvidia funciona bien.
Bill Kotsias

¿Le importaría explicar cómo cambió el arranque seguro a Otro sistema operativo ?
Inspi

1
@BillKotsias gracias! : D
Marek

1

Para futuros lectores:

Estoy en una instancia de máquina virtual (Google Cloud Platform)

y estoy siguiendo esta esencia para instalar Cuday CuDNnen mi VM.

Tuve que cargar manualmente la CuDNnparte. (Solo poniéndolo allí).

Ahora, llegando al error:

Estaba teniendo este problema, pero un reinicio completo de la instancia hizo el trabajo. Y por reinicio completo me refiero a detener la instancia y volver a encenderla.

Espero que esto ayude a alguien.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.