[PYTHON] Traitement de l'erreur CUDA "Lors de la tentative de récupération de la valeur au lieu de la gestion de l'erreur Interne: échec de l'obtention de l'attribut 13 de l'appareil pour l'appareil 0: CUDA_ERROR_UNKNOWN: erreur inconnue" dans l'apprentissage en profondeur

Objectif

Lorsque vous essayez d'apprendre par apprentissage profond à l'aide de GPU, L'erreur suivante peut se produire.

2019-11-18 04:16:42.405806: F tensorflow/stream_executor/lib/statusor.cc:34] Attempting to fetch value instead of handling error Internal: failed to get device attribute 13 for device 0: CUDA_ERROR_UNKNOWN: unknown error

Même si vous recherchez sur le net la cause de cette erreur, Il n'y a pas de très bonnes informations. Peut-être que je ne comprends tout simplement pas l'anglais ou le chinois.

Montrez que vous pouvez le comprendre à votre manière.

Montrez l'environnement pour référence

tensorflow           1.14.0
tensorflow-estimator 1.14.0
tensorflow-gpu       1.14.0

Contre-mesures d'erreur

C'est peut-être une version de tensorflow, mais Comme un cas Juste à court de mémoire (dans ce cas, la mémoire CPU, pas la mémoire GPU) Et cette erreur J'ai confirmé qu'il sortira.

si, ** Si vous pouvez réduire l'utilisation de la mémoire du processeur Veuillez essayer. ** **

Au fait, Je n'ai aucune idée de ce qu'est cette erreur. (Ce n'est peut-être pas une erreur compréhensible.)

Une autre erreur (totalement non résolue.)

L'erreur suivante peut se produire. En premier lieu, je ne comprends pas bien la signification du message d'erreur. Même si je le recherche en ligne, il n'y a aucune information utile.

Extrait d'erreur

RuntimeError: CUDA out of memory. Tried to allocate 64.00 MiB (GPU 0; 4.00 GiB total capacity; 2.90 GiB already allocated; 30.80 MiB free; 9.54 MiB cached)

L'ensemble

D:\_mish1\Mish-master\Mish-master\Examples and Benchmarks>python _res50_1.py
Files already downloaded and verified
Files already downloaded and verified
Traceback (most recent call last):
  File "_res50_1.py", line 329, in <module>
    logps = model.forward(inputs)
  File "_res50_1.py", line 242, in forward
    x = self.conv2(x)
  File "C:\Users\XYZZZ\AppData\Roaming\Python\Python37\site-packages\torch\nn\modules\module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "C:\Users\XYZZZ\AppData\Roaming\Python\Python37\site-packages\torch\nn\modules\container.py", line 92, in forward
    input = module(input)
  File "C:\Users\XYZZZ\AppData\Roaming\Python\Python37\site-packages\torch\nn\modules\module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "_res50_1.py", line 208, in forward
    return f_mish(self.split_transforms(x) + self.shortcut(x))
  File "C:\Users\XYZZZ\AppData\Roaming\Python\Python37\site-packages\torch\nn\modules\module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "C:\Users\XYZZZ\AppData\Roaming\Python\Python37\site-packages\torch\nn\modules\container.py", line 92, in forward
    input = module(input)
  File "C:\Users\XYZZZ\AppData\Roaming\Python\Python37\site-packages\torch\nn\modules\module.py", line 547, in __call__
    result = self.forward(*input, **kwargs)
  File "C:\Users\XYZZZ\AppData\Roaming\Python\Python37\site-packages\torch\nn\modules\batchnorm.py", line 81, in forward
    exponential_average_factor, self.eps)
  File "C:\Users\XYZZZ\AppData\Roaming\Python\Python37\site-packages\torch\nn\functional.py", line 1656, in batch_norm
    training, momentum, eps, torch.backends.cudnn.enabled
RuntimeError: CUDA out of memory. Tried to allocate 64.00 MiB (GPU 0; 4.00 GiB total capacity; 2.90 GiB already allocated; 30.80 MiB free; 9.54 MiB cached)

Résumé

Si quelqu'un peut voir cela et résoudre le problème, je serais reconnaissant.

Lié (personne)

Utilisez python sans stress! (Familiarisez-vous avec le générateur. Il semble que ce soit depuis 1975.) Utilisez python sans stress! (En Python, tout est implémenté en tant qu'objet) Utilisez python sans stress! (Près de Pylint) Utilisez python sans stress! (Expression et déclaration) Apprenez soigneusement Python en anglais et en japonais.

à partir de maintenant

Si vous avez des commentaires, veuillez nous le faire savoir. : bonbons: Étudiera,

Recommended Posts

Traitement de l'erreur CUDA "Lors de la tentative de récupération de la valeur au lieu de la gestion de l'erreur Interne: échec de l'obtention de l'attribut 13 de l'appareil pour l'appareil 0: CUDA_ERROR_UNKNOWN: erreur inconnue" dans l'apprentissage en profondeur
Traitement de l'erreur Python "Erreur d'attribut: le module'scipy.misc 'n'a pas d'attribut" dimensionnement "" dans l'apprentissage en profondeur
Contre-mesures pour l'erreur "Impossible d'obtenir le répertoire supérieur" lors de l'utilisation du Deep Learning ② fait à partir de zéro avec le spyder d'ANACONDA
Traitement de l'erreur Tensorflow "Erreur d'importation: échec du chargement de la DLL: module spécifié introuvable" dans l'apprentissage en profondeur
Que faire lorsque vous vous fâchez avec "Value Error: unknown local: UTF-8" dans python manage.py syncdb