En producción: consejos sobre fiabilidad – Parte 5/6

Por último, en esta parte termino con algunas preguntas frecuentes que me suelen hacer algunos usuarios. Con ellas espero resolver algunas dudas y esperar que este manual de 5 partes te haya servido de ayuda para poder gozar de una mejor fiabilidad en tus entornos de producción y de alta disponibilidad.

Soy consciente de que es un tema algo aburrido, pero creo que era necesario, ya que en algunas otras páginas se pasa muy por encima en este tema o no se le da la importancia que merece. Pero muchos usuarios domésticos, autónomos, empresas y organizaciones suelen perder mucho tiempo y dinero cuando surgen los problemas (muchos de ellos se pueden solucionar aplicando esta guía).

En busca de la fiabilidad 3

Preguntas y respuestas frecuentes (FAQs)

FAQs, preguntas y dudas

Por último, agrego esta sección con algunas preguntas y respuestas frecuentes. Son preguntas relacionadas que he ido recopilando en mis tiempos de técnico y que solían generar bastantes dudas en los usuarios:

¿Dónde puedo encontrar buenas fuentes de análisis de fiabilidad?

Existen algunas fuentes bastante buenas en las que encontrar comparativas de fiabilidad de diferentes marcas en las que poder comprobar el componente que deseas adquirir. Aquí te dejo algunos donde encontrar datos sobre averías, fiabilidad, etc.:

¿Es un SSD fiable?

Al principio, cuando comenzaron a comercializarse los primeros SSDs se dudaba sobre su fiabilidad debido a las células de memoria que usaban y que tenían un límite marcado, un número limitado de ciclos de acceso y tras eso, fallarían. No obstante, la mejora de las celdas de memoria actuales ha mejorado eso y, dentro de la vida útil del SSD, son más fiables que los HDDs al carecer de partes mecánicas.

Por ejemplo, para las antiguas flash basadas en celdas NOR se tenían límites de 10.000 hasta 100.000 ciclos. Algo similar le ocurre a las basadas en NAND,que llegan desde los 100.000 a los 1.000.000 de ciclos de borrado. Eso puede hacer que las medias de vida útil, según el uso, puedan ir de 10-20 años.

Deberías analizar el tipo de celdas de memoria que usa el SSD en cuestión, de ellas dependerá mucho su durabilidad, como se ha dicho en el párrafo anterior. Incluso dentro de las NAND existen varias tecnologías que afectan en este aspecto, como la SLC (Single Level Cell), MLC (Multi Level Cell), TLC (Triple Level Cell) y QLC (Quad Level Cell). Por ejemplo, si se comparan, se obtiene que QLC < TLC < MLC < SLC, tanto en rendimiento, resistencia, como en precio por GB. En cambio, para la densidad conseguida y la probabilidad de fallo queda así SLC < MLC < TLC < QLC.

GBW o TBW son unidades para estimar el número de bytes escritos sin producir un fallo en estas memorias. Mientras mayor sea, más duradero.

La SLC es la más antigua, pero solo puede almacenar un bit de información, aunque es la más rápida de todas y la que menor desgaste tiene. La QLC es la más reciente, capaz de almacenar 4 bits en cada celda, aunque es la más lenta y no es tan duradera. Pese a eso, las nuevas tecnologías de corrección de errores y nivelación han posibilitado que estas memorias puedan llegar perfectamente a los 300 TBW (Terabytes Writen).

¿Qué HDD es más robusto?

La robustez de un HDD va a depender de varios factores. Uno de ellos es el tamaño, por tanto, si el uso que le vas a dar al disco duro es «movido», mejor elige uno lo más pequeño posible. Por ejemplo, un 2.5″ resiste mejor los golpes o movimientos bruscos que un 3.5″.

Además, puedes ver los análisis de datos de las fuerzas G que aguantan. Esta resistencia es menor cuando están funcionando, ya que el cabezal impactaría contra el plato y se dañaría. En cambio, cuando están en reposo, el cabezal se encuentra fuera el espacio del plato y resiste golpes mayores. No obstante, un SSD puede aguantar golpes de hasta 10 o más fuertes que un HDD.

¿Puedo predecir el fin de vida de un disco duro?

Con exactitud no, pero sí que podrías anticiparte a ciertos problemas debidos a un uso prolongado de este tipo de dispositivos. Para ello, la tecnología S.M.A.R.T. de algunos discos duros es de gran ayuda, especialmente el factor «Power-on hours» (POH) o las horas que un dispositivo puede estar activo de forma confiable.

Algunos fabricantes aportan datos Power-on hours de sus unidades, mientras que otros lo hacen en ciclos. Por ejemplo, los WD Red pueden durar unos 600.000 ciclos de carga. En el caso de las horas, suelen durar una media de unos 5 años o 43.800 horas. Una vez se supera esa barrera de horas encendido, ya no se puede considerar como una unidad fiable y podría fallar en cualquier momento.

¿Un disco duro puede perder los datos si no lo uso?

La respuesta es sí. Los discos duros tipo HDD se deben almacenar bajo unas condiciones ambientales específicas para que los datos almacenados duren. Por lo general, la temperatura de almacenamiento debe estar entre 12ºC y 25ºC (*temperatura recomendada por Western Digital). Tanto las temperaturas muy bajas como las muy altas, pueden hacer que se degrade el disco. Además, la HR debe ser la adecuada, ya que una humedad muy alta puede hacer que los cabezales se deformen, e incluso que el eje/motor se desalineen. También pueden verse afectados por disrupción magnética de campos externos, por lo que deberías dejarles alejados de campos magnéticos (imanes, motores eléctricos,…). Incluso se recomienda que se almacenen por separado, ya que si los amontonas o se almacenan varios discos cerca, pueden interferir los campos de uno y otro (aunque muy levemente).

En cuanto al campo magnético de estos discos duros, ya sabes que pueden perder la intensidad con una cadencia del 1% por año aproximadamente. Por tanto, en unos años podría deteriorarse tanto (incluso almacenados de forma correcta), que comenzaría la corrupción de datos, pérdida de marcas de seguimiento, límites de sectores, etc. En definitiva, en condiciones ideales de almacenamiento, un HDD podría durar entre 10-20 años almacenado sin usar. Por tanto, para alargar su vida, puedes «refrescarlos» poniéndolos a funcionar de vez en cuando.

Eso también le ocurre a los SSD. En este caso también se ha podido comprobar que si se almacenan entre 25ºC y 40ºC, se podrían mantener los datos en buen estado hasta 105 semanas (casi 2 años). Esto sería para los discos duros empresariales. Las versiones para uso doméstico tienen una durabilidad inferior. Si se almacenan bajo esas mismas temperaturas, pueden llegar a periodos de retención de unas 20 semanas.

Estos datos podrían variar en función del tipo de celdas de memoria empleadas. Por ejemplo, las celdas NAND flash pueden alargar la vida de tus datos considerablemente.

Recuerda que un SSD usa transistores de puerta flotante, con unos electrones internos que son los que representan los datos almacenados. Si no se alimentan de energía durante largos periodos de tiempo, los datos pueden perderse debido a la atenuación de los electrones en la puerta flotante y no se podrían recuperar.

¿Qué componentes suelen fallar con mayor frecuencia?

Conocerlos te puede poner en alerta o centrar tus esfuerzos de mantenimiento a ellas. Existen algunas partes que suelen fallar con mayor frecuencia como (en orden de menos fiables a más fiables):

Antes de determinar que se trata de un fallo físico de un componente y sustituirlo: ¡limpia! Frecuentemente los fallos se deben a conexiones sucias, suciedad que está generando algún contacto, etc.

  1. Fuente de alimentación: es uno de los elementos que más suele fallar, además de generar también problemas en otros elementos a los que alimenta.
    • Causas de fallas: en condiciones normales debería durar mucho tiempo, incluso 10 años. Pero con las cargas de trabajo excesivas, suciedad, periodos prolongados de uso y sobrecargas de la red eléctrica, su vida útil se ve mermada.
    • Consejos: reduce al máximo el estrés de la PSU (evita tareas que sobrecarguen la unidad, como minería de criptomonedas, overclocking, alimentar componentes por encima de sus capacidades con adaptadores/divisores, etc.)
  2. Disco duro: un HDD y un SSD suelen fallar, pero por razones diferentes.
    • Causas de fallas: en el caso del HDD puede ser por golpes, platos rayados, problemas con la movilidad del cabezal, problemas en la PCB, etc. Mientras que en el SSD, los fallos más frecuentes se deben a exceso de temperatura o daños producidos por cortes de energía. También es frecuente que los problemas provengan de fallos en el firmware o, en el SSD, por lecturas con voltajes diferentes (cuando hay deterioro, las lecturas pueden fallar y el controlador del SSD reintenta la lectura con diferentes voltajes umbral), defectos en los chips, etc.
    • Consejos: mantén la temperatura del sistema a niveles seguros (un buen sistema de refrigeración y asegurarte de que la circulación en el interior de la carcasa no tiene obstáculos), evita golpes o movimientos bruscos, e invierte en un buen protector contra sobretensiones.
  3. RAM: los módulos de RAM son otro de los componentes que pueden pasar, aunque en condiciones ideales pueden tener una vida notablemente larga.
    • Causas de fallas: la temperatura y las subidas de tensión (por placa base o PSU defectuosa, picos,…) son dos de los principales enemigos de los módulos de memoria principal.
    • Consejos: invierte en una PSU con protección activa y pasiva para sobretensiones, asegurate de que la refrigeración es adecuada. Existen disipadores para módulos RAM que podrías usar en casos extremos.
  4. Placa base: muchos de los problemas de un PC tienen relación con la MB.
    • Causas de fallas: carecen de partes móviles, pero son muy complejas y delicadas. El promedio de fallas que se pueden dar en una placa base suele tener también una relación directa con el chipset empleado. Por lo general, aquellos chipset de gama alta suelen fallar un poco más (algo lógico debido a la mayor complejidad). No obstante, la principal causa de que una placa base deje de funcionar son los condensadores (perforaciones en el dieléctrico, fugas,…) y que a su vez pueden dañar otros componentes de hardware. Se pueden reemplazar, pero no es una tarea sencilla, ni algo que se pueda hacer con un soldador convencional… Además de los condensadores, también hay otras causas como la temperatura elevada, electricidad estática y humedad.
    • Conejos: controla la humedad relativa (HR) a niveles adecuados (45-50% HR), ventilando bien la habitación, usando deshumidificadores, etc. La HR promueve la acumulación estática. Controla también la temperatura, especialmente en verano en climas cálidos (>25ºC). El exceso de calor puede deformar la placa base, provocando cortocircuitos o rotura de componentes por tensión. Tampoco deberías tocar la placa base sin usar pulseras antiestáticas (conectada a tierra), ni tampoco golpear la placa.
  5. Lectores ópticos: suelen fallar, especialmente con el tiempo.
    • Causas de fallas: debido a suciedad en el láser y otros fallos mecánicos en el cabezal, o en la bandeja (si no son slot-in).
    • Consejos: aunque hay discos limpiadores, no suelen dar muy buen resultado. Lo mejor es evitar que esa suciedad llegue allí manteniendo el ambiente limpio y asegurando de que los discos no llevan suciedad cuando los introduces.
  6. CPU: no es tan frecuente que falle, aunque se puede dar el caso.
    • Causas de falla: una de las principales fallas es debido a la electromigración causada por el voltaje, frecuencia y temperatura elevada. Una combinación fatal. Puede acelerarse debido a prácticas como el OC. También puede haber problemas por un firmware defectuoso (UEFI/BIOS), e incluso podría fallar por escasez de suministro eléctrico por problemas en los condensadores (seguramente has observado que hay gran concentración de condensadores próximos al socket de una placa base, eso es debido a que la CPU necesita un suministro constante y considerable).
    • Consejos: compra una PSU con una alimentación lo más estable posible, asegúrate de que la refrigeración sea la adecuada, y usa una pasta térmica de calidad.
  7. Refrigeración: las hay de aire pasiva (disipador) y activa (disipador+ventilador), y líquida pasiva (heatpipe) y activa (con bomba), pero me centraré en la activa de aire, que es la más usual.
    • Causas de fallos: son elementos que giran a altas velocidades (RPM). Por ello, sus rodamientos se suelen deteriorar, acelerando el envejecimiento por el polvo y suciedad acumulada, así como el calor y la humedad que puede apelmazar la suciedad y generar más fricción y estrés mecánico.
    • Consejos: el mantenimiento es clave, para limpiar de forma periódica la suciedad acumulada. Recuerda que si retiras el disipador, debes renovar la pasta térmica. Para evitar el cúmulo de suciedad, podrías usar un purificador de aire con filtros HEPA.
  8. Monitor: las pantallas suelen ser otro de los elementos que acumula más problemas, aunque los problemas de imagen también podían deberse a la GPU.
    • Causas de fallas: problemas con el panel, alguno de sus LEDs, o de la PCB, así como las conexiones y cables. Esto puede generar líneas, colores extraños, parpadeo, píxeles muertos, apagado aleatorios, pérdida de imagen, etc.
    • Consejos: usa una fuente de alimentación lo más estable posible, con elementos de protección para evitar picos. También puedes usar químicos adecuados para limpiar pantallas (sin alcohol), evitar tocarlas con los dedos o darle golpes, etc.
  9. Teclado/ratón: suelen ser elementos que se usan de forma muy intensiva. Por ello, suelen fallar.
    • Causas de fallas: la suciedad acumulada es uno de los causantes de problemas, ya que son elementos en los que se deposita pelusa, polvo, restos entre las teclas, etc. También los golpes, o el «aporreo» de las teclas suelen causar que los mecanismos de acción se deterioren, se queden pillados, o baje su sensibilidad.
    • Consejos: evita golpes y trata a estos elementos con la mayor delicadeza posible. No por pulsar más fuerte se hará más rápida una acción. Además, lleva una buena política de higiene, limpiando la suciedad con aspiradora de forma periódica.
  10. Impresora/Multifunción: las impresoras, escáneres y multifunciones también son otra fuente de problemas.
    1. Causas de fallas: son elementos mecatrónicos con componentes electrónicos y mecánicos que pueden fallar en cualquier momento. Especialmente cuando se hace un mal uso de ellas, o el alimentador de papel introduce varias hojas a la vez y se atasca, etc.
    2. Consejos: no superes la carga de trabajo recomendada por el fabricante (cantidad de impresiones diarias), usa consumibles de calidad (cartuchos/tóner y papel recomendado por el fabricante). La humedad y temperatura también puede afectar a estos elementos.

Recuerda también usar protectores siempre que puedas. Por ejemplo, fundas acolchadas para los discos duros externos, protector de pantalla de cristal templado para móviles, carcasas de silicona para absorber impactos, maletines adecuados para el transporte, etc. Todo eso te evitará muchos disgustos…

Resumen

Tabla errores

Como se aprecia en esta tabla de valores típicos en distintos subsistemas, cada parte tiene sus principales fuentes de fallos. Siendo la más notable los propios problemas de hardware, excepto en la CPU, que es por alimentación. Por cierto, para concretar más, cada una de las filas se corresponde con:

  • Factores internos:
    • Error de hardware: errores propios del hardware.
    • Firmware: problemas referentes al código de las memorias ROMs empleado en multitud de componentes.
  • Factores externos:
    • Temperatura: se refiere a problemas con los sistemas de refrigeración (suciedad, fallos en el firmware de éstos, diseño de heatsinks, ventiladores, o disipadores inapropiado, etc.).
    • Alimentación: por suministro inapropiado, insuficiente, excesivo, problemas en los condensadores de suministro, problemas en el firmware que controla la energía, fallos en las fuentes de alimentación, problemas con los sensores, etc.
    • Entorno: pueden ir desde suciedad excesiva en la sala de operación, hasta una altitud demasiado elevada (aire insuficiente para los sistemas de refrigeración), vibraciones, condiciones climáticas, eventos cósmicos, radiación, ESD, etc.
    • Configuración: fallos debidos a malas configuraciones de firmware (BIOS/UEFI), errores humanos, etc.
  • Otros: implica que los técnicos no pueden determinar la causa precisa, pero el dispositivo tiene que ser reemplazado.

¿Cuáles son las temperaturas adecuadas?

Siempre debes leer las recomendaciones del fabricante, que te mostrará los rangos de temperaturas entre los que puede trabajar su producto. El motivo es que existen diferencias entre marcas y modelos notables, por lo que no hay una temperatura estándar. No obstante, como referencia, puedes usar estos márgenes:

  • CPU: 40-60ºC sería normal. Cuando está en reposo, sin carga de trabajo, podría estar en <40ºC, mientras que cuando está trabajando a pleno rendimiento podría subir a los 70ºC. No se aconseja que llegue o supere los 90ºC.
  • GPU: soporta temperaturas mayores que la CPU. Una temperatura normal puede oscilar entre 55 y 75ºC. Temperaturas normales con carga de trabajo podrían estar entre 80-90ºC, mientras que el límite estaría en 110ºC o algo más.
  • RAM: temperaturas normales podrían estar entre 40-60ºC, estando el límite en 85ºC.
  • Disco duro:
    • SSD: temperaturas típicas de trabajo estarían entre 30-50ºC. El máximo estaría en los 70ºC.
    • HDD: temperaturas habituales van de 30-60ºC, estando el límite en 70ºC.

¿Cuál es la mejor pasta térmica?

Para elegir una buena pasta térmica te debes fijar en dos parámetros. Uno es el nivel de conductividad expresada en W/mK (vatios por metro-Kelvin), y el rango de temperaturas manejable. Mientras mejores sean los valores, mucho mejor. Evidentemente, eso dependerá del tipo de partículas empleadas en la pasta:

  • Basada en metal: con partículas metálicas. Es una de las más populares, y suele contener partículas de cobre, aluminio, o plata (algunas de alto rendimiento usan oro), siendo su color grisáceo. Algunas Son compuestos muy apropiados por su alta conductividad térmica, mejorando entre 4-6ºC la temperatura frente a la media de grasas o pastas térmicas que usan cerámicas. Además, no es tan viscosa y se aplica fácilmente. Sin embargo, no todo son ventajas, este tipo de pasta tiene conductividad eléctrica debido al metal presente, por lo que puede producir cortocircuitos entre pines o contactos si hay fugas.
  • Basada en Cerámica: con partículas cerámicas. Suelen ser de colores blanquecinos o grises claros. Contienen polvos cerámicos en la silicona, como óxido de aluminio, óxido de zinc, dióxido de silicio, etc. Suelen ser muy baratas y, al no tener conductividad eléctrica, no generarán los problemas de cortocircuitos de las metálicas. Su efectividad puede ser algo inferior 1-3ºC menos que algunas metálicas.
  • Basada en carbón: son las más usadas para gamers y entusiastas del overclocking. Emplean materiales exóticos como partículas de carbono, óxido de grafeno, polvo de diamante, etc. Son más caras, pero tienen lo mejor de los dos mundos (metal y cerámica). Por un lado, tienen una buena conductividad térmica, sin los problemas de conductividad eléctrica.

Algunas buenas marcas son Noctua, Artic, Aerocool, Thermal Grizzly, Cooler Master, etc. Pero fíjate bien en los compuestos, ya que dentro de una misma marca puede haber varios modelos con diferencias importantes en la calidad.

Isaac

Apasionado de la computación y la tecnología en general. Siempre intentando desaprender para apreHender.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto:

Si continuas utilizando este sitio aceptas el uso de cookies. más información

Los ajustes de cookies de esta web están configurados para "permitir cookies" y así ofrecerte la mejor experiencia de navegación posible. Si sigues utilizando esta web sin cambiar tus ajustes de cookies o haces clic en "Aceptar" estarás dando tu consentimiento a esto.

Cerrar