Compare visualmente archivos PDF | hakkaday
A veces, el problema parece difícil, pero el conocimiento adecuado puede facilitarlo. Si te pidieran que escribieras un programa para comparar dos archivos PDF y mostrar las diferencias, ¿qué tan difícil sería en tu opinión? Si usted es [serhack]tu tendrás exito más fácil de lo que puedas imaginar.
Por supuesto, a veces simplificar algo depende de simplificar suposiciones. Si espera una utilidad “similar a las diferencias” que muestre inserciones y eliminaciones, eso no es lo que está sucediendo aquí. En su lugar, verá una imagen del PDF con los cambios marcados con un cuadro rojo. Esto es fácil porque el programa usa las utilidades disponibles para mostrar archivos PDF como imágenes y luego simplemente compara los píxeles en las imágenes resultantes, dibujando cuadros rojos sobre las partes que no coinciden.
Obviamente, esto es mejor para los archivos PDF que tienen algunos cambios. Insertar un párrafo, por ejemplo, hace que la salida sea inútil. Entonces, podría considerar extraer el texto de un PDF usando algo como pdf2text (que usa la misma biblioteca básica que usa para crear imágenes).
El programa muestra una gran cantidad de mensajes sobre archivos perdidos, pero parece hacer el trabajo de todos modos. Aquí está el resultado de comparar dos versiones de la página de inicio de Hackaday capturadas en PDF con un intervalo de unos minutos:
Sin embargo, puede ver que si se publica un nuevo artículo y todo se desliza por uno, solo tendrá una pepita roja gigante.
Sigue siendo una idea inteligente. Sorprendentemente, hay bastantes herramientas disponibles para eso, a pesar de que lo hicimos Encuentra algunos otros. Hay, por supuesto, un montón de Herramientas de Linux para procesar archivos PDF. muchos de ellos Mezclar otras herramientas como esto.
“Defensor de la Web. Geek de la comida galardonado. Incapaz de escribir con guantes de boxeo puestos. Apasionado jugador”.