20 Mejores Programas Gratuitos De Raspado De Páginas Web Para Windows

Aquí hay una lista de los mejores programas gratuitos de raspado web para Windows Estos programas resultan muy útiles cuando se tiene que trabajar con grandes cantidades de datos. Algunos de estos programas son bastante básicos y no requieren ningún conocimiento adicional de su parte, mientras que otros requieren que usted tenga conocimientos de Expresiones Regulares , y conocimientos en algunos otros campos también como JavaScript . Los datos que son útiles para usted son bellamente ordenados. Algunos de ellos también le permiten automatizar la tarea para que los datos se recuperen automáticamente con el clic de un botón. También se puede especificar un período de tiempo para que los datos se actualicen después de un límite de tiempo asignado.

El mejor software gratuito de raspado de páginas web:

El software de raspado de páginas web que más me gusta es Web Scraper . Se debe al hecho de que es bastante simple, ligero y fácil de usar. Puedes usarlo para raspar diferentes tipos de datos de la web como enlaces, texto, tablas y muchos más elementos. Aquí también puedes añadir múltiples URLs. También genera un gráfico de selección. Los datos raspados se pueden exportar en formato CSV. También puede elegir la opción de almacenar los datos en el almacenamiento local o CouchDB .

También puede consultar la lista de Software de lectura de RSS , Software de descarga de sitios web , y Software de comprobación de enlaces rotos

.

Web Scraper

Web Scraper es un Chrome plugin que se utiliza para raspar datos de un sitio web. Es un buen software de raspado web donde se pueden obtener diferentes tipos de información de datos, como: texto, enlace, enlace emergente, imagen, tabla, atributo de elemento, HTML, elemento , y muchos más. Para utilizar la función de Web Scraper, tienes que seguir los siguientes pasos:

  • Instalar la extensión de Chrome.
  • Ir a las herramientas de desarrollo haciendo clic en F12 o Ctrl+Mayús+I.
  • Ir a la pestaña Web Scraper.
  • Hacer clic en el botón de creación de un nuevo mapa del sitio y añadir el nombre del mapa del sitio y la URL de inicio.
  • Aquí se pueden añadir varias URLs haciendo clic en el botón +.
  • En caso de que quiera trabajar con el mapa del sitio existente, introduzca el JSON del mapa del sitio y el nombre del mismo.
  • A continuación, el mapa del sitio puede importarse fácilmente.
  • Al crear el mapa del sitio, elija la opción de añadir un nuevo selector.
  • Aquí tiene que añadir el ID del selector, el tipo, el selector, el regex, el retraso y el selector padre.
  • El tipo de selector puede ser texto, enlace, enlace emergente, imagen, tabla, atributo de elemento, HTML, elemento, elemento de desplazamiento hacia abajo, elemento de clic, o agrupado.
  • Basándose en los atributos del mapa del sitio, se puede generar un gráfico de selector.
  • Haga clic en el botón Scrape para raspar los datos.
  • A continuación, haga clic en el botón exportar datos como CSV que descarga los datos raspados en formato CSV.
  • También se puede exportar el sitemap, editar los metadatos y previsualizar, editar y eliminar los selectores.

En la configuración del almacenamiento se pueden elegir las opciones de almacenamiento que pueden ser el almacenamiento local o CouchDB. En caso de elegir la opción de CouchDB hay que introducir el db del sitemap, y el db de los datos.

Página de inicio Página de descarga

Data Scraper

Data Scraper es otra extensión de Chrome para la extracción de datos. Sólo hay que seguir los siguientes pasos para hacerlo con éxito.

  • Instale la extensión de Chrome. Esto añade un menú contextual a Chrome.
  • Vaya al sitio web del que desea obtener los datos.
  • Seleccione una muestra del contenido, haga clic con el botón derecho del ratón y seleccione el menú contextual DataMiner-Get Similar.
  • A continuación, se muestra la ventana del raspador donde aparecen los datos similares completos de la tabla que muestra
    las recetas, las recetas de la comunidad, los contenedores, las columnas, la navegación en la página siguiente y los filtros.
  • Algunos detalles de las columnas pueden añadirse o eliminarse.
  • Los datos así raspados pueden copiarse al portapapeles y descargarse como CSV.

En la pestaña de navegación en la página siguiente, puede elegir la opción de navegar automáticamente por las páginas paginadas. Aquí se establece la opción del elemento Xpath de la página siguiente, se establece la URL o el clic, y se establece el tiempo de espera de avance automático. También puede elegir la opción de iniciar el avance automático. En caso de que desee utilizar el minero de datos en una serie de sitios web como Google, ebay, LinkedIn , y muchos más sitios web de este tipo, tendrá que iniciar sesión primero.

Página de inicio Página de descarga

OutWit Hub Light

OutWit Hub Light es un software muy sencillo que se puede utilizar para extraer los datos de los sitios web.

  • Sólo tiene que introducir la URL de la que desea recuperar los datos.
  • A continuación, se muestra la página web.
  • Elija el tipo de datos que desea extraer, como: enlaces, documentos, imágenes, contactos, datos, tablas, listas, texto, palabras, noticias, fuente, autómatas , y muchos más tipos de datos.
  • Según el tipo de datos que elija, se extraen los datos.
  • Se muestran los datos extraídos.
  • Puede elegir la opción de exportar los datos donde puede elegir la opción de qué columnas importar y exportar.
  • Se pueden configurar las opciones para seleccionar las filas con algunos atributos específicos, y también limitar las opciones.
  • Se pueden configurar las opciones de captura bajo demanda, captura automática, vaciado bajo demanda y vaciado automático .
  • Aquí también se puede ver el archivo fuente y exportar la captura como Excel, JSON, CSV, SQL, XML, HTML , y muchos más.
  • También puede seleccionar la función de raspado rápido.

Página de inicio Página de descarga

Visual Scraper

VISUALSCRAPER es un sencillo software de extracción de datos web que puede utilizarse para extraer diferentes tipos de datos. Es bastante sencillo de utilizar, y para ello hay que seguir los siguientes pasos:

  • Regístrese en el sitio web y descargue el software.
  • Después de la instalación, deberá volver a iniciar sesión en el software.
  • Introduzca el enlace del que tiene que extraer los datos.
  • A continuación, elija la opción de hacer clic en el elemento, haga clic en las áreas, seleccione el tipo de datos que desea extraer, clasifíquelo en diferentes tipos de datos, y ya está listo.
  • También puede utilizarlo para capturar texto o imágenes, establecer la entrada del usuario, capturar la lista de elementos, y muchas más tareas de este tipo.
  • También puede elegir la opción de capturar el valor predeterminado, capturar la pantalla, borrar las cookies del navegador, cargar una nueva página, refrescar la página y elegir las opciones de acción de desplazamiento
  • Además, en la pestaña de configuración puede elegir la opción de iniciar sesión automáticamente, desactivar las descargas de imágenes, desactivar el zoom del navegador , y muchas más opciones de este tipo.

    IRobot

    IRobot es un buen software que se puede utilizar para el screen scraping. Para saber cómo raspar un sitio web utilizando este software, tiene que realizar los siguientes pasos.

    • Introducir la URL de la que se desea descargar los datos.
    • Seleccionar la opción de ejecutar la tarea de navegación, y crear su propia lista de tareas de navegación si es necesario.
    • Se pueden realizar diferentes acciones en la página en la que se elige la opción de extraer diferentes tipos de datos, como: lista de enlaces, tomar datos, tomar tabla, enviar formulario, formulario de inicio de sesión, marco abierto, correos electrónicos enviados, y hacer una programación .
    • Los datos así generados pueden copiarse al portapapeles, o descargarse como CSV.
    • Junto con esto, también puede realizar diferentes acciones como generar robots para automatizar sus tareas.
    • También se genera el archivo de registro para que pueda monitorear su tarea en cualquier momento.
    • Aquí también puede seleccionar la velocidad de navegación, las ventanas emergentes, la navegación silenciosa, y muchas más opciones de este tipo.

    Página de inicio Página de descarga

    DataTool

    DataTool es un software de exploración web gratuito, sencillo y fácil de usar.

    • Simplemente instale el software y luego navegue hasta el sitio web del que desea raspar los datos.
    • Haga clic en el botón de DataTool que abre una ventana.
    • Luego, aquí puede elegir la opción de agregar configuraciones para navegar por el contenido.
    • En la pestaña de acciones, haga clic en el botón "nueva acción".
    • Establezca el modo de selección, que puede ser el modo de añadir contenido, el modo de establecer el siguiente elemento o estar desactivado.
    • Seleccione los elementos que contienen los datos que desea descargar e introduzca sus detalles.
    • A continuación, haga clic en la opción Obtener datos.
    • A continuación, los datos se recogen y se muestran en forma de tabla.
    • Luego, también puede elegir diferentes opciones aquí, es decir, nombre del archivo de salida, ubicación de la imagen, recuento total de filas, opción de modificar, y mantener los nombres originales de las imágenes o no .
    • Los datos se pueden guardar en diferentes formatos de archivo, como: CSV Unicode, Excel, SQL script, SQL, XML y HTML .

    Página de inicio Página de descarga

    GetData.IO

    GetData.IO es una sencilla extensión de Chrome que se puede utilizar para raspar datos de los sitios web.

    • Primero tiene que registrarse en el sitio web.
    • Después de instalar la extensión, navegue por el sitio web y haga clic en el botón GetData.IO.
    • A continuación, en la parte inferior se ofrece la opción de añadir columnas.
    • Nombre la columna, y elija los detalles haciendo clic en el tipo de datos apropiado.
    • Haga clic en el botón hecho, después de lo cual se le lleva al sitio web donde se genera la lista.
    • Aquí puede ver el detalle de la configuración del rastreador, la definición del rastreador, la vista previa de los datos del rastreador, y el registro de la vista previa del rastreador.
    • También puede pausar el rastreador de datos cuando lo desee.
    • Haga clic en el botón de guardar para descargar el archivo de datos como CSV, JSON o HTML.
    • También puede ver el detalle de la configuración del rastreador, la definición del rastreador y los conjuntos de datos vinculados.
    • Los resultados de los datos pueden ser editados o eliminados según las necesidades.

    Página de inicio Página de descarga

    Screaming Frog SEO Spider

    Screaming Frog SEO Spider es un software sencillo que se utiliza para raspar datos de los sitios web, principalmente para SEO
    Propósitos de SEO. La versión gratuita tiene un límite de raspado de 500 URLs.

    • Para utilizarlo sólo tiene que introducir la URL del sitio web, y a continuación se muestra el resultado.
    • Los datos generados se generan así automáticamente y se clasifican en diferentes pestañas como enlaces, H1, H2, longitud de las meta palabras clave, ruta, dirección, contenido , y así sucesivamente.
    • Elija la vista que puede ser de árbol o de lista.
    • También puede ver diferentes tipos de elementos de datos disponibles eligiendo las pestañas Internos, Externos, protocolo, códigos de respuesta, URI, títulos de página, meta descripción, meta palabras clave, H1, H2, imágenes, directivas, AJAX, personalizados, analíticos y consola de búsqueda .
    • También se muestra diferente información como los tiempos de respuesta, la estructura del sitio y la visión general .
    • También puede ver la información de la URL, los enlaces de entrada, los enlaces de salida, la información de la imagen y el snippet de serp .
    • También puede exportar el mapa del sitio como CSV, XLS o XLSX .

    Página de inicio Página de descarga

    OpenOffice Calc

    OpenOffice Calc es una popular aplicación de hoja de cálculo que también puede utilizarse para raspar datos de la web. Es bastante simple y fácil de usar. Para aprovechar esta función hay que seguir los siguientes pasos:

    • Abra OpenOffice Calc. Vaya a la pestaña de inserción y seleccione la opción "enlace a datos externos".
    • Introduzca la URL de la fuente de datos externa y pulse Intro.
    • A continuación, se mostrarán las tablas/rangos de datos disponibles.
    • Seleccione la lista adecuada que desee importar.
    • Elija la opción de actualización automática si es necesario, para mantener la lista actualizada a partir de los datos en línea.
    • También puede establecer la duración de la actualización.
    • También puede añadir sus propios datos y elegir las diferentes opciones disponibles.
    • Luego, los datos también se pueden exportar en varios formatos populares como: PDF, HTML, ODS, XML, CSV, XLS , y muchos más.

    Página de inicio Página de descarga

    Scraper

    Scraper es una herramienta sencilla para raspar datos de los sitios web. Para ello hay que realizar los pasos que se especifican a continuación:

    • Instalar la extensión de Chrome . Esto añade un menú contextual a Chrome.
    • Navegue por el sitio web del que desea obtener los datos.
    • Seleccione una muestra del contenido, haga clic con el botón derecho del ratón y seleccione el menú contextual Scrape similar.
    • A continuación, se mostrará la ventana del scraper en la que aparecen los datos similares completos de la tabla mostrando los selectores, las columnas y los filtros.
    • En caso de que quiera añadir o eliminar algunos detalles de las columnas, puede hacerlo.
    • También puede guardar los preajustes para guardarlos en el futuro.
    • Los datos así raspados pueden copiarse al portapapeles o exportarse a Google Docs.

    Página de inicio Página de descarga

    iMacros

    iMacros es un software muy popular para el raspado de webs. Originalmente estaba disponible como una extensión para Firefox, pero ahora también está disponible para Chrome e IE. Se trata de una extensión muy sencilla que te permite "enseñar" qué raspar y cómo hacerlo. Esencialmente, usted navega a una página, realiza las acciones que necesita realizar, y esta extensión registrará todo eso. Luego puede repetir todas esas acciones con un clic de botón. Para aprovechar todo el poder de esto, puedes ver el script grabado, y editarlo como sea necesario. Por ejemplo, puede
    puedes añadir variables en el script, que te pedirán que introduzcas valores cuando empieces a ejecutar la extensión. La extensión es tan popular que puede encontrar fácilmente scripts en la web para realizar tareas populares.

    Página de inicio Página de descarga

    WebHarvest

    Web-Harvest es una buena aplicación Java que puede utilizarse para extraer datos de la web. Para ello, hay que seguir los siguientes pasos:

    • Crear un nuevo archivo de configuración. Introduzca el código que desee y guarde el archivo de configuración.
    • Ejecute el archivo y, en función del código que haya introducido, se recuperarán los datos.
    • En función del tipo de datos, podrá visualizarlos en diferentes formatos, como: texto, imagen, XML, HTML , y muchos más.
    • También puede modificar los ajustes de extracción y hacer uso de algunos de los archivos de configuración predefinidos, y ejecutarlos.
    • También puede modificar la configuración para mostrar el panel de jerarquía, el panel de registro, los números de línea y localizar dinámicamente los procesadores en tiempo real .

    Página de inicio Página de descarga

    Regex Scraper

    Regex Scraper es una sencilla extensión de Chrome que hace uso de expresiones regulares para extraer datos de los sitios web. Para hacer uso de esta función debes tener una idea básica de las expresiones regulares.

    • Instale la extensión de Chrome y navegue hasta el sitio web del que desea extraer los datos.
    • A continuación, haga clic en el botón del plugin Regex Scraper.
    • Introduzca la expresión regular que desea ejecutar.
    • Si es necesario, también puede elegir la opción de sustitución.
    • También puede aplicar diferentes modificadores como: Global, distingue entre mayúsculas y minúsculas, una sola línea y varias líneas .
    • A continuación, haga clic en el botón aplicar Regex.
    • Después de que se muestren los resultados, elija la opción de copiar al portapapeles, o borrar el Regex.

    Página de inicio Página de descarga

    YellowPageRobot(YPR)

    YellowPageRobot(YPR) es un software sencillo que le ayuda a extraer datos de Páginas Amarillas y también de otros sitios web.

    • Al abrir el software, se abre automáticamente la página de las Páginas Amarillas.
    • También puede añadir el enlace de su propio sitio web proporcionando la URL.
    • Navegue hasta la página web de la que desea extraer los datos.
    • A continuación, haga clic en el botón de captura que captura los datos del sitio web.
    • Los datos capturados se pueden guardar como CSV o Excel.
    • Aquí también puede elegir la opción de no cargar las imágenes haciendo clic en el botón No Pix.
    • En la versión gratuita sólo puede capturar datos de una sola página.

    Página de inicio Página de descarga

    Dafizilla Table2Clipboard

    Dafizilla Table2Clipboard es una sencilla extensión de Firefox que le ayuda a extraer tablas de una página web. Añade un menú contextual a la pestaña de edición y al menú contextual del navegador.

    • Navegue por la página web y haga clic en la pestaña de edición.
    • Aquí se le ofrece la opción de copiar todas las tablas.
    • Utilizando
    • Utilizando la tecla Ctrl y haciendo clic con el ratón puede seleccionar celdas individuales o un grupo de celdas.
    • En el menú contextual del navegador también se ofrece la opción de copiar toda la tabla, seleccionar fila, seleccionar columna y seleccionar tabla después de hacer clic en la tabla.
    • El formato se mantiene tal cual cuando se copia.

    Página de inicio Página de descarga

    DEiXTo

    DEiXTo es un software de extracción de datos web sencillo y con muchas funciones. También es bastante fácil de usar.

    • Sólo tiene que introducir la URL del sitio web y hacer clic en el botón ¡Explorar!
    • Al hacerlo, se le muestran diferentes detalles como Árbol DOM, Instancia de registro auxiliar, Instancia de registro - Patrón de trabajo , etc.
    • Aquí también puede elegir el patrón de extracción y aplicar el mismo para descargar datos específicos.
    • Luego también puede guardar sus datos como TXT. También se pueden ignorar algunas etiquetas HTML mientras se construye el árbol DOM.
    • Se pueden utilizar diferentes pestañas para ver el resultado y modificar sus diferentes propiedades.

    Página de inicio Página de descarga

    Table Capture

    Table Capture es una sencilla extensión de Chrome en la que se puede elegir la opción de copiar los datos de la tabla directamente desde los sitios web. Para ello, sólo hay que seguir los siguientes pasos:

    • Instale la extensión de Chrome y navegue por la página web.
    • En caso de que se encuentre alguna tabla en la página web, el color de la extensión cambia a rojo.
    • Al hacer clic en la extensión se muestra el número de tablas disponibles.
    • También se le ofrece la opción de copiar la tabla en el portapapeles o en Google Doc.
    • También puede elegir diferentes opciones para mostrar en línea, y separar el panel.

    Página de inicio Página de descarga

    Darcy Ripper

    Darcy Ripper es una sencilla aplicación Java que se utiliza para raspar datos de sitios web. Para utilizarla es necesario tener conocimientos de las Expresiones regulares .

    • Vaya al botón de crear nuevo e introduzca los datos del sitio web.
    • En la pestaña de reglas personalizadas añada las expresiones regulares que quiera aplicar en la pestaña de filtros de petición, o en la pestaña de reglas de contenido de respuesta.
    • A continuación, los datos se raspan y pueden guardarse como DJP.

    Página de inicio Página de descarga

    screen-scraper workbench

    screen-scraper workbench es un software que le ayuda a raspar datos de los sitios web. Para ello, basta con seguir los siguientes pasos que se especifican a continuación:

    • Elegir la opción de nueva sesión de scraping.
    • Añadir diferentes propiedades de scraping, como: Nombre, URL, secuencia y script.
    • También puede añadir diferentes parámetros y patrones de extracción.
    • También se ofrece una opción para ver la última solicitud y la última respuesta.

    Página de inicio
    Página de descarga

    Import.io

    Import.io es un software de raspado de datos muy potente. Una vez que descargue el software, le pedirá que navegue por la página desde la que desea descargar los datos. Después de eso, tendrá que resaltar los campos que desea descargar. A partir de ahí, encontrará datos similares en la página y le permitirá descargarlos todos. También soporta la paginación. Una vez que hayas enseñado a import.io a trabajar, puedes simplemente volver a ejecutar el script para obtener los datos más recientes. Soporta grandes volúmenes de datos, y sigue siendo completamente gratuito.

    Página de inicio Página de descarga

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir
Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad