10 способов использования функции Import XML для анализа страниц сайта

Читайте также:

комментариев 16

  1. Ваня:

    а как бороться с этим http://prntscr.com/eqq0nm ?

    • Есть определенный лимит запросов на один Google Spreadsheets. Я просто создаю новый гугл спредшитс, делаю часть запросов там, а в рабочий док вставляю только значения. Данный способ и не предназначен изначально для большого объема данных. Но для небольшого анализа подходит.

  2. Дмитрий:

    Скажите, а можно получить список всех ссылок на странице с анкорами этих ссылок? Чтобы можно было построить карту меню, например?
    Ищу полдня, и не могу найти как реализовать.

    • Здравствуйте. Можно.

      В одной ячейке пишите =IMPORTXML(«Ваш урл»; «//a/@href»), а в соседней клетке справа пишите =IMPORTXML(«Ваш урл»; «//a»),

      В итоге получите список урлов, а справа список анкоров

      • Владислав:

        Здравствуйте. Попробовал эту формулу. качает все меню, вообще все ссылки со страницы. а мне надо скачить только товары. возможно это? Спасибо

  3. Владислав:

    На нужной странице пишеч: Объем импортированных данных превышает допустимый.

  4. Артур:

    Вопрос такой, как обновить полученные данные? Т.е. один раз спарсили когда фомулу вставили, через 5мин/5 дней нужно обновить их. Есть мысли?

  5. Andre:

    Подскажите по 4 пункту..

    Задача забрать весь plain-text со страницы не прописывая class =ЕСЛИОШИБКА(ДЛСТР(СЦЕПИТЬ(IMPORTXML(A2;»//div[@class=’typo’]»)));»НЕ ВЕРНЫЙ CLASS»)

    Значем что текст стоит в основном в часть данных структурируются в таблицу .. какую тут формулу можно сконструировать? или как допились эту =ДЛСТР(СЦЕПИТЬ(IMPORTXML(A5;»//p))) что бы в данные вытягивало колличество слов из

    Спасибо.

  6. Дмитрий:

    есть ли возможность парсить таким образом сайт morningstar .com

    например раздел «Movers»—«Stock Name» (таблица)?

    //div[@class=’main-content’]//div[@class=’table-wrapper’]//span[@class=’no-wrap’]

    не получается, спасибо за совет

  7. Данил:

    Прошу помощи с формулой, нужно с сайта https://www.turkishairlines.com/ru-ua/flights/flight-status/?t=1&flight=420&date=260419 вытащить статус рейса

  8. игорь:

    Добрый день!

    Как получить данные таблицы дислокация в гогл таблицу, фото находится по ссылке
    https://drive.google.com/file/d/1P6aQw8vDMusCzmEGgrxtybifReFxA-Z6/view?usp=sharing

  9. Serg:

    Может вы подскажете
    нужно получить, скажем, по ссылке https://www.google.com/search?client=firefox-b-d&q=android
    строку «Результатов: примерно 5 970 000 000 (0,67 сек.)»

    Пишу в ячейку
    =IMPORTXML(«https://www.google.com/search?client=firefox-b-d&q=android»;»//div[@id=’resultStats’]»)
    или
    =IMPORTXML(«https://www.google.com/search?q=android»;»//div[@id=’resultStats’]»)

    Выдает
    Ошибка
    Ссылка https://www.google.com/search?client=firefox-b-d&q=android недействительна
    Нервы сдают)

  10. Анастасия:

    Парсинг сайтов это самый лучший способ автоматизировать процесс сбора и сохранения информации. Благодаря парсеру можно создавать и обновлять сайты, схожие по оформлению, содержанию и структуре. Если коротко, вы получаете исходный код страницы, программа проходит по нему, как по обычным словам, и находит некоторые соответствия, которые записаны в ее программный код. Она сравнивает их, сопоставляет и сохраняет то, что нужно вам по определенным условиям. Последний шаг сохранение в удобном для вас формате данных. То есть какие-то программы или скрипты будут сохранять в SQl, какие-то в XML, кто-то в обычном TXT либо в табличном документе.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *