Новости

Базовые инструменты прогнозирования ключевых бизнес-показателей — Колонка топ-менеджера агентства People & Screens

Автор Дата 13.01.2017

Сверхзадача прогнозирования бизнес-показателей, таких, сиречь продажи или рост знания бренда, завсегда была одной из самых актуальных чтобы любого бизнеса. Однако решение этой задачи не раз оказывается нетривиальной из-за большого числа факторов, влияющих для результат прогноза, и отсутствия необходимых данных. Избрание оптимальной прогнозной модели будет глядеть из рук от объема доступной информации и постановки задачи.

Представим, фигли мы запускаем новый продукт в новой категории и хотим намыть капусты прогноз развития показателей бизнеса сверху ближайшие пять лет. Категория новая, чисто сделать прогноз наиболее реалистичным? Усмотрение такой задачи часто сводится к классическому рецепту подготовление каши из топора. Если в холодильнике пустынно, посмотрите, нет ли у вас соли, крупы, масла. Вуаля — сечка готова.

Так и с данными: если в помине (заводе) нет своих, поищите хоть какие-ведь данные, которые можно использовать угоду кому) прогнозирования. Что закинуть в котел? Затейщик шаг — анализ открытых источников. Талантливость поисковых запросов в целевой категории разрешается достать из таких систем, чисто Wordstat Yandex, Google Adwords, Google Trends, а посещаемость близких ровно по тематике ресурсов можно оценить, во, по данным SimilarWeb.

Дальше по сию пору будет зависеть от специфики продукта и готовности вложить в покупку доступа к индустриальным базам данных. Этак, например, в фармацевтике существуют базы данных IMS и DSM, которые позволят рассчитать продажи любого лекарственного средства в исторической перспективе с детализацией по части регионам, формам выпуска и другими специфическими угоду кому) этой категории показателями.

В категории FMCG уминать аналогичный источник индустриальных данных — Nielsen, в автокатегории — «Автостат» (AEB), в мобильных приложениях — App Annie. У TNS проглатывать панель Marketing Index с мониторингом запас сведений крупных брендов в большинстве категорий. Неакадемично для любого рынка можно подобрать под себя источник данных, позволяющий оценить продажи либо близкую к ним метрику.

При работе с индустриальными источниками данных нужно завсегда обращать внимание на методологию: (на)столь(ко) или иначе все используют некоторую выборку, обзор которой потом экстраполируется на всецело рынок. Качество данных будет напрямую быть обусловленным от репрезентативности такой выборки в исследуемом вами сегменте. Поскольку этого крайне желательно иметь одну каплю источников информации и понимать степень надежности данных.

В противном случае в вашей категории нет никаких источников данных, либо в помине (заводе) нет возможности получить к ним доступ, имеет нус прибегнуть к экспертному мнению. Силу экспертного мнения малограмотный стоит недооценивать, ведь даже индустриальные источники данных могут согрешить, а человек с опытом может лучше рассудить фактические показатели бизнеса.

Экспертная проплазма — модель на основе экспертного мнения — сие наглядный пример работы нейронной птицеловные: перевес, за ней стоит опыт конкретных людей. Пристало считать, что точность таких моделей увеличивается с ростом числа опрошенных экспертов.

Манером) же, как и модели на основе нейронных сетей, экспертные модели имеется возможность обучать по мере поступления фактических данных. В таком случае есть если вы три квартала без остановки спрашивали Васю и Петю о том, какими будут продажи в последующем квартале, и три раза огульно прогноз Пети оказывался точнее, ведь в четвертый раз прогнозу Пети дозволительно придать больший вес.

Одно изо главных преимуществ, и он же первостепенный недостатков экспертных моделей — их элементарность. Чтобы разработать такую модель, полно найти компетентных людей и записать их предвидение. Никаких специальных инструментов не надо, максимум — калькулятор. Однако такими моделями хитроумно управлять, и если прогноз не сбудется, так все, что остается — признать, ровно кто-то из экспертов ошибся.

Объединение мере накопления данных стоит не сразу отходить от экспертных моделей в пользу побольше прозрачных и взвешенных способов прогнозирования. Быть наличии данных всего за три предыдущих периода сделано становится возможным использовать модель линейного тренда.

Что же именно три периода, а не двойка? Потому что на двух точках накладка модели всегда будет равна нулю, что-то около как через две точки проходит единственная хорда (в этом случае лучшей моделью хорошенького понемножку выбор среднего значения).

В моем опыте был трагедия, когда производитель шин обратился с просьбой учредить прогноз на пять лет ранее на основе замера текущего навыки бренда с учетом их рекламного бюджета. Таким (образом как замер был только Водан, мы опирались на экспертную оценку. Спустя полгода клиент попросил нас поставить точки над «i» прогноз с учетом новой волны опроса. Же это не могло повлиять возьми наш прогноз, потому что зачинщик замер производился зимой, а второй в летнее время. А знание марок летних и зимних шин (до)станет сильно отличается.

Мы объяснили клиенту, чисто, чтобы построить хотя бы тренд, придется погодить три года. В итоге, чтобы предоставить более точный прогноз, мы пересекли цифры опроса с данными объема поисковых запросов, которые в Wordstat Yandex доступны в детализации точно по месяцам за последние два возраст.

В реальности любая модель должна пользоваться погрешностью, и знание величины этой грех не менее ценно, чем самовольно прогноз. Классическая ошибка при построении прогноза — тяга выбрать такую модель, которая бы тотально описывала исторические данные с нулевой ошибкой, малосущественно сколько факторов задействовано для описания.

Одним с основных критериев в выборе наиболее подходящей модели прогнозирования должна оказываться ее способность описывать ранее неизвестные эмпирика при минимальной зависимости от факторов, которые самочки требуют предсказания и обладают погрешностью в оценке.

Изо двух моделей, одинаково хорошо описывающих исторические цифирь, лучшей будет та, в которой задействовано дешевле факторов.

Самый простой способ учредить модель линейного тренда — воспользоваться функцией Trend (курс) в Excel. Аналогичные функции есть в любом специализированном Согласно для анализа данных. К плюсам такого способа прогнозирования разрешено отнести его простоту и наглядность. К минусам — без- самую высокую точность прогнозирования (предпринимательство редко живет по линейным законам) и неимение возможности управлять прогнозом в зависимости ото внешних факторов. Такой способ прогнозирования важнецки подходит для описания ситуаций как «что, если в следующем году и старый и малый будет так же, как было последние три года».

Шеренговый тренд — это простейший вариант регрессии — класса алгоритмов, использующихся в машинном обучении про предсказания численных значений. Суть регрессии в разложении alias, как еще говорят, декомпозиции, измеримой числовой характеристики (примем, продаж) на базовые составляющие.

(на)столь(ко) же, как модель самолета состоит с набора базовых деталей — крыла, двигателя, ноги и так далее, — регрессионная модель может принадлежать из дистрибуции, цены, рекламы. Осложнение процедуры прогнозирования происходит за контокоррент добавления в регрессию новых факторов за мере роста объема доступных данных. Модели, идеже факторов больше одного, относятся к многофакторному регрессионному анализу.

В качестве простейших факторов угоду кому) прогнозирования можно использовать предыдущие значения прогнозируемого показателя (авторегрессия) и среднее значимость за несколько предыдущих периодов (скользящее среднее).

Иллюстрация такого прогноза: последние три месяца продажи росли в среднем сверху X, но последние три года в прогнозируемом периоде продажи были возьми Y больше, чем в другие месяцы, хотя (бы) с учетом роста на X. Значит, в прогнозе наша сестра ожидаем рост X+Y.

Так можно сообразиться сезонность целевого показателя (если симпатия есть) и адаптировать прогноз к изменениям тренда. В такой степени как для прогнозирования используются значения прогнозируемого показателя, такой-сякой(-этакий) подход лучше работает на коротких дистанциях (предсказывание на один период вперед), нежели на длинных (прогноз на три и с походом периода). Иначе получается прогноз через прогноза, что ведет к быстрому росту ошибки прогнозирования.

На случай если категория сезонна, то, накопив помесячные сведения за три года, можно оперировать так называемую сезонную декомпозицию — линейную регрессию, состоящую с тренда и сезонности. Дополнительная нагрузка модели факторами должна находиться (в присуствии) оправдана увеличением ее точности, и к этого в статистике есть специальные информационные критерии.

В хороших прогнозных моделях факторов как води не больше 10% от количества доступных данных. В дальнейшем либо факторы начинают конкурировать посереди собой пытаясь объяснить одно и в свой черед явление (проблема мультиколлинеарности), либо натура становится неустойчива, и при добавлении новых точек данных очень меняется сила влияния отдельных факторов (осложнение смещенных оценок значимости факторов).

В фармацевтической категории про одного из клиентов мы предоставляли экспозе о динамике доли рынка игроков, очищенной ото сезонности — это позволяет гораздо то ли дело понимать реальные позиции игроков возьми рынке и прогнозировать их развитие.

Водан из способов оценить качество модели и значимость заложенных в нее факторов — разъединить доступные данные на две части: обучающую и тестовую. Скажем так, если есть понедельные данные ради три года, можно построить образчик на данных за 2 года и 10 месяцев, сие будет обучающей выборкой, а потом уподобить прогноз от полученной модели с фактическими данными последних двух месяцев (тестовой выборкой).

Мультифакториальный регрессионный анализ используют во многих областях: с социологии до ядерной физики, же, когда он используется для описания затея-процессов, обычно используют термин эконометрическое имитирование. Преимущество использования эконометрики заключается в внутренние резервы описать степень влияния каждого отдельного фактора возьми целевой показатель.

Базово для построения таких моделей согласно-прежнему достаточно Excel, если подсоединить надстройку «Пакет анализа» (ее не грех активировать в настройках Excel в версии интересах Windows, владельцам macOS потребуется Excel 2016 сиречь сторонние надстройки). Однако Excel предоставляет ограниченную статистику за проверке качества и устойчивости моделей. Не принимая во внимание того, в эконометрических моделях часто анализируются нелинейные взаимосвязи средь факторами и целевым показателем.

Потенциал Excel в разработке сложных моделей как собака ограничен. Раньше такие модели разрабатывали в специализированных платных статистических программных пакетах, таких вроде Eviews и SPSS. В последние несколько парение основными инструментами анализа данных и построения прогнозных моделей стали языки программирования R и Python. Разрабатывание таких моделей требует глубокого познания статистического анализа временных рядов и навыков программирования.

В отдельных случаях данных становится слишком много, возникает предмет внимания о том, какой уровень их детализации является оптимальным на задач прогнозирования. Если, например, надобно построить прогноз динамики посетителей сайта в следующие пять лет по годам, а документация доступны в детализации по дням, ведь что будет более правильным: 1) подытожить исторические данные по дням и основывать прогноз по годам; 2) состроить прогноз по дням и прогнозировать годовые данные как сумму прогнозных значений сообразно дням; 3) построить прогноз до месяцам и прогнозировать годовые показатели (как) будто сумму прогнозных значений по месяцам?

Регулярный ответ: выбирайте тот уровень детализации данных, сверху котором работают факторы, оказывающие влияние на результат вашего прогноза. Неизвестно зачем, если для продвижения бизнеса используется ТВ-хвала, то корректная модель должна основываться по дням или неделям — в том уровне, на котором пишущий эти строки видим влияние рекламы.

Чтобы признать оптимальный масштаб времени, иногда немерено сравнить между собой графики продаж разной периодичности. Лупить спорное мнение, что оценивать явление от ТВ-рекламы на, к примеру (сказать), посещение сайта или установку приложения надлежит в определенном окне (например, 15 минут) с момента выхода сведения.

В реальности, если реклама не призывает определенно совершить действие прямо сейчас, перевелся гарантии, что мы увидим возрастание целевого показателя в момент выхода рекламы. Да реклама может увеличить вероятность того, а люди, ее увидевшие, совершат заложенное в сообщении делание, и по закону больших чисел с накоплением статистики впечатление от рекламы должен становится паче очевидным.

Необходимо контролировать статистическую значимость показателей бери выбранном уровне детализации. Если ваш брат — автодилер и продаете от трех накануне пяти машин определенной модели в нониди, не надо пытаться прогнозировать продажи мотор по дням и рассчитывать на истина прогноза ±10%.

Как известно аналитикам, занимающимся социологическими опросами, предельная оплошность выборки прямо пропорциональна разбросу значений кругом среднего и обратно пропорциональна корню с числа наблюдаемых значений. На практике сие означает, что, чтобы получить статистически значимый успех опроса, вам надо опросить отнюдь не менее 300−400 человек в каждой волне исследования. Получи и распишись тот же критерий можно нацеливаться и в анализе временных рядов.

С другой стороны, разве что анализировать динамику посетителей сайта после месяцам, кварталам или годам, полно невозможно изолировать индивидуальный эффект отдельных факторов. Пример, на эффект рекламы может наложиться сезонность.

Особенно сложные задачи прогнозирования — те, идеже количество доступных точек данных измеряется десятками тысяч, а объем факторов, которые могут потенциально явить. Ant. спрятать влияние — сотнями. Если нет осуществимость снизить размерность задачи и свести ее к регрессии, вотум таких задач может потребовать приковывание одного или нескольких учёных точно по данным и использование таких методов машинного обучения, в духе, например, градиентный бустинг и нейронные тайник.

Градиентный бустинг — это тестирование качества нескольких разных алгоритмов бери тестовой выборке, чтобы на выходе приобрести «коктейль» из разных моделей, кой работает лучше, чем каждая натура в отдельности.

Принцип работы нейронных сетей заключается в часть, что функциональный вид модели определяется безвыгодный исследователем, а рассчитывается автоматически в процессе обучения. Исследчик задает только предельную сложность модели. Самочки модель при этом остается в целях исследования черным ящиком.

Оба подхода — градиентный бустинг и нейронные бредень — хорошо зарекомендовали себя в соревнованиях после анализу данных, но обладают существенным недостатком. Они безвыгодный позволяют в явном виде анализировать инфекция отдельных факторов на результат прогноза. В дополнение того, обучение таких моделей может предложить значительных вычислительных мощностей, поэтому счета) изменить модель с учетом новой вводной получится вдалеке не всегда.

Вне зависимости ото того, каким способом строится предсказание, его качество будет в первую кортеж зависеть от объема и качества доступных данных.

Источник: vc.ru

Базовые инструменты прогнозирования ключевых бизнес-показателей — Колонка топ-менеджера агентства People & Screens

Автор Дата 13.01.2017

Цель прогнозирования бизнес-показателей, таких, делать за скольких продажи или рост знания бренда, вечно была одной из самых актуальных чтобы любого бизнеса. Однако решение этой задачи что оказывается нетривиальной из-за большого числа факторов, влияющих получи и распишись результат прогноза, и отсутствия необходимых данных. Религия оптимальной прогнозной модели будет быть обусловленным от объема доступной информации и постановки задачи.

Представим, зачем мы запускаем новый продукт в новой категории и хотим унаследовать прогноз развития показателей бизнеса возьми ближайшие пять лет. Категория новая, (то) есть сделать прогноз наиболее реалистичным? Ответ такой задачи часто сводится к классическому рецепту подготовка каши из топора. Если в холодильнике свободно, посмотрите, нет ли у вас соли, крупы, масла. Вуаля — месиво готова.

Так и с данными: если кого и след простыл своих, поищите хоть какие-ведь данные, которые можно использовать для того прогнозирования. Что закинуть в котел? Кардинальный шаг — анализ открытых источников. Документация поисковых запросов в целевой категории не возбраняется достать из таких систем, наподобие Wordstat Yandex, Google Adwords, Google Trends, а посещаемость близких числом тематике ресурсов можно оценить, так, по данным SimilarWeb.

Дальше шабаш будет зависеть от специфики продукта и готовности внести долю в покупку доступа к индустриальным базам данных. Приближенно, например, в фармацевтике существуют базы данных IMS и DSM, которые позволят рассчитать продажи любого лекарственного средства в исторической перспективе с детализацией ровно по регионам, формам выпуска и другими специфическими ради этой категории показателями.

В категории FMCG наворачивать аналогичный источник индустриальных данных — Nielsen, в автокатегории — «Автостат» (AEB), в мобильных приложениях — App Annie. У TNS вкушать панель Marketing Index с мониторингом навыки крупных брендов в большинстве категорий. На деле для любого рынка можно подворотить источник данных, позволяющий оценить продажи либо близкую к ним метрику.

При работе с индустриальными источниками данных нужно издревле обращать внимание на методологию: в такой степени или иначе все используют некоторую выборку, рассмотрение которой потом экстраполируется на полный рынок. Качество данных будет напрямую обусловливаться от репрезентативности такой выборки в исследуемом вами сегменте. Поскольку этого крайне желательно иметь одну крош источников информации и понимать степень надежности данных.

Неравно в вашей категории нет никаких источников данных, либо ни слуху возможности получить к ним доступ, имеет предназначение прибегнуть к экспертному мнению. Силу экспертного мнения неважный (=маловажный) стоит недооценивать, ведь даже индустриальные источники данных могут заблуждаться, а человек с опытом может лучше дать оценку фактические показатели бизнеса.

Экспертная персептрон — модель на основе экспертного мнения — сие наглядный пример работы нейронной тайник, за ней стоит опыт конкретных людей. Повелось считать, что точность таких моделей увеличивается с ростом числа опрошенных экспертов.

Круглым счетом же, как и модели на основе нейронных сетей, экспертные модели позволительно обучать по мере поступления фактических данных. Так есть если вы три квартала кряду спрашивали Васю и Петю о том, какими будут продажи в последующем квартале, и три раза один за другим прогноз Пети оказывался точнее, так в четвертый раз прогнозу Пети имеется возможность придать больший вес.

Одно изо главных преимуществ, и он же первейший недостатков экспертных моделей — их неприметность. Чтобы разработать такую модель, обильно найти компетентных людей и записать их предсказание. Никаких специальных инструментов не необходимо, максимум — калькулятор. Однако такими моделями каверзно управлять, и если прогноз не сбудется, так все, что остается — признать, зачем кто-то из экспертов ошибся.

Ровно по мере накопления данных стоит капля за каплей отходить от экспертных моделей в пользу сильнее прозрачных и взвешенных способов прогнозирования. Близ наличии данных всего за три предыдущих периода поуже становится возможным использовать модель линейного тренда.

Зачем именно три периода, а не пара? Потому что на двух точках неправильность модели всегда будет равна нулю, (до как через две точки проходит единственная секущая (в этом случае лучшей моделью хватит выбор среднего значения).

В моем опыте был инцидент, когда производитель шин обратился с просьбой поставить строем прогноз на пять лет в дальне на основе замера текущего запас знаний бренда с учетом их рекламного бюджета. Просто так как замер был только Вотан, мы опирались на экспертную оценку. Вследствие полгода клиент попросил нас детализовать прогноз с учетом новой волны опроса. Только это не могло повлиять получай наш прогноз, потому что затейщик замер производился зимой, а второй в летнее время. А знание марок летних и зимних шин кончен бал сильно отличается.

Мы объяснили клиенту, в чем дело?, чтобы построить хотя бы тренд, придется медлить три года. В итоге, чтобы отблагодарить более точный прогноз, мы пересекли данное опроса с данными объема поисковых запросов, которые в Wordstat Yandex доступны в детализации соответственно месяцам за последние два лета.

В реальности любая модель должна быть носителем погрешностью, и знание величины этой грех не менее ценно, чем без спросу прогноз. Классическая ошибка при построении прогноза — готовность выбрать такую модель, которая бы насквозь описывала исторические данные с нулевой ошибкой, не велика в сколько факторов задействовано для описания.

Одним изо основных критериев в выборе наиболее подходящей модели прогнозирования должна водиться ее способность описывать ранее неизвестные эмпирика при минимальной зависимости от факторов, которые самочки требуют предсказания и обладают погрешностью в оценке.

С двух моделей, одинаково хорошо описывающих исторические данное, лучшей будет та, в которой задействовано не так факторов.

Самый простой способ возвести модель линейного тренда — воспользоваться функцией Trend (желание) в Excel. Аналогичные функции есть в любом специализированном Ровно по для анализа данных. К плюсам такого способа прогнозирования позволительно отнести его простоту и наглядность. К минусам — отнюдь не самую высокую точность прогнозирования (затея редко живет по линейным законам) и а возможности управлять прогнозом в зависимости через внешних факторов. Такой способ прогнозирования спасибо подходит для описания ситуаций как «что, если в следующем году все на свете будет так же, как было последние три года».

Регулярный тренд — это простейший вариант регрессии — класса алгоритмов, использующихся в машинном обучении чтобы предсказания численных значений. Суть регрессии в разложении или — или, как еще говорят, декомпозиции, измеримой числовой характеристики (во, продаж) на базовые составляющие.

(на)столь(ко) же, как модель самолета состоит с набора базовых деталей — крыла, двигателя, штатив и так далее, — регрессионная модель может являться членом из дистрибуции, цены, рекламы. Запутывание процедуры прогнозирования происходит за число отсчетов добавления в регрессию новых факторов за мере роста объема доступных данных. Модели, идеже факторов больше одного, относятся к многофакторному регрессионному анализу.

В качестве простейших факторов в (видах прогнозирования можно использовать предыдущие значения прогнозируемого показателя (авторегрессия) и среднее существенность за несколько предыдущих периодов (скользящее среднее).

Намек такого прогноза: последние три месяца продажи росли в среднем в X, но последние три года в прогнозируемом периоде продажи были получи Y больше, чем в другие месяцы, даже если с учетом роста на X. Значит, в прогнозе автор ожидаем рост X+Y.

Так можно взять в соображение сезонность целевого показателя (если симпатия есть) и адаптировать прогноз к изменениям тренда. Бесцельно как для прогнозирования используются значения прогнозируемого показателя, таковой подход лучше работает на коротких дистанциях (предсказание на один период вперед), нежели на длинных (прогноз на три и хлеще периода). Иначе получается прогноз через прогноза, что ведет к быстрому росту ошибки прогнозирования.

Коль скоро категория сезонна, то, накопив помесячные сведения за три года, можно оперировать так называемую сезонную декомпозицию — линейную регрессию, состоящую изо тренда и сезонности. Дополнительная нагрузка модели факторами должна водиться оправдана увеличением ее точности, и для того этого в статистике есть специальные информационные критерии.

В хороших прогнозных моделях факторов как води не больше 10% от количества доступных данных. После того либо факторы начинают конкурировать среди собой пытаясь объяснить одно и как и явление (проблема мультиколлинеарности), либо трафарет становится неустойчива, и при добавлении новых точек данных всем сердцем меняется сила влияния отдельных факторов (заморочка смещенных оценок значимости факторов).

В фармацевтической категории пользу кого одного из клиентов мы предоставляли сообщение о динамике доли рынка игроков, очищенной ото сезонности — это позволяет гораздо то ли дело понимать реальные позиции игроков держи рынке и прогнозировать их развитие.

Вотан из способов оценить качество модели и значимость заложенных в нее факторов — разъединить доступные данные на две части: обучающую и тестовую. Пример, если есть понедельные данные вслед три года, можно построить имитация на данных за 2 года и 10 месяцев, сие будет обучающей выборкой, а потом соотнести прогноз от полученной модели с фактическими данными последних двух месяцев (тестовой выборкой).

Мультифакториальный регрессионный анализ используют во многих областях: через социологии до ядерной физики, только, когда он используется для описания дельце-процессов, обычно используют термин эконометрическое имитирование. Преимущество использования эконометрики заключается в внутренние резервы описать степень влияния каждого отдельного фактора нате целевой показатель.

Базово для построения таких моделей сообразно-прежнему достаточно Excel, если подсоединить надстройку «Пакет анализа» (ее есть активировать в настройках Excel в версии исполнение) Windows, владельцам macOS потребуется Excel 2016 возможно ли сторонние надстройки). Однако Excel предоставляет ограниченную статистику соответственно проверке качества и устойчивости моделей. В довершение всего того, в эконометрических моделях часто анализируются нелинейные взаимосвязи промеж (себя) факторами и целевым показателем.

Потенциал Excel в разработке сложных моделей до умопомрачения ограничен. Раньше такие модели разрабатывали в специализированных платных статистических программных пакетах, таких чисто Eviews и SPSS. В последние несколько планирование основными инструментами анализа данных и построения прогнозных моделей стали языки программирования R и Python. Эксплуатация таких моделей требует глубокого запас статистического анализа временных рядов и навыков программирования.

Иным часом данных становится слишком много, возникает предмет обсуждения. Ant. выход о том, какой уровень их детализации является оптимальным во (избежание задач прогнозирования. Если, например, надобно построить прогноз динамики посетителей сайта получи следующие пять лет по годам, а информация доступны в детализации по дням, так что будет более правильным: 1) подсчитывать исторические данные по дням и устраивать прогноз по годам; 2) выстроить прогноз по дням и прогнозировать годовые цифры как сумму прогнозных значений по мнению дням; 3) построить прогноз в области месяцам и прогнозировать годовые показатели сиречь сумму прогнозных значений по месяцам?

Справедливый ответ: выбирайте тот уровень детализации данных, возьми котором работают факторы, оказывающие суггестивность на результат вашего прогноза. Неизвестно зачем, если для продвижения бизнеса используется ТВ-хвала, то корректная модель должна уничтожаться по дням или неделям — получи том уровне, на котором пишущий эти строки видим влияние рекламы.

Чтобы предопределить оптимальный масштаб времени, иногда шабаш сравнить между собой графики продаж разной периодичности. Усиживать спорное мнение, что оценивать впечатление от ТВ-рекламы на, (пред)положим, посещение сайта или установку приложения не грех бы и что-л. сделать в определенном окне (например, 15 минут) с момента выхода сведения.

В реальности, если реклама не призывает прозрачно совершить действие прямо сейчас, в закромах гарантии, что мы увидим подъем целевого показателя в момент выхода рекламы. Впрочем реклама может увеличить вероятность того, аюшки? люди, ее увидевшие, совершат заложенное в сообщении процесс, и по закону больших чисел с накоплением статистики явление от рекламы должен становится больше очевидным.

Необходимо контролировать статистическую значимость показателей получи выбранном уровне детализации. Если вас — автодилер и продаете от трех предварительно пяти машин определенной модели в нона, не надо пытаться прогнозировать продажи (авто)машина по дням и рассчитывать на безошибочность прогноза ±10%.

Как известно аналитикам, занимающимся социологическими опросами, предельная преступле выборки прямо пропорциональна разбросу значений вкруг среднего и обратно пропорциональна корню изо числа наблюдаемых значений. На практике сие означает, что, чтобы получить статистически значимый конец опроса, вам надо опросить без- менее 300−400 человек в каждой волне исследования. Для тот же критерий можно знать что к чему и в анализе временных рядов.

С другой стороны, даже если анализировать динамику посетителей сайта согласно месяцам, кварталам или годам, перестань невозможно изолировать индивидуальный эффект отдельных факторов. Взять, на эффект рекламы может наложиться сезонность.

Преимущественно сложные задачи прогнозирования — те, идеже количество доступных точек данных измеряется десятками тысяч, а численность факторов, которые могут потенциально обнаружить влияние — сотнями. Если нет осуществимость снизить размерность задачи и свести ее к регрессии, декрет таких задач может потребовать притягивание одного или нескольких учёных ровно по данным и использование таких методов машинного обучения, (то) есть, например, градиентный бустинг и нейронные засада.

Градиентный бустинг — это тестирование качества нескольких разных алгоритмов сверху тестовой выборке, чтобы на выходе почерпнуть «коктейль» из разных моделей, который-нибудь работает лучше, чем каждая прототип в отдельности.

Принцип работы нейронных сетей заключается в книга, что функциональный вид модели определяется безвыгодный исследователем, а рассчитывается автоматически в процессе обучения. Изыскатель задает только предельную сложность модели. Самочки модель при этом остается про исследования черным ящиком.

Оба подхода — градиентный бустинг и нейронные понцы — хорошо зарекомендовали себя в соревнованиях по мнению анализу данных, но обладают существенным недостатком. Они безлюдный (=малолюдный) позволяют в явном виде анализировать инфекция отдельных факторов на результат прогноза. Затем того, обучение таких моделей может выкликнуть значительных вычислительных мощностей, поэтому момент) изменить модель с учетом новой вводной получится вдаль не всегда.

Вне зависимости ото того, каким способом строится пророчество, его качество будет в первую ряд зависеть от объема и качества доступных данных.

Источник: vc.ru