РУС/ENG
Кафедра математики
физического факультета МГУ

Теоретические основы аналитики больших данных и алгоритмов вычислений реального времени

Рассматриваются особенности анализа больших данных, такие как проблемы извлечения, унификации, обновления и объединения информации и требования к обработке данных, которая должна быть параллельной и распределенной. С учетом этих особенностей в курсе рассматривается ряд математических инструментов для анализа больших данных, таких как линейное оценивавшие, задачи калибровки, обработки в реальном масштабе времени входящего (потенциально бесконечного) набора данных.

Лекторы

Цели курса

Основной целью данного курса является предоставить студентам уникальную возможность приобрести концептуальную основу и математические инструменты, применимые к аналитике больших данных и вычислений в режиме реального времени. Курс дает краткий обзор основных фаз работы с большими данными, таких как извлечение, унификации, обновления и объединение информации и специфических особенностей обработки данных, которая должны быть в высшей степени параллельной и распределенной. Имея в виду эту  специфические особенности, мы затем более подробно изучим ряд математических инструментов для анализа больших данных, таких как регрессионный анализ, линейное оценивание, проблемы калибровки, обработку в реальном масштабе времени входящего (потенциально бесконечного) потока данных. Мы увидим, как эти подходы могут быть преобразованы, чтобы соответствовать требованиям больших данных. Мы также обсудим, почему большинство широко используемых алгоритмических языков не вполне подходит для решения таких проблем и наметим альтернативные подходы.

 

Идеи курса

В рамках традиционных подходов к обработке информации мы должны собрать все данные в одном массиве и применить алгоритм обработки к нему. Если исходные данные распределены на множестве сайтов и их общий объем велик, это сразу приводит к определенным техническим проблемам:

  • Накопление всех исходных данные в одном месте потребует чрезмерных ресурсов для их хранения.
  • Применение традиционных алгоритмов к огромным массивам данных потребует чрезмерно много оперативной памяти, вычислительной мощности и времени.
  • Идея обработки всех данных сразу не раскрывает (и на самом деле затрудняет) возможности для параллельных и распределенных вычислений.

В курсе показано, что вместо того, чтобы собирать вместе все необработанные данные и обрабатывать все сразу, мы можем естественно разделить весь процесс на простые очень независимые части. В частности:

  • Извлечение определенной «достаточной» информации из каждого экземпляра исходных данных и представление ее в удобной «канонической» форме.
  • Объединение частей канонической информации.
  • Обновление накопленной канонической информации, по мере поступления новых данных.
  • Вычисление окончательного результата из накопленной информации в канонической форме.

Оказывается, что информация в канонической форме часто имеет фиксированный размер, который не зависит от количества исходных данных, используемых для ее производства. В результате все отдельные стадии извлечения канонической информации из исходных данных, ее объединение и получение конечного результата не требуют чрезмерного объема памяти или вычислительной мощности. После того, как две части канонической информации объединяются в одну, исходные части могут быть уничтожены. Извлечение и объединение частей канонической информации могут выполняться на разных компьютерах без необходимости синхронизации. Это предоставляет широкий спектр естественных вариантов для массивных параллельных распределенных вычислений.

 

Отчётность
зачет или экзамен
Содержание курса

Темы Курса

  1. Введение.
  2. Простые примеры канонической информации для больших объемов данных.
    1. Извлечение удобной «канонической» информации из «сырых» данных.
    2. Манипулирование канонической информацией: обновление и объединение.
    3. Основные свойства канонической информации.
  3. Линейная регрессия в качестве простого примера процесса «обучения».  Каноническая информация для известной и неизвестной дисперсии погрешности измерений.
  4. Введение в оптимальное оценивание.
  5. Некоторые сведения из линейной алгебры и теории вероятностей.
  6. Линейный эксперимент.
  7. Задача оптимального линейного оценивания.   Примеры.
  8. Объединение результатов линейных экспериментов в «сыром» виде.
  9. Каноническая информация для линейных экспериментов.
  10. Оптимальное оценивание с априорной информацией.
  11. Обновление информации: априорная => апостериорная. «Явная» форма информации.
  12. Манипулирования информацией в различных формах.
    1. Сырая, явная и каноническая формы представления информации.
    2. Преобразование одной формы в другую.
    3. Сравнение свойств для различных форм представления информации.
  13. Теорема Гаусса-Маркова.
  14. Линейное оценивание с неизвестным масштабом шума.
  15. Неопределенность в линейном преобразовании. Простейший случай.
  16. Оптимальное оценивание с неопределенностью в линейном преобразовании.
  17. Неизвестное преобразование измерения. Проблема калибровки.
  18. Каноническая калибровочная информация.
  19. Улучшение оценки путем накопления данных калибровки и повторяющихся измерений.
    1. Параллельное накопление калибровочной и измерительной информации в канонических формах.
    2. Применение калибровочной информации к измерительной информации.
  20. Обработка сигналов в реальном времени.
  21. Проблема обработки сигнала для бесконечного поля зрения.
  22. Обработка временных рядов. Балансировка точности оценивания, задержки и вычислительных потребностей.
  23. Обработка изображения с бесконечным полем зрения.
  24. Параллельная обработка сигналов и изображений.
  25. Примеры простых «параллельных» вычислений.
  26. Примеры «функционального» программирования для распараллеливания.

     

Дополнительная литература
  1. Пытьев Ю.П. Методы математического моделирования измерительно-вычислительных систем. М.: Физматлит, 2004.
  2. Пытьев Ю.П. Математические методы интерпретации эксперимента. М.: Высшая школа, 1989.

 

Материалы по курсу