User Tools

Site Tools


mag:ais

Аналитические информационные системы

Курс преследует целью научить студента разрабатывать аналитические подсистемы для информационных систем (ИС). Согласно одному из определений информатики, науке об обработке информации, основная задача обработки информации - подготовить данные (информацию) для принятия решения. В учреждениях, где функционируют ИС, эту задачу решают аналитические подсистемы этих ИС. Данные ИС извлекаются, трансформируются, сохраняются в промежуточные хранилища, и, затем, обрабатываются. В результате обработки необходимо получить сводные данные, оформленные в виде, например, отчетов, понятных лицам, принимающим решение.

Лекции

Лекции четыре штуки:

  1. Вводно-обзорная (не нарезана). Можно посмотреть 2-ю и затем эту.
  2. Извлечение, трансформация, сохранение в промежуточную базу данных.
  3. Хранилища данных, представление данных, гиперкуб, OLAP -->.
  4. Аналитическая обработка данных в хранилище
    1. Многомерный статистический анализ (МСА) данных: Регрессия, Классификация, Таксономия
    2. Использование FRiS-функции для решения задач МСА

Весь плей-лист.

Лабораторная

Цель лабораторной работы - выполнить все шаги разработки аналитической части к информационной системе:

  1. Извлечение, трансформация, сохранение извлечённых данных в промежуточную БД (в хранилище данных, ХД).
  2. Представление (извлечение из ХД) исходной таблицы данных для МСА, организация этого извлечения в виде гиперкуба, озера и т.п.
  3. Проведение аналитики (МСА), или разработки подсистемы выдачи “отчета”, или разработать умную процедуру выдачи “гибкого отчета” (сложная задача), или идентификация модели (суперкруто, хотя зависит от сложности модели), или создать страницу (dash board BI) в Metabase и т.п.

Соединение с сервером

Для выполнения работ необходимо войти в виртуальную сеть (VPN) при помощи программы Zerotier, адрес сети находится в канале, здесь я его публиковать не буду.

  1. Качаете программу, устанавливаете (в современных дистрибутивах Linux пакет называется zerotier-one),
  2. Выполняете подключение своего компьютера командой join <hex-идентификатор сети> или через интерфейс в трее Windows.

Сервисы сервера 192.168.191.46 (kuber)

все работает, если работает сервер в ИРНИТУ

Сервер находится в ИрНИТУ, (Научно-исследовательский иркутский государственный технический университет). Объем дискового пространства - 1.1 T, оперативной памяти - 58 Гигабайт + 58 Гигабайт swap.

  1. СУБД Postgres-14 (стандартный порт 5432) с доступом к нему из командной строки (пользователь leti с паролем) в терминале ssh или через ssh-туннель.
    1. pgsql -U leti <имя БД или leti>,
    2. pgcli <имя БД или leti> leti - командная строка с автодополнением.
  2. К PostgreSQL в сети VPN есть доступ при помощи pgAdmin4 http://192.168.191.46:8888/, пользователь leti@etu.ru, пароль сообщу в канал.
    1. Доступ в DBeaver через ssh - туннель с данными учетной записи.
  3. Сервер поддерживает Docker.
  4. В командной строке работает pyenv github repo и plug-in pyenv-virtualenv.
  5. Веб-приложение Metabase http://192.168.191.46:3000/ .
  6. Веб-приложение Jupyter Lab http://kuber.isclan.ru:8880/lab (пароль обычный). в консоли можно добавлять новые модули pip install <модуль>. Установлены следующие модули:
    1. Математические библиотеки numpy, pandas, scipy, matplotlib;
    2. Object-relational mapper sqlalchemy https://docs.sqlalchemy.org/en/20/orm/quickstart.html
    3. модуль для PostgreSQL (psycopg2), https://docs.sqlalchemy.org/en/20/dialects/postgresql.html ;
    4. MySQL/MariaDB (mysqlclient, но локального сервера нет, заказывайте), https://docs.sqlalchemy.org/en/20/dialects/mysql.html ;
    5. MS SQL Server (pymssql, PyODBC, не тестировал), https://docs.sqlalchemy.org/en/20/dialects/mssql.html .
    6. SQLite3 (встроен в Python, sqlite3), https://docs.sqlalchemy.org/en/20/dialects/sqlite.html .

Удаленный доступ к серверу по ssh

ssh 192.168.191.46 -l leti

Варианты задач

Комбинируем вариант базы данных:

  1. northwind
  2. dvdrental
  3. airflies
  4. можно взять любую другую БД или CSV-файл даже

Метод многомерного анализа данных (МСА):

  1. Регрессионный анализ,
  2. Классификация,
  3. Таксономия (aka Кластерный анализ),
  4. Анализ информативной емкости атрибутов и/или объектов (aka Метод главных компонент),
  5. (Не пробовал на базах данных) Планирование эксперимента,
  6. Задачи 1-5, примененные к временным рядам и биоинформатическим данным.

В Теории вероятностей есть задачи на

  1. Построение гистограмм и тестирования гипотез.

Полезные ссылки

Создайте себе папку и там работайте, если требуется отдельный пользователь, пишите в Telegram @eugeneai.

mag/ais.txt · Last modified: 2024/05/14 08:47 by eugeneai