User Tools

Site Tools


mag:ais

This is an old revision of the document!


Аналитические информационные системы

Лекции

Лекции четыре штуки:

  1. Вводно-обзорная (не нарезана). Можно посмотреть 2-ю и затем эту.
  2. Извлечение, трансформация, сохранение в промежуточную базу данных.
  3. Хранилища данных, представление данных, гиперкуб, OLAP -->.
  4. Аналитическая обработка данных в хранилище
    1. Многомерный статистический анализ (МСА) данных: Регрессия, Классификация, Таксономия
    2. Использование FRiS-функция для решения задач МСА

Весь плей-лист.

Лабораторная

Цель лабораторной работы - выполнить все шаги разработки аналитической части к информационной системе:

  1. Извлечение, трансформация, сохранение извлечённых данных в промежуточную БД (в хранилище данных, ХД).
  2. Представление (извлечение из ХД) исходной таблицы данных для МСА, организация этого извлечения в виде гиперкуба, озера и т.п.
  3. Проведение аналитики (МСА), или разработки подсистемы выдачи “отчета”, или разработать умную процедуру выдачи “гибкого отчета” (сложная задача), или идентификация модели (суперкруто, хотя зависит от сложности модели), или создать страницу BI в Metabase и т.п.

Соединение с сервером

Для выполнения работ необходимо войти в виртуальную сеть (VPN) при помощи программы Zerotier, адрес сети находится в канале, здесь я его публиковать не буду.

  1. Качаете программу, устанавливаете (в современных дистрибутивах Linux пакет называется zerotier-one),
  2. Выполняете подключение своего компьютера командой join <hex-идентификатор сети> или через интерфейс в трее Windows.

Сервисы сервера 192.168.191.46 (kuber)

я сначала пишу документацию, потом настрою сервисы

Сервер находится в ИрНИТУ, (Научно-исследовательский иркутский государственный технический университет). Объем дискового пространства - 1.1 T, оперативной памяти - 58 Гигабайт + 58 Гигабайт swap.

  1. СУБД Postgres-14 (стандартный порт 5432) с доступом к нему из командной строки (пользователь leti с паролем) в терминале ssh или через ssh-туннель (не тестировал).
    1. pgsql -U leti <имя БД или leti>,
    2. pgcli <имя БД или leti> leti - командная строка с автодополнением.
  2. К PostgreSQL в сети VPN есть доступ при помощи pgAdmin4 http://192.168.191.46:8888/, пользователь leti@etu.ru, пароль сообщу в канал.
  3. СУБД Microsoft SQL Server (стандартный порт ….), доступ из командной строки sqlcmd -C -U leti, также mssql-cli -C -U leti (еще не установил).
    1. mssql-cli -C -S localhost -U <имя пользователя> -d <имя базы данных> -P '<пароль>' - командная строкас автодополнением.
    2. Доступ в DBeaver через ssh - туннель с данными учетной записи.
  4. Сервер поддерживает Docker.
  5. В командной строке работает pyenv github repo и plug-in pyenv-virtualenv.
  6. Веб-приложение Metabase http://192.168.191.46:3000/ .
  7. Веб-приложение Jupyter Lab http://kuber.isclan.ru:8880/lab (пароль обычный). в консоли можно добавлять новые модули pip install <модуль>. Установлены следующие модули:
    1. Математические библиотеки numpy, pandas, scipy, matplotlib;
    2. Object-relational mapper sqlalchemy https://docs.sqlalchemy.org/en/20/orm/quickstart.html
    3. модуль для PostgreSQL (psycopg2), https://docs.sqlalchemy.org/en/20/dialects/postgresql.html ;
    4. MySQL/MariaDB (mysqlclient, но локального сервера нет, заказывайте), https://docs.sqlalchemy.org/en/20/dialects/mysql.html ;
    5. MS SQL Server (pymssql, PyODBC, не тестировал), https://docs.sqlalchemy.org/en/20/dialects/mssql.html .
    6. SQLite3 (встроен в Python, sqlite3), https://docs.sqlalchemy.org/en/20/dialects/sqlite.html .

Удаленный доступ к серверу по ssh

ssh 192.168.191.46 -l leti

Варианты задач

Комбинируем вариант базы данных:

  1. northwind,
  2. dvdrental.
  3. airflies

Метод многомерного анализа данных (МСА):

  1. Регрессионный анализ,
  2. Классификация,
  3. Таксономия (aka Кластерный анализ),
  4. Анализ информативной емкости атрибутов и/или объектов (aka Метод главных компонент),
  5. (Не пробовал на базах данных) Планирование эксперимента,
  6. Задачи 1-5, примененные к временным рядам и биоинформатическим данным.

В Теории вероятностей есть задачи на

  1. Построение гистограмм и тестирования гипотез.

Полезные ссылки

Создайте себе папку и там работайте, если требуется отдельный пользователь, пишите в Telegram @eugeneai.

mag/ais.1688089883.txt.gz · Last modified: 2023/06/30 09:51 by eugeneai