Разработка AI-системы прогнозирования успеваемости и риска отчисления
Предсказание академической успеваемости и риска отчисления — задача early intervention: выявить студентов, которым нужна поддержка, до того, как они провалят сессию или бросят учёбу. Университеты с такими системами снижают dropout rate на 15-30%.
Данные для прогнозирования
Академические данные:
- Оценки за прошлые семестры
- Посещаемость лекций и практик
- Результаты промежуточных тестов
- Динамика оценок: растёт или падает тренд
- Сравнение с когортой: percentile ranking
Поведенческие данные (LMS — Learning Management System):
- Логины в Moodle/Canvas/Blackboard: частота, время суток
- Просмотр учебных материалов: видеолекции, документы
- Сдача заданий: вовремя/опоздание/не сдал
- Участие в форумах: сообщения, ответы на комментарии
Административные данные:
- Тип программы (бакалавр/магистр), форма обучения (очно/заочно)
- Год обучения (1-й год — наибольший риск)
- Специальность
- Социально-демографические данные (при наличии и согласии): первое поколение в семье в вузе, работает параллельно
Feature Engineering
Early Warning Signals:
features_per_student = {
# Академические
'gpa_current_semester': current_semester_gpa,
'gpa_trend': current_gpa - previous_gpa,
'failed_courses_count': count(failed_courses),
'attendance_rate': attended / scheduled,
'assignment_completion_rate': submitted / total_assignments,
'avg_submission_delay_days': mean(submission_date - deadline),
# LMS активность
'lms_sessions_per_week': sessions_last_4_weeks / 4,
'lms_activity_trend': lms_sessions_week4 - lms_sessions_week1,
'video_completion_rate': completed_videos / assigned_videos,
'forum_posts': forum_messages_count,
# Контекстные
'days_until_exam': days_to_next_exam_period,
'credits_enrolled': current_semester_credits,
'course_difficulty_index': mean(course_failure_rates),
}
Важный признак — тренды: не абсолютное значение GPA, а его изменение. Студент с GPA 3.0, падающим с 3.8, — это другой риск по сравнению со студентом с GPA 3.0, растущим с 2.5.
Модели
Dropout risk (бинарная классификация):
- Таргет: отчисление или уход в академический отпуск в течение текущего учебного года
- LightGBM: лучшая accuracy для табличных академических данных
- Логистическая регрессия: для объяснимости (важно для GDPR и академической этики)
Grade prediction (регрессия):
- Прогноз финального балла по курсу на основе текущих показателей
- Ridge regression или Random Forest
Survival analysis: Time-to-dropout: сколько осталось до dropout при текущей динамике. Каплан-Мейер кривые per cohort.
Ethical и privacy considerations
Академические AI-системы требуют особой осторожности:
GDPR / 152-ФЗ:
- Явное согласие студентов на использование данных для predictive analytics
- Right to Explanation: студент может запросить объяснение, почему он получил высокий риск-скор
- Data minimization: собираем только необходимое
Algorithmic bias:
- Проверка fairness по группам: пол, возраст, национальность, социальное происхождение
- SHAP fairness: одинаковые фичи должны иметь одинаковый вес независимо от демографии
- Adverse impact analysis: не должна быть систематической дискриминации
Human-in-the-loop: Модель — инструмент поддержки тьютора, не автоматическое решение. Финальное решение об интервенции принимает человек.
Early Intervention система
Workflow:
- Еженедельный batch scoring всех студентов
- High risk (> 0.7): автоматическое уведомление куратора + рекомендованное действие
- Medium risk (0.4-0.7): добавление в watchlist куратора
- Куратор проводит 1:1 встречу, предлагает поддержку
- Логирование интервенций и исходов → обратная связь для улучшения модели
Типы интервенций:
- Направление на академическую поддержку (tutoring)
- Психологическая консультация (если признаки стресса/выгорания)
- Финансовая поддержка (если финансовые трудности — сигнал из анкеты)
- Корректировка учебной нагрузки
Метрики системы
- Precision на high-risk сегменте: > 70% (чтобы куратор не тратил время зря)
- Recall на dropout случаях: > 80% (поймать как можно больше реальных рисков)
- Early warning time: за сколько недель до фактического dropout модель даёт сигнал
- Intervention effectiveness: снижение dropout rate в treated vs. control группе
Сроки: базовая модель риска отчисления на LMS + академических данных — 4-6 недель. Полноценная система с dashboard для тьюторов, fairness аудитом и intervention tracking — 3-4 месяца.







