Регрессия

В общественных науках большинство функциональных зависимостей носит статистический характер. Одним из эффективных математических методов для определения зависимости по множеству измеренных данных является регрессионный анализ.

Общее назначение множественной регрессии (термин введен Пирсоном, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Исследователь в области образования может узнать, какие факторы являются наиболее «весомыми» для показателей успеваемости в средней школе. Упрощенно, формулировка задачи линейной регрессии состоит в подгонке прямой линии к некоторому набору точек.

Уравнение регрессии.

Прямая линия на плоскости (в двумерном пространстве) задается уравнением  $$Y = b \cdot x + a$$; более подробно: переменная Y может быть выражена через константу (a) и угловой коэффициент ( b), умноженный на переменную X. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом. Целью процедур линейной регрессии является вычислении прямой линии по точкам, соблюдая условие: минимизировать квадраты отклонений этой линии от наблюдаемых точек. Поэтому эту процедуру иногда называют как оценивание по методу наименьших квадратов.

Рассмотрим следующие данные. Мы выписали итоговые оценки учащихся нашего класса за период – триместр, по всем учебным предметам. Примечание - система оценивания, принятая в нашем лицее, базируется на 15-балльной шкале.  Т.е. мы используем обычные школьные оценки, сведенные в таблицу. Каждая строка таблицы – оценки одного учащегося по всем предметам, каждый столбец таблицы – оценки одного предмета по всем учащимся класса.

Сформулируем задачу: определить - существует ли линейная зависимость между частной успеваемостью учащихся по выбранному предмету и средними показателями успеваемости (усреднение без выбранного учебного предмета). Таким образом, в качества независимого фактора (X) выступает  средняя успеваемость – построчная сумма всех баллов, за исключением оценки за выбранный предмет, деленная на количество суммируемых оценок.

Русский язык Литература Алгебра
Геометрия История России
Всеобщая история

География

Общест-ие

Биология Экология
Физика 
Химия 
МХК
Англ. яз.  
Инфор-ка
Физ-ра
 12  13  13  12  12  12 12
 13  12  14  12  12  13  12  12  12
12 
12
12
11
10
12
12
13
12
12
12
12
13
12
12
13
11
12
10
10
10
12
12
12
12
13
11
12
11
11
13
12
11
12
12
12
12
13
12
12
12
12
12
12
12
10
12
13
9
12
12
12
14
12
10
12
13
13
11
10
12
12
13
12
9
9
9
9
10
9
10
10
9
11
9
10
12
9
11
12
 7 10
10
10
9
10
8
9
9
9
9
9
10
9
12
13
12
12
12
11
13
12
13
13
12
12
12
11
13
12
12
12
 9 11
10
9
10
12
11
12
9
13
8
9
14
8
11
12
 9 9
10
10
12
13
10
13
11
12
10
10
12
12
12
12
 11 11
10
9
10
11
10
12
9
12
10
10
12
10
11
13
 10 10
9
10
9
12
10
11
9
13
11
9
13
10
12
11
 9 12
12
12
9
12
11
13
12
13
11
12
13
10
13
11
 9 10
10
11
11
11
11
12
9
9
9
10
12
9
12
12
 9 11
9
10
10
12
10
12
9
13
9
9
13
10
12
12
 7 8
9
10
10
11
9
10
8
7
9
9
11
9
12
11

Независимая переменная Y – разность между оценкой по выбранному предмету оценки и средним баллом X. Все вычисления можно проводить с помощью известной программы MS Excel. Для этого следует включить надстройку «Пакет анализа» и выбрать пункт меню «Анализ данных». Для оценки качества подобранного уравнения регрессии используется параметр R2. Не обсуждая процедуру вычисления этого параметра, заметим, что он принимает значения от 0 до 1. И чем ближе значение к 1, тем лучше качество линейной аппроксимации.

Мы последовательно провели вычисления и построили регрессионные зависимости для всех учебных предметов. Результат данного численного эксперимента приведен в сводной таблице:


Учебный предмет Уравнение регрессии R2

1

Русский язык

0.431879 X  - 5.97767

0.132367

2

Литература

0.240822 X  - 2.7229

0.0669416

 3

Алгебра

0.169699 X  - 2.26011

0.0335039

 4

Геометрия

2.86073 - 0.307701 X

0.0987309

 5

История России

0.804708 - 0.0979637 X

0.00551141

 6

Всеобщая история

2.81844 - 0.196732 X

0.0518536

 7

Обществознание

0.00939578 X   + 0.819136

0.000125559

 8

География

0.0975758 X  - 1.2785

0.0105472

 9

Биология

0.566837 X  - 6.88227

0.218213
10

Экология

0.253588 X  - 1.90678 0.0236937

 11

Физика

0.203768 X  - 2.88851

0.0531365

 12

Химия -0.0522355 X  - 0.135008

0.00260265

 13

МХК
8.25956 - 0.628856 X

0.291601

14

Английский язык

0.111258 X  - 1.99726

0.0119557

15

Информатика

12.6734 - 1.11544 X

0.187029

 16

Физкультура

10.5086 - 0.86305 X

0.584706

Можно видеть, что в большинстве случаев уверенно говорить о наличии зависимости между успеваемостью по отдельному учебному предмету и средней успеваемостью нельзя. То есть, процедуры оценивания по учебным предметам достаточно независимы и не существует интегрального фактора, влияющего на успеваемость. Рассмотрим частные примеры.

Горизонтальная ось – шкала баллов средней успеваемости, вертикальная ось – оценки по литературе, за вычетом среднего балла. На графике изображено «облако» точек – экспериментальные значения по выбранной группе учащихся и прямая линия – график вычисленной функции линейное регрессии.

Интерпретировать этот график можно так: оценивание по литературе производится более строго по отношению к слабоуспевающим учащимся (оценки предмета ниже средней на 0,5 баллов) и, наоборот, чем выше средняя  успеваемость, тем оценка по литературе имеет дополнительный бонус (примерно 0,3 балла). Возможно эта тенденция определяется субъективным отношением учителя, а, возможно тем, что именно в изучении литературы большое значение приобретают общезначимые факторы: добросовестное отношение к учебе, интеллектуальное развитие,  творческий потенциал учащихся и так далее.

Другой пример.

image283

Горизонтальная ось – шкала баллов средней успеваемости, вертикальная ось – оценки по обществознанию, за вычетом среднего балла. На графике изображено «облако» точек – экспериментальные значения по выбранной группе учащихся и прямая линия – график вычисленной функции линейное регрессии.

Здесь мы видим, что линия регрессии выше горизонтальной оси на 1 балл и имеет нулевой наклон. Возможные выводы – учитель завышает оценку, причем одинаково для всех групп учащихся и/или знания по  предмету существенно определяются вышеуказанными общезначимыми факторами успеваемости.

Еще один пример.

image285

Горизонтальная ось – шкала баллов средней успеваемости, вертикальная ось – оценки по химии, за вычетом среднего балла. На графике изображено «облако» точек – экспериментальные значения по выбранной группе учащихся и прямая линия – график вычисленной функции линейное регрессии.

Функция регрессии убывает и принимает значение –0,5 баллов при значении средней успеваемости 9 баллов. Можно предположить, что преподаватель химии оценивает знания учащихся более требовательно, причем, чем выше средний уровень учащегося, тем оценивание строже

Итак, здесь мы рассмотрели один из наиболее известных методов определения функциональной зависимости в случае, когда реальный процесс носит статистический характер.