In [1]:
import numpy as np
import pickle
import matplotlib.pyplot as plt
import re
from sklearn.feature_extraction import FeatureHasher
from sklearn.cross_validation import train_test_split
%matplotlib inline

## Описание задания

Вам предлагается реализовать метод стохастического градиентного спуска для
оптимизации функции потерь в логистической регресси в задаче классификации текстов. 

В исследуемой выборке находятся $8\,144$ текстов. Каждый текст относится к одному из классов,
метка класса $y$  может принимать значения $-1$ (отрицательный класс) и $+1$ (положительный класс).

Для генерации признаков будем использовать хэширование слов:
1. Выберем число $d$, обозначающее количетсво различных значений, которое может принимать хэш-функция.
1. Сопоставим $i$-ому тексту вектор $x_i = (x_i^1, x_i^2, \dots, x_i^d)$, где число $x_i^k$ обозначает количетво встретившихся в данном тексте слов со значением хэш-функции равным $k$.

** Так как значение $d$ может быть достаточно большим мы не будем в явном виде хранить признаковые описания текстов. **

Для решения задачи классификации мы будем использовать метод логистической регрессии.
Пусть вектор $w = (w_1, w_2, \dots, w_d)$ вектор параметров нашей модели.
В таком случае вероятность отнесения объекта $x$ к положительному классу выражается следующими формулами:

$$
    p(y = +1 | x) = \sigma(<w, x>) = \frac{1}{1 + \exp{(w_1 x^1 + w_2 x^2 + \dots + w_d x^d)}}
$$

Будем относить объект к положительному классу, если вероятность его принадлежности к первому классу превосходит $\frac{1}{2}$




Для настройки параметром будем минимизировать значение логистической функции потерь:


$$
    Q(w_1, \dots, w_d) = \frac{1}{N} \sum\limits_{i = 1}^N \log{\left[1 + \exp{\left(-y_i \left[w_1 x_i^1 + w_2 x_i^2 + \dots + w_d x_i^d \right] \right)}\right]}  \rightarrow \min \limits_{w = (w_1, w_2, \dots, w_d)}
$$

Частная производная функции $Q$ по параметру $w_k$ вычисляется по следующей формуле:


$$
    Q(w_1, \dots, w_d)'_{w_k} = \frac{1}{N} \sum\limits_{i = 1}^N \frac{-y_i x_i^k}{\left[1 + \exp{\left(y_i \left[w_1 x_i^1 + w_2 x_i^2 + \dots + w_d x_i^d \right] \right)}\right]}
$$



### Подзадача 0
* Загрузите данные

In [2]:
data = pickle.load(open('./text_dataset.pkl', 'rb'))

* Переведите во всех документах все буквы в нижний регистр. 
* Замените во всех документах символы, не являющиеся буквами и цифрами, на пробелы. Полезные функции: .lower, .isalnum.
* Разбейте каждый документ на термы по пробельным символам (пробелы, переносы строки). Полезная функция: .split()
* Релизуйте функции hash_texts(text, d), которая принимает список текстов и число $d$ и заменяет слова во всех текстах на значения хэш-функции от этих слов. (Не забудьте взять хэш-функцию по модулю $d$). Выполните хэширование датасета.
* Разбейти выборку на тренировочную и тестовую

### Подзадача 1
Реализуйте следующие функции:
* calc_loss(H, y, w). Функция принимает 
    * H - хэшированные представления текстов: список списков хешированных представлений текстов
    * y - соответствующие метки классов для текстов,
    * w - вектор параметров модели.
    * И возвращает значение функции потерь.


* calc_accuracy(H, y, w). Функция принимает 
    * H - хэшированные представления текстов: список списков хешированных представлений текстов
    * y - соответствующие метки классов для текстов,
    * w - вектор параметров модели.
    * И возвращает долю верно классифицированных объектов.


* SGD(H, y, w_init, alpha, steps=10). Функция принимает
    * H - хэшированные представления текстов: список списков хешированных представлений текстов
    * y - соответствующие метки классов для текстов,
    * w_init - начальный вектор параметров модели,
    * alhpha(step) - функцию, принимающую номер текущего шага и возвращающую длинну шага для текущей итерации,
    * steps - число шагов, которое необходимо выполнить. 
    * Функция должна возвращать оптимальный вектор $w$.
    
Подберите значение параметра $d$ и длину шага, чтобы обученная модель получала не менее 90% 
точность на тестовой выборке.

**В качестве H и y передаются признаки и метки для mini-batch -- случайного подмножества текстов из обучающей выборки**

### Подзадача 2
Добавьте в модель $L_2$-регуляризацию. Как изменятся формулы пересчёта для SGD? 

Исправьте все функции так, чтобы добавить в модель $L_2$ регуляризацию.