Построение простой регрессионной модели.
В основе модели лежит датасет с данными по средней годовой смертности на 100000 населения и концентрации кальция в питьевой воде для 61 большого города в Англии и Уэльсе. Города дополнительно поделены на северные и южные.
Исследование проходило с использованием библиотек Python Matplotlib, Seaborn, Sklearn, Statsmodels.
Исследование включало четыре этапа:
- подготовка и проверка данных на применимость модели линейной регрессии;
- обучение модели;
- прогноз
- проверка качества прогноза на тестовых даных.
Построение модели LDA.
Обучение модели осуществлялось на классических данных о разновидностях цветка ириса
Исследование проходило с использованием библиотек Python Matplotlib, Pandas, Sklearn.
Исследование включало следующие этапы:
- подготовка данных;
- разделение на выборки для обучения и теста;
- нормализация данных;
- обучение модели;
- прогноз;
- проверка качества прогноза на тестовых данных;
- оценка качества модели, дополнительно - применение метода К-средних для поиска оптимального количества классов.
Построение модели логистической регрессии для оценки СМС по признаку СПАМа (SPAM detection). Для обучения модели взят датасет, который содержит 5572 коротких сообщеия на английском языке.
Исследование включало следующие этапы:
- подготовка данных;
- очистка текста;
- лемматизация;
- разделение данных на test и train, обучение модели;
- прогноз;
- проверка качества прогноза на тестовых данных, построение матрицы ошибок;
- оценка качества модели, создаие датафрейма, в котором содержатся ошибочно классифицированые сообщеия.
Исследование проходило с использованием библиотек и модулей Python: pandas, glob, re, nltk, skipy, sklearn.