Анализ тональности фраз с помощью нейронных сетей

Всем привет!

Все люди, получающие высшее образование, не отчислившись, все-таки доходят до стадии написания диплома. Не стал исключением и я. Хотелось реализовать что-то интересное и освоить доселе неизученное, поэтому обратил внимание на тему нейронных сетей и искусственного интеллекта в целом. А задачей, которую я решал с помощью нее, является анализ тональности текста, что и так широко применятся в различных системах мониторинга. Процесс ее решения я и попытаюсь описать в данной статье.

Короче говоря, цель — понять присутствует ли у фразы положительный оттенок или отрицательный. Сразу хочу сказать, что эту задачу можно решать несколькими способами, и не только нейросетями. Можем составлять словари в которых отмечены позиции слов и т.д. (все методы есть на хабре в избытке), но на каждый способов может уйти еще по статье, поэтому оставим их обзор на потом.

Данные

Первой задачей на моем пути оказался сбор и предобработка данных для обучения. Хорошим датасетом для такого дела является корпус коротких текстов Рубцовой Ю., предварительно разделенный на негативные и позитивные предложения, собранные на просторах Твиттера. Что особенно удобно — все это существует в формате CSV.

Подготовка к обучению

Обратите внимание, в каком виде представлены данные — куча смайликов, ссылок, ненужных символов, обращений. Все это не является важной информацией и только мешает обучению, к тому же надо убрать все на латинице. Поэтому текст хорошо бы предобработать. Читать дальше →


Автор записи: Серёжа

Администратор сайта

Комментировать “Анализ тональности фраз с помощью нейронных сетей”