Поисковая система и агрегатор новостей образовательных учреждений

ypv fa2c7d67da пример лемматизации MyStem há 3 anos atrás
examples baea3a5db2 описание принципа работы há 3 anos atrás
README.md 47369a6eee stemming init há 3 anos atrás
all.db 1d918a7a0d краулер ссылок 2го уровня há 3 anos atrás
career.innopolis.university.html 1d918a7a0d краулер ссылок 2го уровня há 3 anos atrás
crauler.py 1d918a7a0d краулер ссылок 2го уровня há 3 anos atrás
habr.com.html 1d918a7a0d краулер ссылок 2го уровня há 3 anos atrás
innopolis.university.html 1d918a7a0d краулер ссылок 2го уровня há 3 anos atrás
it-events.com.html 1d918a7a0d краулер ссылок 2го уровня há 3 anos atrás
media.innopolis.university.html 1d918a7a0d краулер ссылок 2го уровня há 3 anos atrás
npedkol.ru.html 1d918a7a0d краулер ссылок 2го уровня há 3 anos atrás
parser.py fa2c7d67da пример лемматизации MyStem há 3 anos atrás
Учебные заведения. md.txt 1644429931 Добавление 30 ссылок, 170 осталось há 3 anos atrás

README.md

Поисковая система и агрегатор новостей образовательных учреждений

Мы студенты СПО, после окончания обучения планируем продолжать его в высших учебных заведениях. Поэтому для удачного поступления нам необходимы сертификаты и дипломы об индивидуальных достижениях. Многие вузы, фонды, организации проводят такие конкурсы. Но уследить за всеми - нереально. Поэтому наша поисковая система ищет новые страницы с упоминаниями о конкурсах на сайтах вузов и уведомляет в мессенджер о появлении новых. Узкоспециальный агрегатор новостей. Также ее можно использовать и как поисковую систему по сайтам учебных заведений.

Структура проекта

crauler.py - бот, "паук", краулер парсит ссылки на внутренние страницы сайтов. (ограничимся 2 уровнем)

parser.py - парсим текст с найденных ссылок

Инсталляция

pip install sqlalchemy
pip install bs4
pip install lxml
pip install tldextract
pip install nltk
pip install pymystem3