Поисковая система и агрегатор новостей образовательных учреждений

ypv fa2c7d67da пример лемматизации MyStem 3 年之前
examples baea3a5db2 описание принципа работы 3 年之前
README.md 47369a6eee stemming init 3 年之前
all.db 1d918a7a0d краулер ссылок 2го уровня 3 年之前
career.innopolis.university.html 1d918a7a0d краулер ссылок 2го уровня 3 年之前
crauler.py 1d918a7a0d краулер ссылок 2го уровня 3 年之前
habr.com.html 1d918a7a0d краулер ссылок 2го уровня 3 年之前
innopolis.university.html 1d918a7a0d краулер ссылок 2го уровня 3 年之前
it-events.com.html 1d918a7a0d краулер ссылок 2го уровня 3 年之前
media.innopolis.university.html 1d918a7a0d краулер ссылок 2го уровня 3 年之前
npedkol.ru.html 1d918a7a0d краулер ссылок 2го уровня 3 年之前
parser.py fa2c7d67da пример лемматизации MyStem 3 年之前
Учебные заведения. md.txt 1644429931 Добавление 30 ссылок, 170 осталось 3 年之前

README.md

Поисковая система и агрегатор новостей образовательных учреждений

Мы студенты СПО, после окончания обучения планируем продолжать его в высших учебных заведениях. Поэтому для удачного поступления нам необходимы сертификаты и дипломы об индивидуальных достижениях. Многие вузы, фонды, организации проводят такие конкурсы. Но уследить за всеми - нереально. Поэтому наша поисковая система ищет новые страницы с упоминаниями о конкурсах на сайтах вузов и уведомляет в мессенджер о появлении новых. Узкоспециальный агрегатор новостей. Также ее можно использовать и как поисковую систему по сайтам учебных заведений.

Структура проекта

crauler.py - бот, "паук", краулер парсит ссылки на внутренние страницы сайтов. (ограничимся 2 уровнем)

parser.py - парсим текст с найденных ссылок

Инсталляция

pip install sqlalchemy
pip install bs4
pip install lxml
pip install tldextract
pip install nltk
pip install pymystem3