Поисковая система и агрегатор новостей образовательных учреждений

ypv b3e81c4ade Merge branch 'master' of u19-23cherkasov/EduSearch into master 3 years ago
examples baea3a5db2 описание принципа работы 3 years ago
README.md 885d7c4e59 parser.py init 3 years ago
all.db 84ccd9a0bc crauler.py готов 3 years ago
all.db-journal 885d7c4e59 parser.py init 3 years ago
crauler.py 885d7c4e59 parser.py init 3 years ago
habr.com.html 885d7c4e59 parser.py init 3 years ago
innopolis.university.html 885d7c4e59 parser.py init 3 years ago
it-events.com.html 885d7c4e59 parser.py init 3 years ago
npedkol.ru.html 885d7c4e59 parser.py init 3 years ago
parser.py 885d7c4e59 parser.py init 3 years ago
Учебные заведения. md.txt 1644429931 Добавление 30 ссылок, 170 осталось 3 years ago

README.md

Поисковая система и агрегатор новостей образовательных учреждений

Мы студенты СПО, после окончания обучения планируем продолжать его в высших учебных заведениях. Поэтому для удачного поступления нам необходимы сертификаты и дипломы об индивидуальных достижениях. Многие вузы, фонды, организации проводят такие конкурсы. Но уследить за всеми - нереально. Поэтому наша поисковая система ищет новые страницы с упоминаниями о конкурсах на сайтах вузов и уведомляет в мессенджер о появлении новых. Узкоспециальный агрегатор новостей. Также ее можно использовать и как поисковую систему по сайтам учебных заведений.

Структура проекта

crauler.py - бот, "паук", краулер парсит ссылки на внутренние страницы сайтов. (ограничимся 2 уровнем)

parser.py - парсим текст с найденных ссылок

Инсталляция

pip install sqlalchemy
pip install bs4
pip install lxml
pip install tldextract