Поисковая система и агрегатор новостей образовательных учреждений
|
há 3 anos atrás | |
---|---|---|
examples | há 3 anos atrás | |
README.md | há 3 anos atrás | |
all.db | há 3 anos atrás | |
career.innopolis.university.html | há 3 anos atrás | |
crauler.py | há 3 anos atrás | |
habr.com.html | há 3 anos atrás | |
innopolis.university.html | há 3 anos atrás | |
it-events.com.html | há 3 anos atrás | |
media.innopolis.university.html | há 3 anos atrás | |
npedkol.ru.html | há 3 anos atrás | |
parser.py | há 3 anos atrás | |
Учебные заведения. md.txt | há 3 anos atrás |
Мы студенты СПО, после окончания обучения планируем продолжать его в высших учебных заведениях. Поэтому для удачного поступления нам необходимы сертификаты и дипломы об индивидуальных достижениях. Многие вузы, фонды, организации проводят такие конкурсы. Но уследить за всеми - нереально. Поэтому наша поисковая система ищет новые страницы с упоминаниями о конкурсах на сайтах вузов и уведомляет в мессенджер о появлении новых. Узкоспециальный агрегатор новостей. Также ее можно использовать и как поисковую систему по сайтам учебных заведений.
crauler.py - бот, "паук", краулер парсит ссылки на внутренние страницы сайтов. (ограничимся 2 уровнем)
parser.py - парсим текст с найденных ссылок
pip install sqlalchemy
pip install bs4
pip install lxml
pip install tldextract
pip install nltk
pip install pymystem3