Большие данные о языках в справочнике Ethnologue



84 года назад SIL (Летняя школа лингвистики) была маленькой исследовательской группой, занимавшейся изучением местных языков для миссионерской деятельности. Теперь это Международная организация со штатом более 6000 сотрудников из разных стран, признанная ЮНЕСКО и научным сообществом.



Результаты многолетней полевой работы и систематизации данных SIL публикует на сайте Ethnologue.com. Сейчас это наиболее полный справочник о языках мира, где собраны не только статьи, но и карты и графики, визуализирующие информацию.



К сожалению, Этнолог является частично платным. В этом посте мы расскажем о его бесплатном функционале.



Ethnologue для любознательных: всё, что вы хотели узнать



На отдельной странице сайта (Guides) собраны самые популярные вопросы о языках. Каждый ответ сопровождается картой, графиком или диаграммой. Самый популярный вопрос — это, разумеется, вопрос о количестве языков в мире. По последним данным Этнолога, их насчитывается 7,111.



Эти гайды, возможно, утолят познавательную жажду обычного пытливого пользователя, но лингвисту точно захочется чего-то большего. Например, полной схемы родственных языков внутри языковой семьи. Имея такую схему родственных языков, лингвист, разрабатывающий морфологический анализатор для малоресурсных языков, сможет правильно перенести разметку и оптимизировать свою работу.



Всяк язык знай своё место



У каждого языка на сайте есть своя страница. Там указаны код языка, его самоназвание, количество говорящих, диалекты, статус, принадлежность к языковой семье, основные черты грамматического строя и фонетики.



Статус языка определяется в соответствии с разработанной SIL шкалой уровня развития (Expanded Graded Intergenerational Disruption Scale, или EGIDS), где 0 — это международный язык, а 10 — вымерший.



На специальном графике показано место языка среди всех существующих. Каждый язык представлен маленькой точкой на координатной плоскости, где по вертикали отмечено количество говорящих на языке, а по горизонтали — уровень его развития в соответствии с EGIDS.



Языковая ситуация в стране



Отдельная страница есть не только для каждого языка, но и для каждой страны. В профиле государства указываются: население, основной язык, уровень грамотности и т.д. Но самое интересное — это лингвистический портрет страны, отражённый на диаграмме. На ней показано, сколько языков с каким статусом распространено на территории государства. По горизонтали — уровень развития языка по шкале EGIDS (от 1 — национальный до 10 — вымерший). По вертикали — количество языков. Соответственно, чем выше столбец, тем больше языков.



Кому это нужно?



Угадывать страны по лингвистическим портретам — довольно увлекательная игра. Но ценность собранных на Этнологе данных не ограничивается развлекательным потенциалом. Круг людей, для которых эта информация может быть полезной, достаточно широк. Это и бизнесмены, планирующие продвижение своего продукта в новые страны, и социологи, и политологи, которые могут делать прогнозы о развитии политической ситуации по языковой ситуации в стране, и чиновники, разрабатывающие стратегию поддержки малых языков. Понимая это, создатели сайта сделали доступ к некоторым ресурсам (детальным картам, подробным статистикам) платным. Что подтверждает в очередной раз истину XXI века: владеешь большими данными — владеешь миром.



Мария Захарова