|
Категории раздела |
|
|
Игры on-line
[15]
Игры on-line, во что можно поиграть on-line?, Игры которые потребляют мало трафика, браузерные игры
|
Хакеры и взломы!
[35]
Хакеры в мире, взломы, советы по взломам, Anonymous
|
Новости
[168]
Новости софта, интернета, ИТ и игр
|
Видео
[19]
Обучающее, видеоновости, приколы
|
|
|
|
|
|
|
Главная » 2010 » Август » 9 » Google Books знает общее число наименований книг в мире
09:43 Google Books знает общее число наименований книг в мире |
Как известно, проект Google Books — один из наиболее амбициозных
проектов современности. Создать единую базу книг в электронном виде —
серьезная задача, которая осложняется необходимостью договариваться с
авторами, издательствами и прочими правообладателями. Данный проект
интересен во многих смыслах — социальном, технологическом и
логистическом. Влияние его на современное общество также имеет место
быть, хотя на данный момент это влияние не такое сильное. Но речь не об
этом. Дело в том, что создатели проекта постарались подсчитать каждую
книгу в мире (имеется в виду не общее число книг, а общее число
наименований книг). Понятно, что при таком подсчете погрешности
неизбежны, но все же на Google можно надеяться. Так вот, получившееся
число огромно — выходит 129864880 наименований.
К сожалению,
методы подсчета книг, используемые специалистами, не особо афишируются.
Известно только, что использовались различные каталоги, подавались
запросы в университетские библиотеки, общественные библиотеки, частные
коллекции, музеи и другие организации. Создание надежного алгоритма для
отделения «зерен от плевел» — сложная задача, но похоже, что Google
справился ис этим. Конечно, нужно было продумать алгоритмы для
сортировки, классификации и анализа количества книг — это сложная,
комплексная система алгоритмов, о которой хотелось бы узнать побольше. Вообще
говоря, подсчет был произведен не из праздного любопытства, а для того,
чтобы оценить реальные масштабы проделанной работы в рамках проекта,
плюс оценить усилия, которые придется приложить для продолжения и (если
это вообще возможно) завершения проекта.
При подсчетах
количества книг корпорация чаще всего использовала в качестве источника
информации разнообразные ISBN каталоги, которые существуют примерно с
начала 60-х годов прошлого века. Интересно, что при анализе были
найдены погрешности в наименованиях каталога — около полутора тысяч
книг получили одинаковый идентификатор, о чем сотрудники Google уже
известили библиотеки, в чьи каталоги закралась ошибка.
Интересно,
что вначале у Google при подсчете получилась цифра, близкая к
миллиарду. Однако после удаления всех копий и дубликатов, число книг
сократилось до 600 миллионов. После проведения еще более тщательного
анализа конечная цифра достигла значения 129864880. Интересно было бы
узнать, сколько информации содержится в подобной массе книг, в
количественном выражении. В общем и целом, интереснейшее исследование
команды разработчиков Google, которое успешно окончилось. Кто там
книголюб — можно уже начать собирать полную коллекцию в печатном
варианте :-) По материалам: HabraHabr
|
Просмотров: 659 |
Добавил: Voik
| Рейтинг: 5.0/1 |
|
|
ПИРОЖОК © 2024 |
|
|
|