Различия между версиями 12 и 13
Версия 12 от 2008-08-31 02:18:15
Размер: 13021
Редактор: Allena
Комментарий:
Версия 13 от 2008-08-31 02:33:58
Размер: 13214
Редактор: Allena
Комментарий: 50%
Удаления помечены так. Добавления помечены так.
Строка 66: Строка 66:
При просмотре различных веб-сайтов периодически приходится сталкиваться с таким явлением, как проблемы с кодировками. Изначально при хранении и представлении текстовой информации использовался следующий принцип:"один байт --- одна буква". Так как байт может содержать 256 различных щанчений, то в таком виде можно было представить всего лишь 256 букв. С одной стороны это много, с другой --- мало. Алфавиты большинства языков содержат менее 127 букв( иероглифических письменностей, это, естественно, не касается). Исторически сложилось, что знаки, соответствующие значениям от 0 до 127 определяются по таблице ASCII, а значения от 128 до 255 могут соответствовать буквам алфавитов различных языков --- русского, группы европейских языков, и т. д. При этом не определено в какой момент и как определяется то, какому именно языку принадлежат символы с кодами от 128 до 255. Знания того, что байт содержит код 200, недостаточно, чтобы определить символу какого алфавита он соответствует. Информация о том, какой язык используется, должна содержаться в HTML. Иногда недостаточно даже информации о языке --- для одного алфавита может сущестовать несколько независимых таблиц соответствий символов кодам. При просмотре различных веб-сайтов периодически приходится сталкиваться с таким явлением, как проблемы с кодировками. Изначально при хранении и представлении текстовой информации использовался следующий принцип:"один байт --- одна буква". Так как байт может содержать 256 различных щанчений, то в таком виде можно было представить всего лишь 256 букв. С одной стороны это много, с другой --- мало. Алфавиты большинства языков содержат менее 127 букв( иероглифических письменностей, это, естественно, не касается). Исторически сложилось, что знаки, соответствующие значениям от 0 до 127 определяются по таблице ASCII, а значения от 128 до 255 могут соответствовать буквам алфавитов различных языков --- русского, группы европейских языков, и т. д. При этом неизвестно как и в какой момент определяется то, какому именно языку принадлежат символы с кодами от 128 до 255. Знания того, что байт содержит код 200, недостаточно, чтобы определить символу какого алфавита он соответствует. Информация о том, какой язык используется, должна содержаться в HTML. Иногда недостаточно даже информации о языке --- для одного алфавита может сущестовать несколько независимых таблиц соответствий символов кодам.
Строка 72: Строка 72:
Также широко используются однобайтные кодировки cp1251, iso8859-5 и многобайтная utf8. Менее популярна cp866. Широко используются однобайтные кодировки cp1251, iso8859-5, koi8 и многобайтная utf8. Менее популярна cp866.
Строка 76: Строка 76:
До сегодняшнего дня и ещё некоторое время работа с различными кодировками, особенно с неразмеченными текстами --- проблема и головная боль. Вам приходит текст и непонятно, в какой он кодировке. Хорошо, если никто не пытался перекодировать текст. Тогда можно использовать программу, которая просматривает текст и в зависимости от частоты использования тех, или иных символов, определяет кодировку. Различные кодировки, особенно при работе с неразмеченными текстами, до сих пор могут доставить немало немало неприятностей. Если неизвестна кодировка, использовавшаяся при сохранении текста, то можно попытаться определить ее при помощи программ, угадывающмх кодировку по статистике частот использования кодов. В случае множественных перекодировок этот метод может и не помочь.
Строка 78: Строка 78:
До сих пор можно встретить тексты, начинающиеся на "бНОПНЯ" --- они написаны в cp1251, а прочитаны в koi8. Есть вариант, когда явно русский текст отображается в latin1 с его диакритиками. Есть вариант, когда текст состоит из вопросительных знаков и квадратиков. Это всё симптомы проблем с кодировками. До сих пор можно встретить тексты, начинающиеся с "бНОПНЯ" --- они сохранены в cp1251, а прочитаны в koi8. Бывает, что явно русский текст отображается в latin1, с диакритиками. Случается даже, что текст состоит из вопросительных знаков и квадратиков. Всё это --- симптомы проблем с кодировками.
Строка 81: Строка 81:
##непонятно, что это за кириллический документ и как он может решить подобногорода проблемы.
Строка 82: Строка 83:
В навигатор Firefox встроены как модуль для перекодировки, так и модуль автоматического распознавания кодировки, который, как правило, хорошо работает.
Строка 83: Строка 85:
В качестве примера посмотрим одну и ту же страницу в различных кодировках:
Строка 84: Строка 87:
В навигатор Firefox встроен как модуль по перекодировки, так и автоматическое распознавание кодировки, которое как правило работает. В качестве примера, можно посмотреть одну и ту же страницу в различных кодировках:

Отключим автоопределение:
Отключим автоопределение кодировки:
Строка 96: Строка 97:
 * Эта же страница в кодировке cp1251:  * Эта же страница в cp1251:
Строка 100: Строка 101:
 * В кодировке iso8859:  * В iso8859:
Строка 104: Строка 105:
 * И в кодировке koi8:  * И в koi8:
Строка 118: Строка 119:
##когда она будет так отображена?
Строка 121: Строка 122:
При возникновении проблемы с кодировкой в html- или plain text-файле, его можно сохранить текстовым редактором, а затем открывать броузером в различных кодировках. Другой вариант решения этой проблемы --- использование Kate. При возникновении проблемы с кодировкой в html- или plain text-файле, его можно сохранить текстовым редактором, а затем попробовать смотреть в броузере в различных кодировках. Другой вариант решения этой проблемы --- использование Kate.
Строка 123: Строка 124:
В большинтсве случаев верно срабатывает автоопределение кодировки. В большинстве случаев, однако, верно срабатывает автоопределение кодировки.
Строка 132: Строка 133:
|| 40 || 1 || 1 || 1 || || 1 || ПетрНикольский, [[Allena]], MaximByshevskiKonopko || || || || 50 || 1 || 1 || 1 || || 1 || ПетрНикольский, [[Allena]], MaximByshevskiKonopko || || ||

Firefox

Окно Firefox непосредственно после запуска: ../firefox_start_page.png

Определение броузера

Навигация по ссылкам --- это достаточно беспорядочный процесс, нарастивший, тем не менее, достаточно обширный субкультурный слой. Программы, предназначенные для его выполнения обладают разнообразными и не всегда очевидными функциями. Эти программы называются броузерами, браузерами (от англ. browse), или навигаторами(от названия профессии людей, осуществляющих навигацию, в силу схожести их действий с функциональностью таких программ). Отметим, что программ, чья функциональность ограничивается лишь просмотром HTML, гораздо больше, и в данном материале они не рассматриваются.

Интерфейс Firefox

Навигация

  • Поле для ввода url:
    • ../firefox_address_bar.png

      ../firefox_address_bar_linux_armd_ru.png

  • Кнопки управления страницами (при посмотре страниц бывает удобно вернуться на недавно посещённые и обратно):
    • ../firefox_button_back_tip.png

      ../firefox_button_back_history.png

  • Кнопка перезагрузки страницы:
    • ../firefox_button_reload_tip.png

  • Кнопка остановки страницы (прерывает все сеансы связи между клиентом и серверами):
    • ../firefox_button_stop.png

  • Кнопка для перехода на домашнюю страницу(страницу, которая показывается при запуске навигатора):
    • ../firefox_button_home_tip.png

Можно сделать домашней последнюю закрытую страницу. В школе имеет смысл делать домашней страницу с текущей информацией по учёбе.

Меню

Меню связано с различными свойствами навигатора. Например, в меню может отображаться часть сохраненных закладок, организованных в иерархическую структуру.

  • ../firefox_bookmarks_menu.png

Подчеркнем, что можно хранить не только список закладок, но и дерево. По умолчанию новые закладки добавляются не на панель закладок, но эту настройку легко изменить. Для удобной организации закладок в Firefox предусмотрен специальный инструмент --- менеджер закладок:

  • ../firefox_bookmark_manager.png

Помимо URL у каждой закладки есть название, по умолчанию соответствующее имени страницы,но которое также можно изменить.

Журнал

Журнал посещений можно открыть либо из меню, либо нажав Ctrl+H:

  • ../firefox_sidebar_history_menu.png

Стоит отметить удобный поиск по ключевому слову и довольно объемную(три недели) историю хранения:

  • ../firefox_sidebar_history.png

Кодировки

При просмотре различных веб-сайтов периодически приходится сталкиваться с таким явлением, как проблемы с кодировками. Изначально при хранении и представлении текстовой информации использовался следующий принцип:"один байт --- одна буква". Так как байт может содержать 256 различных щанчений, то в таком виде можно было представить всего лишь 256 букв. С одной стороны это много, с другой --- мало. Алфавиты большинства языков содержат менее 127 букв( иероглифических письменностей, это, естественно, не касается). Исторически сложилось, что знаки, соответствующие значениям от 0 до 127 определяются по таблице ASCII, а значения от 128 до 255 могут соответствовать буквам алфавитов различных языков --- русского, группы европейских языков, и т. д. При этом неизвестно как и в какой момент определяется то, какому именно языку принадлежат символы с кодами от 128 до 255. Знания того, что байт содержит код 200, недостаточно, чтобы определить символу какого алфавита он соответствует. Информация о том, какой язык используется, должна содержаться в HTML. Иногда недостаточно даже информации о языке --- для одного алфавита может сущестовать несколько независимых таблиц соответствий символов кодам.

Такой подход далеко не всегда удобен. Для улучшения ситуации было принято решение создать универсальную кодировку --- UNICODE, в которой перенумерованы все используему символы в мире, и код каждого символа занимает 4 байта. При этом, остается достаточно большое количество ситуаций, в которых достаточно набора символов ASCII и использование 4 байтов для кода каждого символа нерационально. В связи с этим была разработана схема UTF, в которой для кодов символов ASCII используется 1 байт, и различное количество байт может использоваться для кодов других знаков.

Из однобайтных кодировок можно отметить KOI8-R, в которой русские буквы упорядочены не по алфавиту, а по соответствию с латиницей: А, Б, Ц, и т. д.

Широко используются однобайтные кодировки cp1251, iso8859-5, koi8 и многобайтная utf8. Менее популярна cp866.

Проблемы с кодировками

Различные кодировки, особенно при работе с неразмеченными текстами, до сих пор могут доставить немало немало неприятностей. Если неизвестна кодировка, использовавшаяся при сохранении текста, то можно попытаться определить ее при помощи программ, угадывающмх кодировку по статистике частот использования кодов. В случае множественных перекодировок этот метод может и не помочь.

До сих пор можно встретить тексты, начинающиеся с "бНОПНЯ" --- они сохранены в cp1251, а прочитаны в koi8. Бывает, что явно русский текст отображается в latin1, с диакритиками. Случается даже, что текст состоит из вопросительных знаков и квадратиков. Всё это --- симптомы проблем с кодировками.

Отдельного упоминания заслуживают файлы, которые открыты OpenOffice.org и отображаются квадратиками. В ПСПО есть "Кириллический документ", который предназначен для работы с подобного рода проблемами.

В навигатор Firefox встроены как модуль для перекодировки, так и модуль автоматического распознавания кодировки, который, как правило, хорошо работает.

В качестве примера посмотрим одну и ту же страницу в различных кодировках:

Отключим автоопределение кодировки:

../firefox_cp_autodetect_disable_menu.png

Различные варианты кодировок:

  • Правильная для этого сайта кодировка utf8:
    • ../firefox_cp_utf8.png

  • Эта же страница в cp1251:
    • ../firefox_cp_utf8_as_cp1251.png

  • В iso8859:
    • ../firefox_cp_utf8_as_iso8859_1.png

  • И в koi8:
    • ../firefox_cp_utf8_as_koi8.png

Часто кодировка cp1251 распознается как utf8:

../firefox_cp_cp1251_as_utf8.png

Или как iso8859_1:

../firefox_cp_cp1251_as_iso8859_1.png

Страница в koi8-r будет отображена либо вопросительными знаками, либо символами с диакритиками, так как, при отключенном автоопределении, используется либо системная кодировка utf8 (тогда последние коды могут ничему не соответствовать и отображаться пустыми квадратиками), либо latin1 (в этом случае появляются диакритики).

При возникновении проблемы с кодировкой в html- или plain text-файле, его можно сохранить текстовым редактором, а затем попробовать смотреть в броузере в различных кодировках. Другой вариант решения этой проблемы --- использование Kate.

В большинстве случаев, однако, верно срабатывает автоопределение кодировки.


Сведения о ресурсах

Готовность (%)

Продолжительность (ак. ч.)

Подготовка (календ. ч.)

Полный текст (раб. д.)

Предварительные знания

Level

Maintainer

Start date

End date

50

1

1

1

1

ПетрНикольский, Allena, MaximByshevskiKonopko


CategoryLectures CategoryPspo CategoryMpgu CategoryUneex

PspoClasses/080812/04Firefox (последним исправлял пользователь eSyr 2008-10-19 19:03:58)