Кодирование: что все эти цифры значат?

Процесс присвоения количественных значений имеющейся у нас информации именуется кодированием. Кодирование для измерений значит то же, что алфавит для речи, в частности средство, благодаря которому информации придается форма продолжительного сообщения и связного. Так же как любая буква либо комбинация букв алфавита воображает определенный звук, любая цифра либо комбинация цифр кода воображает определенную чёрта либо состояние исследуемого объекта. И без того же, как буквы разрешают тем, кто знает алфавит, оперировать сложными мыслями, цифры разрешают тем, кто [c.356] знает код, оперировать сложными понятиями в более сокращенной форме. Помимо этого, цифровая кодировка позволяет исследователю пойти еще дальше, потому, что кодированная информация, в особенности кодированная в цифровой форме, разрешает применить математические способы, и тогда полученные эти смогут распознать то, что без обращения к цифровой интерпретации имело возможность остаться скрытым. Иначе говоря кодирование открывает путь к более глубокому изучению, чем это имело возможность бы быть в любом втором случае.

Цифровые коды в исследовательской работе весьма похожи на азбуку Морзе в телеграфии, с которой вы, возможно, привычны. В азбуке Морзе определенные комбинации точек и тире заменяют буквы алфавита. Сами точки и тире преобразуются в долгие и маленькие звуки, каковые смогут быть переданы по радио от соответственно оборудованной передающей станции к соответственно оборудованному приемнику. Звуки после этого преобразуются в буквы, и передача сообщения, так, закончена. На рис. 12.1 данный процесс изображен в форме диаграммы.

Рис. 12.1. Кодирование в телеграфии

Совершенно верно кроме этого в научном изучении любая цифра кода свидетельствует определенную градацию данной переменной. К примеру, в случае если мы измеряем уровень образования участников определенной группы, в которой любой опрашиваемый может иметь незаконченную высшую школу, законченную высшую школу и законченное высшее образование колледжа, мы можем представить эти три уровня градаций цифрами 1, 2, 3. Либо же, в случае если мы желаем учесть число лет обучения, цифровой код обязан отражать это число (к примеру, цифра 7 будет означать семь лет обучения). Обе совокупности кодирования разрешают достаточно совершенно верно подытожить результаты изучения, не смотря на то, что правила, кодирования разнятся. Ну и, потому, что мы имеем комплекс закодированных в той либо другой форме данных, возможно обрабатывать и разбирать их в соответствии с отечественными жаждами, перед тем как преобразовывать их обратно в словесную форму при подготовке отчета о отечественной нагнои деятельности. Данный процесс перевода информации из словесной формы в цифровую и обратно в обобщенной форме продемонстрирован на рис. 12.2.

Рис. 12.2. Кодирование в изучении

Самое основное, что нужно не забывать при разработке кодирования данных, – это то, что принцип [c.357] кодирования должен в любой момент определяться характером измерения исследуемой переменной. Так, переменные, измеряемые номинальными шкалами, должны иметь номинальные коды, переменные, измеряемые шкалами порядков, – порядковые, и переменные, измеряемые интервальными шкалами, – интервальные. Снаружи все эти цифры смогут казаться [c.358] одними и теми же, но их значения в каждом случае значительно хороши от вторых. Анализ либо оперирован данными, преобразованными из словесной формы в цифровую, чреваты непреодолимым искушением применить м годы, каковые легко неосуществимы в этом случае в си изюминок измерения переменной (более детально мы разглядим эту проблему в следующих главах). Такое искушение необходимо преодолеть, в случае если мы желаем извлечь пользу собственного изучения. [c.359]

Механизм закодирования (либо раскодирования) данных вправду весьма несложен. Мы начнем с определения типа каждой переменной отечественного изучения с позиций шкалы ее измерения. В случае если это номинальная переменная, в которой нам необходимо распределить цифры кода между взаимоисключающими категориями, несмотря на порядок их размещения, то мы делаем это так, как нам комфортно. Заберём достаточно обычный пример. В случае если члены исследуемой группы подразделяются по вероисповеданию на протестантов, иудеев и католиков, то распределить коды между этими категориями возможно в соответствии с любой из нижеследующих схем:

1 Протестанты 2 Католики 3 Иудеи 1 Католики 5 Иудеи 8 Протестанты 1 Иудеи 2 Протестанты 3 Католики 43 Протестанты 17 Католики 27 Иудеи

В каждом случае отдельная цифровая градация употребляется для обозначения градации либо категории переменной. Потому, что вероисповедание имеется номинальная черта, размерность и порядок расположения кода не имеют никакого значения. Мы можем при кодировании применять одно-, трех- а также десятизначные цифры, в случае если нам этого захочется. Само собой разумеется, лучше давать самые простые и эргономичные коды, и в большинстве случаев выбирают простые цифры с мельчайшим числом знаков, но по большому счету это зависит от отечественной приверженности к экономии, а не от каких-либо математических требований.

Возможно кроме этого применять более сложную схему номинального кодирования для более полного отражения информации. К примеру, мы желаем в отечественном изучении более детально представить данные о лицах протестантского и иудейского вероисповедания. Тогда мы можем применять совокупность двузначных кодов, которая строится на прошлой классификации. В качестве первой цифры выбираем ту же, что и ранее (к примеру, 1 – протестанты, 2 – католики, 3 – иудеи). Вторая будет обозначать новую данные. Посмотрите на следующую схему:

10 Протестанты 11 Баптисты 12 Методисты 13 Просвитериане 14 Лютеране 20 Католики 30 Иудеи 31 Ортодоксальные 32 Консервативные 33 Реформистские

[c.360]

Тут отечественные коды отражают (в первой колонке) приблизительную отличие между категориями и одновременно с этим (вторая колонка) позволяют уточнения. В следствии мы имеем более полную запись черт исследуемых лиц, которая вместе с тем сохраняет следы менее правильной (но обычно более эргономичной с позиций анализа) совокупности записи, с которой мы начали.

Если бы нам необходимо было перечислить все градации протестантского вероисповедания, то возможности кода в диапазоне “10” (от 10 до 19) скоро были бы исчерпаны и нам было нужно бы поменять схему записи. Любой из нижепредложенных вариантов может легко решить эту проблему, не смотря на то, что выбор того либо иного пути может варьироваться в зависимости от задач исследовательского анализа либо навыков компьютерного программирования.

В первом случае мы количество двузначных кодов (наборов десятичных кодов), приписанных протестантам, в то время как во втором – упорядочили их. И снова в случае если переменная, по сути, есть номинальной, то ни конкретная цифра, ни количество знаков кода не имеют никакого значения. До тех пор до тех пор пока отечественная совокупность кодировки есть оптимально экономной, а градации переменной – взаимоисключающими, каждая цифра удовлетворительна. [c.361]

В то время, когда мы кодируем порядковые переменные, отечественные возможности уже пара ограничены. Потому, что порядковое измерение не предполагает равных либо легко известных нам промежутков, мы остаемся, вольны в выборе цифр любой величины. Но потому, что порядковое измерение требует сохранения в отечественных кодах относительного ранжирования градаций (позиций), мы должны заботиться о том, дабы отечественные цифры были как минимум в некотором роде расположены. Так, для переменной уровень политического развития либо каждый переменной, содержащей отличие в уровне, степени либо сходстве градаций, каждая из предложенных ниже совокупностей кодировки возможно одинаково верной (и одинаково значимой).

1 Самый низкий 2 Низкий 3 Большой 4 Верховный 1 Самый низкий 6 Низкий 7 Большой 9 Верховный 1 17 24 3027 Самый низкий Низкий Большой Верховный

Любая из них сохраняет порядок, заданный самой переменной. И ни одна не есть более правильной, чем остальные, потому, что точность тут – функция не самих цифр, а стоящего за ними порядкового измерения. Как и ранее, отечественная приверженность к экономии может подтолкнуть нас к выбору первой из трех предложенных схем, но если не принимать этого к сведенью, то отечественный выбор строго случаен.

Наоборот, ни одна из следующих схем не есть подходящей:

1 Самый низкий 9 Низкий 6 Большой 7 Верховный 1 Верховный 2 Большой 3 Низкий 4 Самый низкий

В случае если относительная величина либо размещение цифровых кодов (а следовательно, и направление их трансформации) не имеют значения для номинальных измерений, то при работы с порядковыми данными они крайне важны. В первом из приведенных выше примеров смещен порядок кодов, во втором он поменян на обратный. В следствии ни одна из совокупностей кодировки не сохраняет в достаточной мере величины градаций и относительного расположения самой переменной. Так, коды неверно передают сведения. Они или лишают нас возможности выстроить отечественные эти по порядку, или вводят в заблуждение относительно причин [c.362] той систематизации, которую мы пробуем выработать. Другими словами, аналогичных неточностей необходимо избегать при работе с порядковыми данными.

Разработка кодов для интервальных измерений, с одной стороны, – самый трудоёмкий процесс, но с другой – он может оказаться наилегчайшим. Тут цифры имеют значительно более правильное значение, и отечественные возможности в кодировании значительно ограничены. Американский доллар – это американский доллар, год – это год, а отличие между 47 и 43% такова же, как и между 73 и 69%. В интервальном измерении не только размеры являются взаимоисключающими и определяющими порядок размещения, но и промежуток между двумя соседними значениями однообразен и неизменен. Кодирование интервальных разрешённых должно сохранять эти характеристики.

На первый взгляд это может показаться невыполнимой задачей. Чтобы закодировать интервальную переменную, нужно отыскать такую совокупность кодов, где любой исключает другие, любой соответствует определенной величине переменной, любой отстоит на равное количество единиц измерения от ближайшего соседа и расстояние эта между двумя соседними размерами известна. В конечном итоге, но, нахождение таких цифр, в неспециализированном-то, несложная задача, потому, что в отличие от большинства номинальных либо порядковых шкал, в то время, когда исследователь, по сути дела, должен выискивать цифровые эквиваленты для собственных сведений, многие интервальные коды заданы изначально. Иными словами, интервальные коды значительно чаще, чем на более низких уровнях измерения, следуют из операционных черт самой переменной. В случае если выяснить персональный доход как количество американских долларов, которое он либо она получает за определенное время, то каждое конкретное количество заработанных долларов определяет не только какую-либо градацию переменной дохода, но и код для данной градации. В случае если градации номинальных и порядковых переменных в базе собственной являются вербальными (как, к примеру, католик и протестант, большой и низкий уровни развития) и должны быть заменены цифровыми эквивалентами, то градации интервальных переменных изначально имеют цифровую форму (доллары США дохода при исчислении стажа работы в административном [c.363] учреждении) и не требуют особого перевода. Результатом есть то, что при кодировании интервальных данных главное внимание уделяется не созданию имеющих суть кодов, а сохранению и опознаванию их.

Как отмечалось в гл. 3, время от времени смогут появиться такие ситуации, в то время, когда исследователь, хотя повысить возможности обработки и информационную отдачу собственных данных, захочет свести интервальные эти к порядковым категориям. К примеру, для нас значительно несложнее и значимее может оказаться анализ опрощеных по неспециализированному уровню их доходов, чем учет каждого американского доллара отличия. В таких случаях в начальной кодировке разрешённых можно сохранить их интервальный темперамент, а после этого полученные категории преобразовать в соответствии с потребностям исследователя (к примеру, мы записываем настоящее количество американских долларов, заработанных респондентами, а после этого собираем их в более большие категории) либо же возможно функционировать по способу, в то время, когда эти сходу, по мере поступления записываются в сгруппированном виде так, как словно бы мы классифицируем опрощеных по громадным категориям дохода и не фиксируем правильный размер их дохода. Любой способ имеет свои недостатки и свои достоинства, каковые должны учитываться в каждом конкретном случае. Какой бы способ ни был забран, исследователь должен быть уверен, что выбранная схема кодирования отвечает требованиям измерения конкретного показателя.

Делается очевидным, что процесс приписывания определенных кодов данным неотделим от процесса операционализации переменных. Непременно, коды – это ничто иное, как цифровое выражение отечественных операциональных определений. Исходя из этого обсуждение неприятности кодирования было бы более уместно в начале книги. Все вопросы, которые связаны с тем, какие конкретно коды дать градациям переменных, должны быть решены на ранних стадиях исследовательского процесса. Все это обязательный атрибут верного планирования изучения. Но подлинная сокровище кодов делается понятной позднее, потому, что именно на стадии анализа данных коды начинают играться ту роль, которую они призваны сыграть во всем проекте изучения. Как раз тогда коды позволяют перейти от обзора к обработке данных, а после этого от обработки – к интерпретации. Для того чтобы выяснить, как происходит данный переход, давайте разглядим кое-какие нюансы техники кодирования. [c.364]

Кодирование от пьянства. Правда и неправда.


Также читать:

Понравилась статья? Поделиться с друзьями: