Разделы



Качество данных

Плохие данные могут привести любой анализ в состояние полного хаоса, дать потенциально убыточные заключения и привести к потере драгоцен­ного времени. Поэтому для проведения тестов требуется применять толь­ко лучшие из доступных данных. Некоторые прогностические системы, на­пример основанные на нейронных сетях, могут быть чрезвычайно чувстви­тельны к нескольким отклонениями, ошибочным данным; в таких случаях необходимость в чистых данных особенно высока. Время, потраченное на поиск и окончательную чистку хороших данных, не будет потеряно.

Ошибки данных принимают много различных форм, и некоторые из них весьма заметны. При торговле в реальном времени порой попадают­ся тики с откровенно ошибочными, попросту невозможными ценами. В течение секунды индекс S &P 500 может упасть с уровня 952,00 до 250,50! Это что — гигантский обвал рынка? Нет: спустя пару секунд в следую­щем тике индекс опять будет на уровне 952,00 или где-то рядом. Что слу­чилось? Плохой тик — шумовой выброс в данных. Такие ошибки, если они не будут обнаружены и исправлены, могут погубить результаты са­мой лучшей механической торговой модели. Более опасны, хотя чаще встречаются и труднее обнаруживаются, обычные мелкие ошибки в уров­нях цен и других показателях, попадающих к трейдеру от поставщиков данных. Лучшие из поставщиков неоднократно проверяют свои данные и сообщают о поправках в случае обнаружения ошибок. Например, по­чти каждый день Pinnacle Data автоматически сообщает о программных коррекциях ошибок. Многие из этих мелких обычных ошибок не очень опасны для тестирования систем, но заранее этого знать нельзя.

В зависимости от чувствительности испытываемой торговой или про­гностической модели и таких факторов, как доступность программ для проверки данных, может иметь смысл проводить различные статистичес­кие исследования для поиска подозрительных данных. Для обнаружения этих точек, или выбросов, как их иногда называют статистики, существу­ет ряд методов. Порой встречаются пропущенные, лишние и несоответ ствующие рыночным реалиям точки данных; их следует находить и кор­ректировать. Как пример проверки данных, в табл. 1-1 и 1-2 приведены случаи обработки данных с помощью программы, ищущей выбросы, про­пуски и ошибочные значения.

Обучение Forex - это блестящая для Тебя подготовиться к успешной работе на бирже Форекс!

Табл. 1-1 изображает результат программы, проверявшей данные по непрерывным фьючерсам на индекс S &P 500 (дневные данные от Pinnacle Data Corporation (800-724-4903)). Программа не обнаружила неадекватных цен или объемов в этом наборе данных; не было примеров максимальной цены, меньшей, чем цена закрытия, минимальной, большей, чем цена от­крытия, отрицательного объема и других ложных данных. Два дня, впро­чем, имели подозрительно высокие значения: один — на 10/19/87 (в отче­те 871019), а другой — на 10/13/89. Аномальное значение на 10/19/87 не представляет собой ошибки, а связано с волатильностью, вызванной круп­ным падением рынка; значение на 10/13/89 также не является ошибкой, а связано с так называемым юбилейным эффектом. Поскольку эти два значения не были ошибочными, коррекции не потребовалось. При этом наличие таких значений в данных должно привлечь внимание к тому фак­ту, что на рынке случаются события, когда изменения цены достигают экстремальных пропорций, и система должна быть способна справляться с такими случаями. Все значения в табл. 1-1 стандартизованы, т.е. вычис­лены путем деления ценового интервала данного дня на усредненный ин­тервал 20 предыдущих дней. Как часто бывает с рыночными данными, распределение таких стандартизованных показателей более растянуто, чем можно было бы ожидать при нормальном распределении, но, тем не менее, статистически события 10/19/87 и 10/13/89 — исключения. Во всех остальных случаях распределение давало упорядоченную картину: стан­дартизованные данные изменялись от 0 до 7 и лишь в отдельных случаях превышали 10.

п»ї

Утилита также пометила 5 дней, как имеющие сильные отклонения цены закрытия. Как и ценовой диапазон дня, отклонение измерялось в виде распределения значений, с использованием стандартизованного со­отношения цен закрытия. В данном случае стандартизованное соотноше­ние вычислялось путем деления абсолютного значения разности цены закрытия и предшествующей цены на среднее от 20 предыдущих таких разностей.

При исключении 5 дней с наибольшими отклонениями наблюдается подобное растянутое распределение изменений цен закрытия от 0 до 7 стандартизованных единиц. Значения, близкие к отклонению, равному 8, отмечались три раза, а значения 10 — только два раза. Рассмотрение данных торговых дней показывает, что в них имела место аномальная ак­тивность рынка, а не ошибка. Неудивительно, что два из пяти помечен­ных дней — те же самые, что выделялись при рассмотрении величины дневного диапазона цен. В конце концов программа не обнаружила про­пущенных дней, данных, приходящихся на нерабочие дни, а также дан ных с повторными или перепутанными датами.



 



 


Единственные проблем­ные моменты являются следствием аномалии рынка, а не ошибок. В об­щем набор данных по S & P можно считать чрезвычайно чистым, что и не­ удивительно, зная о высокой репутации поставщика — Pinnacle Data Corporation .

Как пример низкого качества данных рассмотрим последовательность котировок компании Apple Computer ( AAPL ), полученных авторами от одного знакомого. Результаты проверки приведены в табл. 1-2.

В отличие от предыдущей выборки, здесь данные за два дня были по­мечены как имеющие необъяснимые логические ошибки. В одном случае цена открытия равнялась нулю и была ниже минимальной цены. В дру­гом случае обнаружилась аномальная величина дневного диапазона цен (что может быть как ошибкой, так и последствием аномальной торговли). В нескольких случаях отмечалось сильное отклонение цены закрытия, возможно ввиду нескорректированных дроблений акций. Повторяющих­ся или перепутанных дат не обнаружено, но немало дней было пропуще­ но. В данном случае пропущенные точки соответствуют праздникам и, с л е - довательно, просто указывают на разный подход к работе с данными; мы обычно по ряду причин заполняем праздничные дни данными предыду­щего дня. При том что последовательность включает котировки только с 1/2/97 по 11/6/98 (котировки S & P 500 — с 1/3/83 по 5/21/98), обнаруже­ние ряда серьезных ошибок с помощью довольно простой процедуры не может не настораживать.

п»ї

Суть в том, что на этих примерах показана важность приобретения качественных данных от поставщика, имеющего хорошую репутацию и ведущего серьезную работу. Это сэкономит время, обеспечит надежные, чистые данные для разработки и тестирования систем и для торговли в дальнейшем. Более глубокий обзор проблем качества данных, в том числе и то, как, собственно, создаются рыночные котировки, как их передают и хранят, можно найти у Джурика ( Jurik , 1999).

Читать далее: Поставщики и источники данных