Зовнішня валідність
Зовнішня валідність (англ. External validity) — валідність генералізованих (казуальних) висновків у наукових дослідженнях, як правило заснованих на експериментах як експериментальній валідності.[1] Іншими словами, це ступінь, в якій результати дослідження можуть бути поширені на інші ситуації і інших людей.[2] Математичний аналіз зовнішньої валідності стосується визначення того, чи є поширення на різнорідні групи населення можливим, і розробки статистичних та обчислювальних методів, які створюють валідні генералізації.[3]
Загрози зовнішній валідності
«Загроза зовнішній валідності - це є пояснення того, як ви можете помилятися при узагальненні».[4] Як правило, узагальнення обмежене, коли причина (тобто незалежна змінна) залежить від інших факторів; тому всі загрози зовнішній валідності взаємодіють з незалежною змінною — так звана фонова взаємодія з фактором х.[5]
- взаємодія схильності: вибірка може мати певні особливості, які можуть взаємодіяти з незалежною змінною, що обмежує узагальнення. Наприклад, висновки, засновані на порівняльних дослідженнях психотерапії часто використовують конкретні вибірки (наприклад, добровольці у сильній депресії, немає супутньої патології). Якщо психотерапія виявиться ефективною для цієї вибірки пацієнтів, це не означає, що вона буде ефективною для інших вибірок (легка депресія чи супутні інші порушення) чи популяції в цілому;
- Ситуація: всі ситуаційні специфіки (наприклад, умови, час, місце розташування, освітлення, шум, управління, обсяги і масштаби вимірів та вибірки тощо) дослідження потенційно обмежують можливість узагальнення;
- Ефект попереднього тестування: якщо причинно-наслідкові зв'язки можуть бути знайдені тільки за умови попереднього тестування, то це також обмежує узагальнюваність висновків;
- Ефект після-тестування: якщо причинно-наслідкові зв'язки можуть бути знайдені тільки за умови після-тестування, то це також обмежує узагальнюваність висновків;
- Реактивність (плацебо, новизна, і Хоторнський ефект): якщо причинно-наслідкові зв'язки знаходяться лише внаслідок вивчення нової ситуації, їх, можливо, не можна узагальнювати на інші параметри або ситуації;
- Ефект Пігмаліона: більш високі очікування можуть призвести до більш високої продуктивності.
Кук і Кемпбелл[6] наголошують на принциповій відмінності між узагальненням для певної популяції та узагальненням на різні субпопуляції, визначені різними рівнями фонового фактору. Лінч стверджував, що практично ніколи не можливо узагальнити для значущих популяцій, крім як зріз історії, але можливо, перевірити, якою мірою ефект якоїсь причини на деяких залежних змінних узагальнюється на різні субпопуляції, які розрізняються за деяким фоновим фактором. Однак потрібно перевірити, чи досліджуваний ефект модерується взаємодією з одним або більше фонових факторів.[5]
Зменшення загроз зовнішній валідності
У той час як перерахування загроз валідності може допомогти дослідникам уникати необґрунтованих узагальнень, багато з цих загроз можуть бути нівельовані або нейтралізовані на систематичній основі, з тим щоб забезпечити валідне узагальнення. Зокрема, експериментальні дані з однієї популяції можуть бути «перероблені», або «калібровані», з тим щоб обійти відмінності популяції і робити достовірні узагальнення для другої популяції, де експерименти не можуть бути виконані. Перл і Барейнбойм[3] поділили проблеми узагальнень на дві категорії: (1) ті, які піддаються валідсній рекалібрації, і (2) ті, де зовнішня валідність теоретично неможлива. Використовуючи розрахунки на основі графів,[7] вони визначили необхідну і достатню умову для приватних випадків проблем, що забезпечує валідне узагальнення, і розробили алгоритми, які автоматично виробляють необхідну рекалібрацію, якщо така існує.[8] Це зменшує проблему зовнішньої валідності до вправи в теорії графів, і дозволило деяким філософам зробити висновок, що проблема тепер вирішена.[9]
Важливий варіант проблеми зовнішньої валідності пов'язаний з селективним упередженням, також відомим як упередження вибірки — тобто створюється упередження, коли дослідження проводяться на нерепрезентативній вибірці певної популяції. Наприклад, якщо клінічне випробування проводиться на студентах коледжу, досліднику слід було б знати, ям результат може бути узагальнений на все населення, де такі атрибути, як вік, освіта і дохід істотно відрізняються від типового студента. Заснований на графах метод Перла і Барейнбойма визначає умови, при яких упередження вибірки можна обійти і, коли ці умови будуть виконані, метод створює неупереджену оцінку усередненого казуального ефекту в цілій популяції. Основна відмінність між узагальненням досліджень з неправильними вибірками і узагальненням на відмінні популяції полягає в тому, що відмінності між популяціями, як правило, викликані попередньо існуючими факторами, такими як вік або національність, а селективне упередження часто викликане умовами, які виникли в процесі або дослідження, наприклад неврахування тих, хто «вийшов» з дослідження або відбір учасників з лише певними ознаками. Коли вибір управляється такими умовами, потрібно використовувати нетрадиційні методи рекалібрації для забезпечення неупередженої оцінки, і ці методи можна отримати з графу проблеми.[10][11]
Зовнішня, внутрішня та екологічна валідність
У багатьох дослідженнях і науково-дослідних проектах може відбуватись «обмін» між внутрішньою і зовнішньою валідністю: коли вживаються заходи або процедури, направлені на підвищення шансів більш високого рівня внутрішньої валідності, ці заходи можуть одночасно обмежити генералізацію висновків. Ця ситуація змусила багатьох дослідників прагнути «екологічно валідних» експериментів, тобто експериментальні процедури повинні нагадувати умови «реального світу». Вони критикують відсутність екологічної валідності багатьох лабораторних досліджень з акцентом на штучно обмежені та звужені середовища. Деякі дослідники вважають, що зовнішня валідність та екологічна валідність тісно пов'язані в тому сенсі, що казуальні висновки на основі екологічно валідних дослідних проектів нерідко допускають більш високий рівень узагальнення, ніж ті, що отримані в штучно створених лабораторних умовах. Однак, це знову-таки стосується відмінностей між генералізацією на деяку популяцію (тісно пов'язане з занепокоєннями про екологічну валідність) і узагальненням на різні субпопуляції, які розрізняються за деяким фоновим фактором. Деякі висновки, зроблені в екологічно валідних дослідженнях навряд чи можуть бути узагальненими, а деякі знахідки, зроблені в високо контрольованих параметрах можуть претендувати майже універсальну зовнішню валідність. Тобто, зовнішня і екологічна валідність є незалежними — дослідження може мати зовнішню валідність, але не екологічну, і навпаки.
Якісні дослідження
В рамках парадигми якісних досліджень, зовнішня валідність замінюється поняттям трансферабельності, тобто здатності результатів досліджень застосовуватись до ситуацій зі схожими параметрами, популяціями та характеристиками.[12]
Зовнішня валідність в експериментах
Дослідники часто стверджують, що експерименти по своїй природі мають низьку зовнішню валідність. Деякі стверджують, що при наслідуванні експериментального методу можуть виникати багато недоліків. В силу необхідності достатнього контролю над ситуацією з тим, щоб випадковим чином розподілити людей за умовами і виключити вплив зовнішніх факторів, ситуація в експерименті може стати дещо штучною і далекою від реального життя.
Існує два види здатності до генералізації:
- Міра, в якій можна узагальнити ситуацію, створеної експериментатором, на реальні життєві ситуації (генералізація на різні ситуації),[2] і
- Міра, в якій можна узагальнити популяцію, яка брала участь в експерименті, на людей в цілому (генералізація на різних людей)[2]
Тим не менш, обидва ці види відносяться до поняття концепції узагальнення Кука і Кембелла для деяких цільових груп населення, а не, мабуть, більш головного завдання оцінки здатності до генералізації результатів експерименту на субпопуляції, які відрізняються від конкретної дослідженої ситуації, і людей, які відрізняються від досліджених респондентів деяким суттєвим чином.[6]
Критики експериментів припускають, що зовнішня валідність може бути покращена за рахунок використання «польових» умов (або, як мінімум, реалістичних лабораторних умов) і з допомогою справжніх ймовірнісних зразків респондентів. Проте, якщо мета — зрозуміти можливість узагальнення на різні субпопуляції, які розрізняються ситуаційними або особистісними фоновими факторами, такі засоби не мають тої ваги у підвищенні ефективності зовнішньої валідності, що зазвичай їм приписують. Якщо існує фоновий фактор Х, про яких дослідник не знає (що дуже ймовірно), такі дослідницькі практики можуть маскувати істотну нестачу зовнішньої валідності. У праці Діпбоя і Фланагана (1979) про промислову та організаційну психологію зазначається, що результати одного «польового» дослідження і одного лабораторного дослідження в рівній мірі малоймовірно можуть бути поширені на інше «польове» дослідження.[13] Таким чином, «польове» дослідження не мають за своєю природою високу зовнішню валідність, а лабораторні дослідження — низьку; в обох випадках вона залежить від того, чи зміниться досліджуваний ефект зі зміною фонових факторів, які у цьому дослідженні визначені константами.[5]
Генералізація на різні ситуації
Наукові експерименти в психології, які проводяться в університетах, часто критикують за те, що їх проводили в штучних ситуаціях і що вони не можуть бути узагальнені на реальне життя.[14] Щоб вирішити цю проблему, соціальні психологи намагаються збільшити здатність до узагальнення їх результатів, зробивши свої дослідження якомога більш реалістичними. Однак реалізм як такий не допомагає стверджувати, чи зміняться результати, якщо умови будуть ще більш реалістичними, або якщо учасники дослідження будуть поміщені в інші реалістичні налаштування. Якщо перевіряється лише один набір умов (ситуація), не можливо стверджувати, що є генералізація на різні ситуації.[5][15]
Однак багато авторів плутають зовнішню валідність і реалізм. Експеримент може бути реалістичним більш ніж одним способом:
- Схожість експериментальної ситуації з подіями, які часто зустрічаються в повсякденному житті — зрозуміло, що багато експериментів явно нереальні.
- У багатьох експериментах, учасників поміщають у ситуації, з якими рідко зустрінуться в повсякденному житті.
Ступінь, в якій експеримент схожий на реальні життєві ситуації, називається приземленим реалізмом експерименту.[14]
Більш важливо переконатися, що дослідження має високий психологічний реалізм — наскільки подібні психологічні процеси, що запускаються під час експерименту, психологічним процесам, які відбуваються в повсякденному житті.[16]
Психологічний реалізм зростає, якщо люди є поглинені справжньою подією. Щоб досягти цього, дослідники іноді розповість учасникам передісторію —удаваний опис мети дослідження. Однак, якби учасникам розповіли про цілі експерименту, то він мав би низький психологічний реалізм, адже у повсякденному житті ніхто не знає, яка і коли станеться надзвичайна ситуація і люди не мають часу планувати реакцію на неї.[2]
Люди не завжди знають, чому вони роблять те, що вони роблять, або що вони роблять, поки це не відбудеться. Тому, опис експериментальної ситуації учасникам, а потім прохання їх відповісти нормально будуть давати відповіді, які можуть не відповідати поведінці людей, які справді опинились в такій же ситуації. Не можливо покладатися на припущення людей про те, що вони будуть робити в гіпотетичній ситуації; дізнатися, що люди дійсно будуть робити, можна лише створивши ситуацію, яка викликає ті ж психологічні процеси, які відбуваються в реальному світі.
Генералізація на різних людей
Соціальні психологи вивчають те, як люди в цілому піддаються соціальному впливу. Кілька експериментів зафіксували цікавий, несподіваний приклад соціального впливу, коли сама лише присутність інших людей знижує ймовірність того, що людина допоможе іншій людині.
Єдиний спосіб бути впевненим, що результати експерименту представляють поведінку певної популяції, є гарантувати, що учасники обрані випадковим чином з цієї популяції. Однак вибірка в експериментах не може бути такою є випадковою, які при опитуваннях, оскільки випадкова вибірка є непрактичною і дорогою у соціально-психологічних експериментах. Але навіть якщо якимось чином була отримана по-справжньому випадкова вибірка, в ній може бути неспостережувана гетерогенність результатів… Наприклад, лікування може мати позитивний вплив на певні підгрупи, але негативний вплив на інші, і ефекти узагальнених результатів лікування не можна буде генералізувати на всі підгрупи.[5][17]
Багато дослідників вирішують цю проблему шляхом вивчення основних психологічних процесів, які роблять людей схильними до соціального впливу, припускаючи, що ці процеси настільки фундаментальні, що є універсальними. Однак деякі соціально-психологічні процеси відрізняються в різних культурах і в таких випадках потрібно досліджувати різноманітні вибірки людей.[18]
Відтворюваність
Остаточним тестом зовнішньої валідності експерименту є його відтворюваність — повторне проведення дослідження, як правило, з іншими групами учасників та в інших умовах. Дослідники часто використовують різні методи, щоб побачити чи вони все ще отримують той самий результат.
Коли проведено багато досліджень однієї проблеми, результати можуть варіюватися. Наприклад, деякі дослідження виявили вплив кількості перехожих/спостерігачів при нещасному випадку (аварії тощо) на поведінку з допомоги, а інші — ні. Для з'ясування істини існує статистичний метод метааналізу, що усереднює результати двох або більше досліджень, щоб побачити, чи є ефект незалежної змінної надійним. Метааналіз, по суті, говорить про ймовірність того, чи висновки за результатами багатьох досліджень є випадковими або є наслідком незалежної змінної. Якщо незалежна змінна має вплив тільки в одному з 20 досліджень, метааналіз вкаже, що це одне дослідження було виключенням і що, в середньому, незалежна змінна не впливає на залежну змінну, і навпаки.
Однак можуть бути надійними явища, не обмежені лабораторією. Наприклад, ефект впливу збільшення кількості перехожих/спостерігачів на блокування поведінки з допомоги спостерігався з багатьма видами людей, включаючи дітей, студентів, та майбутніх міністрів[18]; в Ізраїлі[19]; у малих містах і великих містах США[20]; в різних умовах, таких як психологічні лабораторії, міські вулиці, метро[21]; і при різних видах надзвичайних ситуацій, таких як епілептичні припадки, потенційні пожежі, бійки і нещасні випадки[22], а також менш серйозних подій, наприклад, спустило колесо.[23] Багато з цих відтворень були проведені в реальних життєвих умовах, коли люди людина не могли знати, що проводиться проводиться.
Основна дилема соціального психолога
При проведенні експериментів в психології, деякі вважають, що завжди є обмін між внутрішньою і зовнішньою валідністю — # мати достатній контроль над ситуацією, щоб гарантувати, що ніякі сторонні змінні, що впливають на результат, і випадковим чином розподілити людей за умовами експериментів, і
- забезпечити те, що результати експерименту можуть бути узагальнені на повсякденне життя.
Деякі дослідники вважають, що хороший спосіб підвищити зовнішню валідність є проведення польових експериментів. У польовому експерименті, поведінка людей вивчається поза лабораторією, у її природній обстановці. Польовий експеримент — це ідентичний по дизайну лабораторному експерименту, за винятком того, що відбувається в реальному житті. Учасники польового експерименту не знають, що події, які вони переживають, є насправді експериментом. Деякі стверджують, що зовнішня валідність таких експериментів є високою, тому що вони відбуваються в реальному світі, з реальними людьми, які більш різноманітні, ніж типова вибірка зі студентів. Однак, оскільки в реальному світі параметри значно відрізняються, результати одного експерименту в реальному світі можуть і не узагальнюватись на іншу ситуацію реального світу.[13]
Ні внутрішня, ні зовнішня валідність не визначається в одному експерименті. Соціальні психологи частіше обирають забезпечення внутрішньої валідності, проводячи лабораторні експерименти, в яких люди випадково розподіляються по різних умовах і всі сторонні змінні контролюються. Інші соціальні психологи віддають перевагу контролю зовнішньої валідності, проводячи більшу частину своїх досліджень у польових експериментах. Багато однак контролюють обидві валідності. Взяті разом, обидва типи досліджень відповідають вимогам ідеального експерименту. За допомогою відтворюваності дослідники можуть вивчати питання з максимальною внутрішньою і зовнішньою валідністю.[24]
Див. також
- Валідність (статистика)
- Внутрішня валідність
- Екологічна валідність
Примітки
- Mitchell, M. & Jolley, J. (2001). Research Design Explained (4th Ed) New York: Harcourt.
- Aronson, E., Wilson, T. D., Akert, R. M., & Fehr, B. (2007). Social psychology. (4 ed.). Toronto, ON: Pearson Education.
- Pearl, Judea; Bareinboim, Elias (2014). External validity: From do-calculus to transportability across populations. Statistical Science 29 (4): 579–595. doi:10.1214/14-sts486.
- Trochim, William M. The Research Methods Knowledge Base, 2nd Edition.
- Lynch, John (1982). On the External Validity of Experiments in Consumer Research. Journal of Consumer Research 9 (3): 225–239. JSTOR 2488619. doi:10.1086/208919.
- Cook, Thomas D.; Campbell, Donald T. (1979). Quasi-Experimentation: Design & Analysis Issues for Field Settings. Chicago: Rand McNally College Publishing Company. ISBN 978-0-395-30790-8.
- Pearl, Judea (1995).
- Bareinboim, Elias; Pearl, Judea (2013).
- Marcellesi, Alexandre (December 2015).
- Pearl, Judea (2015).
- Bareinboim, Elias; Tian, Jin; Pearl, Judea (2014).
- Lincoln, Y.S. & Guba, E.G. (1986). But is it rigorous? Trustworthiness and authenticity in naturalistic evaluation. In D.D. Williams (Ed.), Naturalistic evaluation (pp. 73-84). New Directions for Program Evaluation, 30. San Francisco, CA: Jossey-Bass.
- Dipboye, Robert L.; Flanagan, Michael F. (1979). Research Settings in Industrial and Organizational Psychology: Are Findings in the Field More Generalizable than the Laboratory. American Psychologist 34 (2): 141–150. doi:10.1037/0003-066x.34.2.141.
- Aronson, E., & Carlsmith, J.M. (1968). Experimentation in social psychology. In G. Lindzey & E. Aronson(Eds.), The Handbook of social psychology. (Vol. 2, pp. 1-79.) Reading, MA: Addison-Wesley.
- Lynch, John (1999). Theory and External Validity. Journal of the Academy of Marketing Science 27 (3): 367–76. doi:10.1177/0092070399273007. Архів оригіналу за 19 серпня 2014. Процитовано 23 січня 2017.
- Aronson, E., Wilson, T.D., & Brewer, m. (1998). Experimental methods. In D. Gilbert, S. Fiske, & G. Lindzey (Eds.), The handbook of social psychology. (4th ed., Vol. 1, pp. 99-142.) New York: Random House.
- Hutchinson, J. Wesley; Kamakura, Wagner A.; Lynch, John G. (2000). Unobserved Heterogeneity as an Alternative Explanation for "Reversal" Effects in Behavioral Research. Journal of Consumer Research 27 (3): 324–344. JSTOR 10.1086/317588. doi:10.1086/317588.
- Darley, J.M., & Batson, C.,D. (1973). From Jerusalem to Jericho: A study of situational and dispositional variables in helping behaviour. Journal of Personality and Social Psychology, 27, 100—108.
- Schwartz, S.H., & Gottlieb, A. (1976). Bystander reactions to a violent theft: Crime in Jerusalem. Journal of Personality and Social Psychology, 34, 1188–1199.
- Latane, B., & Dabbs, J.M. (1975). Sex, group size, and helping in three cities. Sociometry, 38, 108—194.
- Harrison, J.A., & Wells, R.B. (1991). Bystander effects on male helping behaviour: Social comparison and diffusion of responsibility. Representative Research in Social Psychology, 96, 187—192
- Latane, B., & Darley, J.M. (1968). Group inhibition of bystander intervention. Journal of Personality and Social Psychology, 10, 215—221.
- Hurley, D., & Allen, B.P. (1974). The effect of the number of people present in a nonemergency situation. Journal of Social Psychology, 92, 27-29.
- Latane, B., & Darley, J.M. (1970). The unresponsive bystander: Why doesn't he help? Englewood Cliffs, NJ: Prentice Hall