התחלנו עם 27-27 סיימנו עם 24-30 (על פיספוסי התחזיות והאפשרות של זיוף בתוצאות הבחירות)

פוסט אורח של פרופסור קמיל פוקס על המרחק בין מדגמי הטלוויזיה לתוצאות האמת (הפוסט עודכן ב- 2015-07-27)

תזכורת: תחזיות מדגמי הטלוויזיה בשעה 10 בליל הבחירות הצביעו על שיוויון או כמעט שיוויון בין הליכוד למחנה הציוני (27-27 בערוצים 1 ו 10, 28-27 בערוץ 2). בתום ספירת הקולות התברר שהליכוד קיבל 30 מנדטים לעומת 24 למחנה הציוני. התחזיות עבור שאר המפלגות היו די מדויקות. ללא ספק, מבחינה פוליטית, תחזית שגויה. ובמידה פחותה אך משמעותית, התחזית די שגויה גם מבחינה סטטיסטית.

 

תחזיות ליל הבחירות עוררו שאלות מטרידות: איך קרה שהתחזיות סטו דווקא במפלגות הגדולות בכשלושה מנדטים לכל כיוון בעוד שהתחזיות ליתר המפלגות היו די קרובות לתוצאות הבחירות? וגם, איך קרה שהסטיות בשלושת הערוצים היו לאותן המפלגות ובאותו סדר גודל? התופעה הצליחה לעורר תהיות גם בקרב אנשים קרובים שחלקם אפילו העלו השערות שהתוצאות שונו על ידי יד זדונית.

שאלות טובות שמצדיקות ניתוח ותשובה. חלק מהתשובה טמונה בתוצאות ההצבעה ב 10,119 הקלפיות. 70 קלפיות מתוכן היוו את מדגם הטלוויזיה של ערוץ 10. התחזית שפורסמה בשעה 10 בליל הבחירות הייתה תוצאה של הרצת המודל הסטטיסטי על תשובות משתתפי במדגם באותן 70 קלפיות. כעת, כאשר בידינו נתוני ההצבעה של באותן 70 הקלפות ("תוצאות האמת"), הרצנו עליהן את המודל הסטטיסטי שהניב את התחזית של השעה 10. התוצאות היו בכדלקמן: הליכוד 30 מנדטים, המחנה הציוני 24, הרשימה הערבית המשותפת 12, יש עתיד 11, כולנו 10, הבית היהודי, ישראל ביתנו, ש"ס ואגודת ישראל 7 מנדטים כ"א, מרצ 5 (ראה צילום פלט המחשב). תחזית טובה לכל הדעות. אגב, בזאת, לדעתי, גם מופרכת ההשערה של מניפולציה ששינתה את התוצאות. הרי הניתוח הסטטיסטי של אותן 70 הקלפיות הניב תוצאה קרובה מאד לתוצאות הבחירות. והרי לא סביר שמישהו חיבל דווקא בתוצאות של אותן הקלפיות הספציפיות.

pic1

מסתבר שבמעבר בין תוצאות המשתתפים במדגם הטלוויזיה לתוצאות האמת של אותן הקלפיות שלושה מנדטים נעו מהמחנה הציוני לליכוד. במלים אחרות, במצב אידיאלי, לו כל המצביעים בקלפיות הטלוויזיה היו מסכימים להשתתף במדגם ולו תשובת כולם לשאלה "עבור מי הצבעת?" הייתה תשובת אמת, אזי התחזית שהייתה מתפרסמת הייתה בדיוק התחזית דלעיל.

לא מיותר לציין שהמרכיבים התחזית שבשליטת הסוקרים הם בחירת קלפיות המדגם וניתוח התוצאות. מה שכמובן לא בשליטתם הן תשובות המצביעים באותן הקלפיות. ברור שכאשר התפלגות הצבעתם של המסרבים להשתתף במדגם שונה מזו של משתתפי המדגם, נגרמת הטייה בתחזית. וכאשר שם המפלגה הנמסר לפוקד שונה משם המפלגה אליה הצביעו, נגרמת הטייה נוספת.

בבחירות קודמות התפלגות התוצאות של משתתפי קלפיות המדגם דמתה מאד להתפלגות ההצבעה בפועל באותן הקלפיות. הסטיות התאפיינו בעיקר במגזרים מוגדרים באוכלוסייה, כמו חרדים, עולים וערבים. אלה סטיות הניתנות להערכה סטטיסטית וניתן להתחשב בהשפעתן בעת חישוב התחזית. יתר על כן, בדרך כלל הסטיות היו ממוקדות בקלפיות מסויימות.

לא כן הפעם. נסתכל בתוצאות של שתי המפלגות בהן עסקינן. בעת סגירת 70 הקלפיות שבמדגם הטלוויזיה של ערוץ 10 (בשעה 20:45), מספר המצביעים בפועל עבור הליכוד והמחנה הציוני היו 6692 ו 5922, בהתאמה, הפרש של 770 קולות לטובת הליכוד. לעומת זאת, במדגם הטלוויזיה באותן הקלפיות 4414 אמרו שהצביעו ליכוד לעומת 4700 שאמרו שהצביעו המחנה הציוני, הפרש של 286 קולות לטובת המחנה הציוני.

במלים אחרות, גם מספר ניכר של מסרבים וגם התברר בדיעבד שבין משתתפי המדגם, שיעור האומרים שהצביעו עבור המחנה הציוני היה גדול משמעותית משיעור האומרים שהצביעו ליכוד. אולי רק בגלל שאכן התפלגות הצבעתם של המסרבים הייתה שונה משמעותית מזו של המשתתפים. ואולי גם בגלל שבין המשתתפים שהצבעתם בקלפי לא תאמה את אמירתם, היו לא מעט מצביעי ליכוד שהפכו במדגם למצביעי המחנה הציוני.

אין כמובן דרך להפריד במדוייק בין השפעת המסרבים להשפעתם של אלה ששינו את צורת הצבעתם בדרכם לפגישה עם פוקד הטלוויזיה. אבל ניתוח נתונים מאפשר הערכה של סידרי הגודל של ההשפעות.

נתחיל בנושא המסרבים: עד לסגירת 70 הקלפיות שהיוו את מדגם הטלוויזיה של ערוץ 10, נרשמו על ידי הסוקרים 27,372 מצביעים, ומתוכם 21,193 השתתפו במדגם והסוקרים וציינו את המפלגה לה הצביעו. דהינו, 23% מהצביעים סירבו להשתתף במדגם. בעת ספירת כלל הקולות באותן הקלפיות נרשמו 29,812 מצביעים.

הטבלה הבאה מציגה את תוצאות קיבוץ הקלפיות לפי שיעורי ההצבעה לליכוד (לפי מה שמשתתפי המדגם אמרו לסוקרים) ואת ממוצעי שיעורי המסרבים באותן הקלפיות:

שיעור מצביעי ליכוד0%-10%11%-20%21%-30%31%-40%מעל 40%
ממוצע אחוז מסרבים18%18%26%27%28%

 

בכלל 70 הקלפיות, מקדם המתאם בין שיעורי ההצבעה לליכוד ובין שיעורי המסרבים באותן הקלפיות הוא 0.34+, שהוא כמובן מאד מובהק (p-value=.004). מאידך, מקדם המתאם בין מספר המצביעים ובין שיעורי ההצבעה לליכוד באותן הקלפיות הוא 0.06-, שהוא שלילי ומאד לא מובהק (p-value=.594).

במלים אחרות, לא עומס בקלפיות גרם לשיעור גבוה של מסרבים, וסביר שהייתה קורלציה בין הנטייה לסרב להשתתף במדגם לבין הנטייה להצביע עבור הליכוד.

וכעת לנושא התופעה של השינוי הוירטואלי של ההצבעה בדרך בין חדר הקלפי למועד הפגישה עם פוקד הטלוויזיה: כמובן, אין כל אפשרות לאמוד את היקף התופעה. לא נוכל אפילו להגיד ברמה מוחלטת של וודאות שאכן הייתה תופעה כזאת.  אך יש סימוכין לכך שהפעם הייתה כוונה מאורגנת לפגוע בתחזית  הטלוויזיה, כחלק מהפגיעה בתקשורת. הודעת וואטס-אפ שהסתובבה אצל רבים נוסחה כך: "בא לכם להראות לתקשורת שהיא לא קובעת את סדר היום ולא תוכל לחגוג כרצונה? ביום הבחירות אם יש מחוץ לקלפי שלכם קלפי של מדגם הטלוויזיה פשוט תשימו בה פתק הפוך ממה ששמתם בקלפי!! ורצוי פתק של מפלגת שמאל, כל שהתקשורת תלך לישון עם הדמיונות שלה ותקום עם המציאות שלנו. העתבק. להפיץ בכל הקבוצות!!!". (ראה צילום למטה).

pic

כמובן, זכותם של המסרבים לסרב, וגם זכותם של המשתתפים במדגם שרוצים בכך, להטות בכוונה את התחזית. זה כמובן עצוב, אבל זו המציאות.

עלינו להכיר אם כן בעובדה שבמיוחד בעת הזאת של מדיה חברתית, תיתכן פגיעה מכוונת ורבת היקף באמינות הסקרים, גם כאשר לתוצאות הסקר אין כל השפעה על החיים. סתם, כדי להוכיח שיכולים. נצטרך לחקור את התופעה ובמידת האפשר לבנות את הכלים המדעיים כדי להקטין את נזקה.

לסטטיסטיקאים ולחוקרי מדעי המדינה זה עשוי להיות מקרה מחקר חשוב ומרתק. עצוב, אך בכל זאת חשוב ומרתק. ובאשר להשפעות עתידיות על אמינות הסקרים, אני מציע שנצפור צפירת הרגעה. למרות הכל, לדעתי לפחות, זה היה מקרה מיוחד.

ראוי גם לציין את השפעתו של האילוץ לסגור את קלפיות המדגם לפני שמסתיימת ההצבעה בקלפיות. זהו אילוץ הנוכח בכל מערכות הבחירות, אך ניראה שהפעם השפעתו הייתה חריגה, הן בגלל היקף ההצבעה בשעות האחרונות והן בגלל התפלגות ההצבעה המשוערת באותן השעות.

ואכן, לפי נתוני הועדת הבחירות המרכזית, בבחירות האחרונות 13.1% מכלל המצביעים הצביעו בין השעות 20:00-22:00. זהו שיעור גבוה וחריג. בבחירות הקודמות מ 2013,  רק 4.4% מכלל המצביעים הצביעיו באותן השעות. בממוצע על פני 13 מערכות בחירות בין 1973 ל 2013, שיעור המצביעים בשעתיים האחרונות לפני סגירת הקלפיות עמד על 8.8%.

כעת, במדגם הטלוויזיה, עד לשעה 20:45, נרשמו  27,372 מצביעים ב 70 הקלפיות שבמדגם (משתתפים במדגם ומסרבים). באותן הקלפיות, בתוצאות האמת הסופיות היו 29,372 מצביעים, דהינו 8.2% מהמצביעים הצביעו באותן הקלפיות תוך שעה ורבע, עד 22:00.

אין כמובן דרך לוודא את התפלגות הצבעתם של המצביעים שהצביעו לאחר 20:45, אך ניתן לקבל אינדיקציה לגבי המגמה מתוך ניתוח הדיווחים על התפלגות ההצבעה לאורך היממה. בקלפיות של ערוץ 10, דווחו הנתונים שבע פעמים במשך יום הבחירות. בפעם השביעית והאחרונה דווחו הנתונים על המצביעים שבין השעות 20:00 ל 20:45.

להלן האחוזים של אלה שציינו בפני הסוקרים שהצביעי עבור הליכוד בדיווחים השונים. האחוזים הם מקרב המשתתפים במגדם (להוציא מסרבים):

דיווח שביעידיווח שישידיווח חמישידיווח רביעידיווח שלישידיווח שנידיווח ראשון
26%24%23%19%20%20%21%

בהינתן המגמה הברורה, לא בלתי סביר להניח שאחרי 20:45, שיעור המצביעים עבור הליכוד היה שיעור גבוה במיוחד ואולי אף גבוה מהערך המירבי שבטבלה. שוב תופעה חריגה בעוצמתה לעומת מערכות הבחירות הקודמות.

לבסוף, מספר מלים על ההבדל בין הטעות הפוליטית והטעות הסטטיסטית בתחזית ליל הבחירות. נדמיין תחזית בבחירות האחרות עם 30 מנדטים לליכוד, 27 מנדטים למחנה הציוני ו 8 מנדטים ליש עתיד (לעומת 30, 24, 11 בתוצאות הבחירות). מבחינה פוליטית, הטעות הייתה יותר נסבלת, בכל זאת תחזית נכונה של נצחון הליכוד. מבחינה סטטיסטית, זו תחזית באותו סדר גודל כמו התחזית המקורית (ואפילו קצת יותר גדולה).

 

10 תגובות בנושא “התחלנו עם 27-27 סיימנו עם 24-30 (על פיספוסי התחזיות והאפשרות של זיוף בתוצאות הבחירות)

  1. טל

    אני לא מבין הצורך במדגמים.
    אם בשעה 8 בבוקר ידעו להגיד תוצאות אמת על פי 95 אחוז מהקלפיות, אז אפשר ללכת לישון בלי לדעת את התוצאות במקום להאמען למדגמים שלא שווים את הפיקסלים שעליהם פורסמו.

  2. טל גלילי מאת

    אני מסכים שסקר יום הבחירות הוא הסקר היחיד שברור שאין לו שמץ של חשיבות מעשית. הוא לא יכול להשפיע על הבחירות של אנשים, ותוצאות האמת מגיעות תוך כמה עשרות שעות בינכה.
    כנראה שהסיבה היחידה שלו היא הסקרנות של אנשים – מה שהופך את הסקרים הללו להכי נצפים מבין כל סקרי הבחירות (לפי משהו שנאמר לי בזמנו מאיש תקשורת).

    1. עמי

      זה פשוט – המטרה היחידה של תוצאות המדגם היא רייטינג ושיהיה מה לשדר בטמבליזיה. כל הדיבורים האיןסופיים בשעתיים שאחרי המדגם נסובו סביב אילו ממשלות יכולות לקום והאם לבוז'י יש סיכוי או אין. כל זה הפך ללא רלוונטי כשהגיעו תוצאות האמת אבל לתחנות הטמבליזיה זה כבר לא היה משנה, את הרייטינג והקישקושיאדה הם כבר עשו

  3. Shmulik Itzchaki

    אלמנט נוסף שאחראי לחלק מההטייה ( לטעמי לפחות ) הוא שקלפיות המדגם נסגרו מן הסתם לפני 22:00 ( וגם אם נשארו פתוחות עד הסוף , הרי שנתוני המדגם "נחתכו" החל משעה מסוימת ) , ולאור ההתפתחות ביום הבחירות עצמו ( עקב הפאניקה שזרע ביבי בציבור ) , סביר מאוד שבשעות הערב שיעור התמיכה בליכוד הלך וגבר – ואת זה מובן שנתוני המדגם מפספסים ( וגם אין ממש מה לעשות נגד זה … ) .

    רוצה לומר – יכול מאוד להיות שהמדגם היה מאוד קרוב ל"הצבעות האמת" בשעות אחר-הצהריים , אך בערב התפתחה לה "זליגה" לטובת הליכוד שלא באה לידי ביטוי מספק במדגם .

  4. אוֹרי אמיתי

    מילא הסקר של יום הבחירות – כלומר המדגם – שאין לו משמעות אמיתית ואין בו כל תועלת, מעבר לכך שהוא מוכיח שתמיד תהיה טעות משמעותית, ושסביר שהיא תהיה לטובת הימין. (פרופ׳ פוקס מופתע? צפירת ארגעה אחרי מקרה מיוחד? האם הספיק לשכוח את הבחירות לראשות הממשלה ב-1996, שהיו אתגר קטן בהרבה בהנתן העובדה שהיתה בחירה בין שני מועמדים בסך הכל?)

    הנזק הגדול והאמיתי הוא בסקרים הנערכים מעת לעת, וביחוד מרגע שמוכרז על פיזור כנסת והליכה לבחירות. פעם אחר פעם אחר פעם מוכח שאין קשר בין תוצאות הסקרים הללו לבין תוצאות האמת – ועדיין הציבור, שלא מאמין לסקרים, לוקח אותם בשׂיא הרצינות (כלומר מאמין להם לגמרי). וגרוע מזה – המערכת הפוליטית מאמינה בסקרים. זכורה לרע מפלגת המרכז, שבחרה להעמיד בראשה מועמד על סמך סקרים. אבל זו רק דוגמא אחת מני רבות.

    בבחירות האחרונות ראינו את התחזקותה של תופעת ״סקרי העומק״ – מין מושׂג ערטילאי שנועד להתגבר על כך שברור שהסקרים הם שטות והבל. ״סקר עומק״ כזה, שדיווח על קריסה של הליכוד ופורסם ככל הנראה כאמצעי הטעיה מטעמו, סייע ליצור את המומנטום של הימים האחרונים, ולהטות את הכף. שיטה מותרת וחוקית לכל הדעות, אבל כזו שלא תורמת במאום לבריאות החיים הפוליטיים שלנו.

    הייתי אומר שצריך לאסור בכלל על קיום סקרי בחירות, אבל לא אומר. באופן כללי, צריך למעט ככל האפשר באיסורים על חופש הביטוי. כן אומר שכל מי שההתנהלות הדמוקרטית יקרה לליבו צריך להחרים את הסקרים באשר הם. פשוט להתעלם מהם. לא לשׂים לב. לשׂים לשׂחוק את כל מי שמשתמש בהם כנימוק. הם מסבים נזק חמור להתנהלות הבריאה של החיים הפוליטיים בארץ. אכן, אין מתאימה מהכותרת שבחר בעל הבלוג:

    סקר רע.

  5. דניאל

    כולם יודעים טוב מאוד מה הסיבה ל"טעויות" בסקרים. התשקורת השמאלנית שמעוותת את המציאות ומנסה להעלות את השמאל לשלטון. שימו לב שתמיד ה"טעויות" הן לטובת השמאל.

    1. טל גלילי מאת

      שלום דניאל.
      טענתך לא מבוססת בנתונים. אם תסתכל על התחזיות של ישראל היום (שלא ניתן לפקפק בימינותו), הרי שגם הם לא הצליחו לחזות את מה שקרה.
      היו שאמרו בתגובה "אה ברור, ישראל היום מפחד להביא תוצאות שונות מאשר שאר העיתונים". ועל זה אני משיב שזה לא מפריע לו להביא ידיעות חדשותיות מאד שונות בכל נושא אחר (בהתאם לתפיסת העולם של אדלסון/ביבי), וכמובן שאם הסקרים שלהם היו מצליחים איפה שאלו של ה"שמאל" היו טועים – זה היה שווה להם הרבה מאד קרדיט. אבל הם לא עשו זאת, לא בגלל שהם שמאלנים, אלא (לדעתי) בגלל שהם באמת לא ידעו מה הלך לקרות.

  6. עמיר

    המקרה הזה מעיד לדעתי על כך שטוב שבישראל הבחירות עדיין מבוצעות על פתקי נייר ואינן ממוחשבות.

    הרי אם הבחירות לכנסת היו ממוחשבות, מדי עם פרסום תוצאות האמת היו צצות טענות שקבוצת האקרים (ישראלים או ממדינה זרה) פרצו למערכת המחשבים של הקלפיות, ושהאחידות בין סקרי הטלביזיה מוכיחה זאת. ואם טענה זו היתה מתקבלת, זה היה מטה את תוצאות הבחירות לטובת המחנ"צ.

השאר תגובה