ארכיון הקטגוריה: בחירות 2015

התחלנו עם 27-27 סיימנו עם 24-30 (על פיספוסי התחזיות והאפשרות של זיוף בתוצאות הבחירות)

פוסט אורח של פרופסור קמיל פוקס על המרחק בין מדגמי הטלוויזיה לתוצאות האמת (הפוסט עודכן ב- 2015-07-27)

תזכורת: תחזיות מדגמי הטלוויזיה בשעה 10 בליל הבחירות הצביעו על שיוויון או כמעט שיוויון בין הליכוד למחנה הציוני (27-27 בערוצים 1 ו 10, 28-27 בערוץ 2). בתום ספירת הקולות התברר שהליכוד קיבל 30 מנדטים לעומת 24 למחנה הציוני. התחזיות עבור שאר המפלגות היו די מדויקות. ללא ספק, מבחינה פוליטית, תחזית שגויה. ובמידה פחותה אך משמעותית, התחזית די שגויה גם מבחינה סטטיסטית.

 

תחזיות ליל הבחירות עוררו שאלות מטרידות: איך קרה שהתחזיות סטו דווקא במפלגות הגדולות בכשלושה מנדטים לכל כיוון בעוד שהתחזיות ליתר המפלגות היו די קרובות לתוצאות הבחירות? וגם, איך קרה שהסטיות בשלושת הערוצים היו לאותן המפלגות ובאותו סדר גודל? התופעה הצליחה לעורר תהיות גם בקרב אנשים קרובים שחלקם אפילו העלו השערות שהתוצאות שונו על ידי יד זדונית.

שאלות טובות שמצדיקות ניתוח ותשובה. חלק מהתשובה טמונה בתוצאות ההצבעה ב 10,119 הקלפיות. 70 קלפיות מתוכן היוו את מדגם הטלוויזיה של ערוץ 10. התחזית שפורסמה בשעה 10 בליל הבחירות הייתה תוצאה של הרצת המודל הסטטיסטי על תשובות משתתפי במדגם באותן 70 קלפיות. כעת, כאשר בידינו נתוני ההצבעה של באותן 70 הקלפות ("תוצאות האמת"), הרצנו עליהן את המודל הסטטיסטי שהניב את התחזית של השעה 10. התוצאות היו בכדלקמן: הליכוד 30 מנדטים, המחנה הציוני 24, הרשימה הערבית המשותפת 12, יש עתיד 11, כולנו 10, הבית היהודי, ישראל ביתנו, ש"ס ואגודת ישראל 7 מנדטים כ"א, מרצ 5 (ראה צילום פלט המחשב). תחזית טובה לכל הדעות. אגב, בזאת, לדעתי, גם מופרכת ההשערה של מניפולציה ששינתה את התוצאות. הרי הניתוח הסטטיסטי של אותן 70 הקלפיות הניב תוצאה קרובה מאד לתוצאות הבחירות. והרי לא סביר שמישהו חיבל דווקא בתוצאות של אותן הקלפיות הספציפיות.

pic1

מסתבר שבמעבר בין תוצאות המשתתפים במדגם הטלוויזיה לתוצאות האמת של אותן הקלפיות שלושה מנדטים נעו מהמחנה הציוני לליכוד. במלים אחרות, במצב אידיאלי, לו כל המצביעים בקלפיות הטלוויזיה היו מסכימים להשתתף במדגם ולו תשובת כולם לשאלה "עבור מי הצבעת?" הייתה תשובת אמת, אזי התחזית שהייתה מתפרסמת הייתה בדיוק התחזית דלעיל.

לא מיותר לציין שהמרכיבים התחזית שבשליטת הסוקרים הם בחירת קלפיות המדגם וניתוח התוצאות. מה שכמובן לא בשליטתם הן תשובות המצביעים באותן הקלפיות. ברור שכאשר התפלגות הצבעתם של המסרבים להשתתף במדגם שונה מזו של משתתפי המדגם, נגרמת הטייה בתחזית. וכאשר שם המפלגה הנמסר לפוקד שונה משם המפלגה אליה הצביעו, נגרמת הטייה נוספת.

בבחירות קודמות התפלגות התוצאות של משתתפי קלפיות המדגם דמתה מאד להתפלגות ההצבעה בפועל באותן הקלפיות. הסטיות התאפיינו בעיקר במגזרים מוגדרים באוכלוסייה, כמו חרדים, עולים וערבים. אלה סטיות הניתנות להערכה סטטיסטית וניתן להתחשב בהשפעתן בעת חישוב התחזית. יתר על כן, בדרך כלל הסטיות היו ממוקדות בקלפיות מסויימות.

לא כן הפעם. נסתכל בתוצאות של שתי המפלגות בהן עסקינן. בעת סגירת 70 הקלפיות שבמדגם הטלוויזיה של ערוץ 10 (בשעה 20:45), מספר המצביעים בפועל עבור הליכוד והמחנה הציוני היו 6692 ו 5922, בהתאמה, הפרש של 770 קולות לטובת הליכוד. לעומת זאת, במדגם הטלוויזיה באותן הקלפיות 4414 אמרו שהצביעו ליכוד לעומת 4700 שאמרו שהצביעו המחנה הציוני, הפרש של 286 קולות לטובת המחנה הציוני.

במלים אחרות, גם מספר ניכר של מסרבים וגם התברר בדיעבד שבין משתתפי המדגם, שיעור האומרים שהצביעו עבור המחנה הציוני היה גדול משמעותית משיעור האומרים שהצביעו ליכוד. אולי רק בגלל שאכן התפלגות הצבעתם של המסרבים הייתה שונה משמעותית מזו של המשתתפים. ואולי גם בגלל שבין המשתתפים שהצבעתם בקלפי לא תאמה את אמירתם, היו לא מעט מצביעי ליכוד שהפכו במדגם למצביעי המחנה הציוני.

אין כמובן דרך להפריד במדוייק בין השפעת המסרבים להשפעתם של אלה ששינו את צורת הצבעתם בדרכם לפגישה עם פוקד הטלוויזיה. אבל ניתוח נתונים מאפשר הערכה של סידרי הגודל של ההשפעות.

נתחיל בנושא המסרבים: עד לסגירת 70 הקלפיות שהיוו את מדגם הטלוויזיה של ערוץ 10, נרשמו על ידי הסוקרים 27,372 מצביעים, ומתוכם 21,193 השתתפו במדגם והסוקרים וציינו את המפלגה לה הצביעו. דהינו, 23% מהצביעים סירבו להשתתף במדגם. בעת ספירת כלל הקולות באותן הקלפיות נרשמו 29,812 מצביעים.

הטבלה הבאה מציגה את תוצאות קיבוץ הקלפיות לפי שיעורי ההצבעה לליכוד (לפי מה שמשתתפי המדגם אמרו לסוקרים) ואת ממוצעי שיעורי המסרבים באותן הקלפיות:

שיעור מצביעי ליכוד0%-10%11%-20%21%-30%31%-40%מעל 40%
ממוצע אחוז מסרבים18%18%26%27%28%

 

בכלל 70 הקלפיות, מקדם המתאם בין שיעורי ההצבעה לליכוד ובין שיעורי המסרבים באותן הקלפיות הוא 0.34+, שהוא כמובן מאד מובהק (p-value=.004). מאידך, מקדם המתאם בין מספר המצביעים ובין שיעורי ההצבעה לליכוד באותן הקלפיות הוא 0.06-, שהוא שלילי ומאד לא מובהק (p-value=.594).

במלים אחרות, לא עומס בקלפיות גרם לשיעור גבוה של מסרבים, וסביר שהייתה קורלציה בין הנטייה לסרב להשתתף במדגם לבין הנטייה להצביע עבור הליכוד.

וכעת לנושא התופעה של השינוי הוירטואלי של ההצבעה בדרך בין חדר הקלפי למועד הפגישה עם פוקד הטלוויזיה: כמובן, אין כל אפשרות לאמוד את היקף התופעה. לא נוכל אפילו להגיד ברמה מוחלטת של וודאות שאכן הייתה תופעה כזאת.  אך יש סימוכין לכך שהפעם הייתה כוונה מאורגנת לפגוע בתחזית  הטלוויזיה, כחלק מהפגיעה בתקשורת. הודעת וואטס-אפ שהסתובבה אצל רבים נוסחה כך: "בא לכם להראות לתקשורת שהיא לא קובעת את סדר היום ולא תוכל לחגוג כרצונה? ביום הבחירות אם יש מחוץ לקלפי שלכם קלפי של מדגם הטלוויזיה פשוט תשימו בה פתק הפוך ממה ששמתם בקלפי!! ורצוי פתק של מפלגת שמאל, כל שהתקשורת תלך לישון עם הדמיונות שלה ותקום עם המציאות שלנו. העתבק. להפיץ בכל הקבוצות!!!". (ראה צילום למטה).

pic

כמובן, זכותם של המסרבים לסרב, וגם זכותם של המשתתפים במדגם שרוצים בכך, להטות בכוונה את התחזית. זה כמובן עצוב, אבל זו המציאות.

עלינו להכיר אם כן בעובדה שבמיוחד בעת הזאת של מדיה חברתית, תיתכן פגיעה מכוונת ורבת היקף באמינות הסקרים, גם כאשר לתוצאות הסקר אין כל השפעה על החיים. סתם, כדי להוכיח שיכולים. נצטרך לחקור את התופעה ובמידת האפשר לבנות את הכלים המדעיים כדי להקטין את נזקה.

לסטטיסטיקאים ולחוקרי מדעי המדינה זה עשוי להיות מקרה מחקר חשוב ומרתק. עצוב, אך בכל זאת חשוב ומרתק. ובאשר להשפעות עתידיות על אמינות הסקרים, אני מציע שנצפור צפירת הרגעה. למרות הכל, לדעתי לפחות, זה היה מקרה מיוחד.

ראוי גם לציין את השפעתו של האילוץ לסגור את קלפיות המדגם לפני שמסתיימת ההצבעה בקלפיות. זהו אילוץ הנוכח בכל מערכות הבחירות, אך ניראה שהפעם השפעתו הייתה חריגה, הן בגלל היקף ההצבעה בשעות האחרונות והן בגלל התפלגות ההצבעה המשוערת באותן השעות.

ואכן, לפי נתוני הועדת הבחירות המרכזית, בבחירות האחרונות 13.1% מכלל המצביעים הצביעו בין השעות 20:00-22:00. זהו שיעור גבוה וחריג. בבחירות הקודמות מ 2013,  רק 4.4% מכלל המצביעים הצביעיו באותן השעות. בממוצע על פני 13 מערכות בחירות בין 1973 ל 2013, שיעור המצביעים בשעתיים האחרונות לפני סגירת הקלפיות עמד על 8.8%.

כעת, במדגם הטלוויזיה, עד לשעה 20:45, נרשמו  27,372 מצביעים ב 70 הקלפיות שבמדגם (משתתפים במדגם ומסרבים). באותן הקלפיות, בתוצאות האמת הסופיות היו 29,372 מצביעים, דהינו 8.2% מהמצביעים הצביעו באותן הקלפיות תוך שעה ורבע, עד 22:00.

אין כמובן דרך לוודא את התפלגות הצבעתם של המצביעים שהצביעו לאחר 20:45, אך ניתן לקבל אינדיקציה לגבי המגמה מתוך ניתוח הדיווחים על התפלגות ההצבעה לאורך היממה. בקלפיות של ערוץ 10, דווחו הנתונים שבע פעמים במשך יום הבחירות. בפעם השביעית והאחרונה דווחו הנתונים על המצביעים שבין השעות 20:00 ל 20:45.

להלן האחוזים של אלה שציינו בפני הסוקרים שהצביעי עבור הליכוד בדיווחים השונים. האחוזים הם מקרב המשתתפים במגדם (להוציא מסרבים):

דיווח שביעידיווח שישידיווח חמישידיווח רביעידיווח שלישידיווח שנידיווח ראשון
26%24%23%19%20%20%21%

בהינתן המגמה הברורה, לא בלתי סביר להניח שאחרי 20:45, שיעור המצביעים עבור הליכוד היה שיעור גבוה במיוחד ואולי אף גבוה מהערך המירבי שבטבלה. שוב תופעה חריגה בעוצמתה לעומת מערכות הבחירות הקודמות.

לבסוף, מספר מלים על ההבדל בין הטעות הפוליטית והטעות הסטטיסטית בתחזית ליל הבחירות. נדמיין תחזית בבחירות האחרות עם 30 מנדטים לליכוד, 27 מנדטים למחנה הציוני ו 8 מנדטים ליש עתיד (לעומת 30, 24, 11 בתוצאות הבחירות). מבחינה פוליטית, הטעות הייתה יותר נסבלת, בכל זאת תחזית נכונה של נצחון הליכוד. מבחינה סטטיסטית, זו תחזית באותו סדר גודל כמו התחזית המקורית (ואפילו קצת יותר גדולה).

 

פוסט מורטם – מרחק הסקרים מתוצאות האמת

התחלתי את האתר סקר רע לפני כשלושה חודשים במטרה לעודד הצגה תקינה של סקרים בתקשורת, ולדון ביתרונות והמגבלות של כלי זה בפוליטיקה הישראלית. בפוסט זה אני לא אדון בפוליטיקה של הדבר, אלא אציג את הסקרים ברגע האחרון למול תוצאות האמת, כדי שנראה מה בהם יצא דומה ושונה.

אתמול אזרחי ישראל יצאו להצביע בהמוניהם (71.8%, אחוז ההצבעה הגבוה מאז 1999). ביום שישי פירסמתי פוסט שמסכם את תוצאות הסקרים בשבועיים של עד לפני הבחירות, כדי להדגים מה הסקרים "רואים" נכון ללפחות מועד פירסומם האחרון. הנה הצגה של תוצאות האמת (נכון ל- 99% קלפיות שנספרו), למול חציון תחזיות הסוקרים על פני השבועיים שלפני הבחירות:

2015-03-20 10_04_34-Clipboard

אפשר להבחין בשלושה הבדלים משמעותיים:

  1. הליכוד זינק מ- 22 מנדטים ל- 30. סביר שאלו 4 המנדטים של הבית היהודי ושאר ה-4 מנדטים, זה כנראה פיזור יותר מרוכזהיו הליכוד זכה היה סחף משמעותי של קולות מהבית היהודי לליכוד.
  2. הבית היהודי איבד 4 מנדטים מ- 12 ל- 8
  3. מפלגת יחד לא הצליחה לעבור את אחוז החסימה וקרסה מ-4 ל-0 מנדטים (היא זכתה רק ל- 2.98%, כשסף המטרה היה 3.25%). זה פיזר עוד 4 מנדטים מסביב (כאשר יותר מריכוז הקולות שנותרו הלך כנראה לליכוד).

למרות ההבדלים – התוצאות יצאו קרובות מאד. דרך פשוטה לתאר את הקשר זה עם הקורלציה של פירסון (נתעלם מסוגיות התלות וכו' של נתונים מנדטים), מקבלים קורלציה של 0.949 (זה כמעט זהה לתוצאות של תחזית אחד הסקרים עבור תוצאות הבחירות ב-2013 – שם הקורלציה הייתה 0.949). דרך נוספת היא לקחת את ממוצע הפרש הערך המוחלט של המנדטים – שהוא 1.8. להלן תרשים פיזור המציג את הקשר הלינארי בין תחזיות הסקרים לבין תוצאות האמת (סימנתי את שלושת המקרים הקיצוניים בנקודות אדומות):

2015-03-20 10_04_54-Clipboard

 

האם יכולנו לחזות מראש את התוצאות שקיבלנו?

כן ולא.

כן:

מצד אחד, את התוצאות של רוב המפלגות הסקרים הצליחו לחזות מאד מדוייק.

במקרה של מפלגת יחד, היה ברור שהיא כל הזמן על סף החסימה (4 מנדטים), ולכן הסיכון שהיא לא תיכנס היה ברור (למרות שבכל הסקרים בשבועיים שלפני היא הצליחה להכנס לכנסת).

לא:

את מעבר הקולות מהבית היהודי לליכוד היה אפשר להתחיל לראות בשבוע שלפני הבחירות, אם היינו מסתכלים על מגמות הסקרים של השבוע האחרון:

2015-03-18 15_15_13-Clipboard

 

אבל אני לא יכול לטעון שהמגמה שראינו הייתה כל כך קיצונית שמראש היה ברור שלשם אנו הולכים (היו מגמות עליה גם למחנה הציוני ולכולנו של כחלון – והם בסוף נשארו בטווח שנחזה מראש).

האם הסקרים פיספסו תופעה שכבר הייתה קיימת? אישית, קשה לי להאמין בזה. יותר סביר בעיני שהקמפיין של נתניהו בימים האחרונים הוא זה שעשה את העבודה.

עבורי, תוצאות כאלה הן תזכורת רועמת על כך שכאשר משתדלים לחזות את התנהגותם של אנשים, תמיד יש מקום לענווה רבה.

והערה קטנה לגבי סקרי דעת הקהל ביציאה מהקלפיות: אין לי מושג מדוע בהן היה 27 לליכוד ולמחנצ, כשבפועל היה כזה פער. את זה אני באמת שלא מבין, ומחכה להארות מהסוקרים.

אחוז המצביעים – לפי שעה ביום

מסקנות מהפוסט: אם אתם רוצים להצביע בלי לעמוד בטור, כנראה שעדיף להצביע בין 14:00 ל- 18:00 בצהריים.

מחר יתקיימו הבחירות. לקראת היום המותח שמצפה לנו מחר, חשבתי שיהיה נחמד להסתכל טיפה על אחוזי ההצבעה בישראל. לדוגמא: בשביל להחליט מתי יהיה פחות תור במקום ההצבעה, או בשביל לראות מחר במהלך היום האם נראה שאחוז ההצבעה גבוה מהרגיל (מה שאני מקווה שיקרה), או לא.

נתחיל מאחוז המצביעים לפי שנה:

2015-03-16 19_24_02-Clipboard

אפשר לראות שהחל מהבחירות ב-2001 הייתה ירידה חדה באחוז ההצבעה בישראל. האחוז הנמוך שב- 2001 מוסבר, לפי הערך בויקיפדיה:

בחרם שהטילו חלק מערביי ישראל על הבחירות, בשל אירועי אוקטובר 2000 שרבים מקרב האוכלוסייה הערבית ראו את אהוד ברק כאחראי להם, בעובדה כי הבחירות לא נערכו לכנסת אלא רק לראשות הממשלה, דבר שהביא לאי השתתפותו של "המצביע הסקטוריאלי", ובצפי ששרון ינצח בבחירות בכל מקרה, כך שההצבעה לא תועיל.

בשל האופי השונה של מערכות הבחירות השונות, נתמקד בלהציג את הנתונים רק של 2003 והילך. בטבלה הבאה מוצגים אחוז המצביעים שיצאו להצביע בכל שעה, לפי שנה. לדוגמא: ב- 2003, בשעה 12 (כלומר בין 10:00 ל- 12:00) הצביעו 13.9% מבעלי זכות הבחירה. הנה הנתונים:

שעה2003200620092013
1010.19.910.311.4
1213.911.813.115.3
1411.39.210.611.6
168.98.17.98.3
188.688.48.9
2010109.48.2
2256.25.52.9

והנה תרשים של הטבלה:

2015-03-16 19_35_29-Clipboard

 

אפשר לראות שרוב האנשים מצביעים בין השעות 10:00 בבוקר ל- 12:00 בצהריים. השעות השקטות יחסית הן בין 14:00 ל- 18:00 בצהריים, ואז יש עוד זינוק קל של מצביעים בין 18:00 ל- 20:00.

הנה מספר המצביעים המצטבר לאורך שעות היום:

2015-03-16 19_40_19-Clipboard

הצבעה נעימה 🙂

נספח

באתר ווינט פירסמו טבלה עם אחוז המצביעים, לפי שעה ביום, לפי שנה. להלן הנתונים הגולמיים:

להמשיך לקרוא

"איזו ממשלה אתה מעדיף שתקום אחרי הבחירות" 19% עולה על 27%

בסקר שפורסם אתמול באתר וואלה, הופיע התרשים הבא:

553263_10153796886027366_8958606933094572376_n

 

ראשית – 27% נמוך מ- 19%. וכמובן, היה נחמד לדעת לאן נעלמו עוד 18% מהאנשים. לזכות וואלה יאמר שלאחר כמה שעות (ויש לנחש, תלונות הגולשים), הם תיקנו את הגרף (למעט ה- 18%):

1872187-5

 

 

חשוב להדגיש שתוצאותיהן של כל סקרי הבחירות ששודרו או פורסמו עד ליום שישי הם כבר לא עדכניים ואין ללמוד מהם על דפוסי הצבעה או עמדות של הציבור היום או ביום הבחירות.

הסקרים של הבחירות לכנסת ה-20 – סיכום השבועיים האחרונים!

הודעה חשובה לפני שהפוסט יתחיל: איגוד הסטטיסטיקאים הישראלי מארגן תחרות לניבוי תוצאות הבחירות 2015 (תחרות עם פרס בגובה 1,250 ש"ח, ללא דמי השתתפות – לפרטים נוספים והשתתפות, קיראו עוד כאן). ונתחיל את הפוסט:

אתמול הגיעו הסקרים האחרונים שנראה עבור הבחירות לכנסת ה- 20, וזה זמן טוב לתת מבט אחרון אחורה לסקרים שפורסמו. חשוב להדגיש שתוצאותיהן של כל סקרי הבחירות ששודרו או פורסמו עד אתמול הם כבר לא עדכניים ואין ללמוד מהם על דפוסי הצבעה או עמדות של הציבור היום או ביום הבחירות. אז למה בכל זאת להסתכל אחורה? כי אם איננו יכולים לדעת מה יהיה ביום שלישי הקרוב, אז שלפחות נדע משהו על מה סביר שהיה המצב אתמול.

לשם כך, אני מציע לכם שני תרשימים אשר נוצרו בעזרת תוכנה שכתב יוני סידי (בעזרת שפת R לתכנות סטטיסטי), אשר מסתמך על נתוני הסקרים שאסף נחמיה גרשוני.

שני התרשימים מציגים את תוצאות הסקרים מהשבועיים האחרונים (לא כולל היום, כפי שהוסבר מעלה).

1) תרשים פיזור של מספר המנדטים לכל מפלגה לאורך זמן

התרשים הראשון מציג פיזור עם קו "ממוצע מוחלק". בציר ה- X יש לנו זמן (יש בעיה קלה בעברית, אני מתנצל), בציר ה- Y את מספר המנדטים. כל נקודה מציגה מנדטים שהביא מאחד מהסקרים. הקו בכל גרף מציג סוג של ממוצע מקומי של המנדטים. הצבע שמסביב לקו נותן תחושה כללית של פיזור הנקודות סביב הקו (הקליקו על התמונה לגירסה מוגדלת).

2015-03-13 22_49_17-Clipboard

עד לתאריך ביצוע הסקר האחרון (ראו את ההסתייגות שכתבתי בתחילת הפוסט!), נראה ש:

  • "הרשימה המשותפת" נשארה באותו מספר של מנדטים – בין 12 ל- 13.
  • הבית היהודי התחיל מגמת ירידה עד לכ- 11 מנדטים
  • המחנה הציוני התחיל מגמת עליה קלה עד לכ- 25 מנדטים
  • ישראל ביתנו במגמה קלה של ירידה לכ – 5 מנדטים
  • כולנו – במגמת עליה קלה לכ-9 מנדטים
  • ליכוד – במגמת עליה קלה לכ-22 מנדטים
  • מרצ – מגמה מעורבת, באיזור ה- 5 מנדטים
  • שס – מגמה מעורבת, באיזור ה- 7 מנדטים
  • יחד – מגמה מעורבת, באיזור ה- 4 מנדטים
  • יהדות התורה – בין 6 ל- 7 מנדטים
  • יש עתיד – יציבה יחסית סביב ה- 12 מנדטים

2) תרשים קופסא של מספר המנדטים לכל מפלגה

התרשים השני הוא "תרשים קופסא". בציר ה- X יש לנו את המפלגות השונות, בציר ה- Y את מספר המנדטים. הקו העבה בכל קופסא הוא חציון מספר המנדטים. וקצוות הקווים הן המקסימום והמינימום ה"לא חריגים" של כל תחזית (כדי להבין יותר איך זה נקבע, יש לקרוא את הערך תרשים קופסא בויקיפדיה).

כך לדוגמא, החציון של מספר המנדטים של הליכוד הוא 22. הכי הרבה שהוא קיבל היה 24 מנדטים והכי מעט 20 מנדטים. אצל המחנה הציוני, החציון היה 24, הכי מעט היה 23 והכי הרבה 25 (הנקודה של ה- 26 היא קצת חריגה ביחס לנתונים)
(הקליקו על התמונה לגירסה מוגדלת)

2015-03-13 22_29_15-Clipboard

החציונים של מספר המנדטים לכל מפלגה הן: (לפי סדר יורד)

  • המחנה הציוני – 24
  • הליכוד – 22
  • הרשימה המשותפת – 13
  • הבית היהודי – 12
  • יש עתיד – 12
  • כולנו – 8
  • שס – 7
  • יהדות התורה – 7
  • ישראל ביתנו – 6
  • מרצ – 5
  • יחד – 4

לסיכום

שאלות פתוחות וחשובות:

  • מה יהיה אחוז ההצבעה הכללי ובמגזרים השונים? ייתכן והסקרים שיש לנו לא מצליחים לתפוס את ההשפעה של איחוד המפלגות הערביות, ושביום הבחירות נגלה שהמפלגה שלהם תקבל הרבה יותר קולות ממה שהופיע בכל הסקרים. באופן דומה, מפלגת יחד נמצאת על 4 מנדטים באופן די עיקבי, מה שאומר שעליה אפילו קטנה של אחוז ההצבעה, ומעט היסוס מצד המצביעים שלה – עשוי להותיר אותם מחוץ לכנסת.
  • מה לגבי ה"לא משיבים"? קמיל פוקס אמר בראיון השבוע שרק כ- 24% מהנשאלים בסקרים משיבים. האם אלו שמשיבים מייצגים גם את שאר ה- 76% שלא הסכימו להשיב?  יכול להיות שכל הסוקרים מפספסים תתי אוכלוסיות או תופעות אשר יפתיעו אותנו ביום הבחירות עצמו (כמו שהיה עם ההצלחה המדהימה של יש עתיד בבחירות הקודמות) – מה שהסברתי בעבר במאמר על שגיאות שאפשר ושאי אפשר להציג.
  • מה לגבי המתלבטים? כמו בכל מערכת בחירות, גם כעת יש "הרבה" קולות מתנדנדים (ההערכות על כך משתנות). יכול להיות שיהיה סחף של קולות לכיוון מסויים. סחף כזה הביא את יש עתיד ל- 19 מנדטים בבחירות האחרונות. מה הוא יעשה הפעם? האם הוא ילך שוב ליש עתיד? לכחלון? למחנה הציוני? או למפלגה אחרת?

כמו שנילס בוהר אמר בזמנו (למרות שזו שאלה מי אמר זאת ראשון): "מאד קשה לבצע חיזויים, בעיקר לגבי העתיד".

מה אפשר להסיק מכל מה שנעשה עד כה לגבי יום הבחירות עצמו? אני בכנות לא יודע. אני מקווה שתחרות חיזוי הבחירות שאנחנו מקדמים, באיגוד הסטטיסטיקאים הישראלי, יעזור בתחום הזה בעתיד.

יהיה מה שיהיה, אני מתכנן להצביע – ואני מקווה שגם אתם! 🙂

מגמות הסקרים של הבחירות לכנסת ה-20 (חלק 1)

הודעה חשובה לפני שהפוסט יתחיל: בסוף השבוע יתקיים מפגש דיון בחיזוי תוצאות הבחירות (להרשמה, חינם, למפגש – הקליקו כאן). המפגש מיועד לאנשים העוסקים בניתוח נתונים ומאורגן במטרה לדון בחיזוי תוצאות הבחירות, וגם כדי לעודד אתכם להשתתף בתחרות האיגוד לניבוי תוצאות הבחירות 2015 (תחרות עם פרס בגובה 1,250 ש"ח, ללא דמי השתתפות – לפרטים נוספים והשתתפות, קיראו עוד כאן). ונתחיל את הפוסט:

היום מתחיל השבוע האחרון שלפני הבחירות. אני בטוח שכולנו נרצה להסתכל על הסקרים האחרונים בתקווה לדעת מה יקרה בשבוע הבא. אבל דווקא עכשיו זה הזמן לקחת צעד אחורה, ולהסתכל על התמונה הגדולה. וכך היא נראית (הקליקו על התמונה לגירסה מוגדלת, והסברים מופיעים בהמשך):

2015-03-08 12_47_13-Clipboard

הגרף שמוצג נוצר בעזרת אתר האינטרנט שבנה יוני סידי (הוא בנה את האתר בעזרת שפת R לתכנות סטטיסטי), אשר מסתמך על נתוני הסקרים שאסף נחמיה גרשוני.

הגרף למעלה מאפשר לנו לראות את מגמת התמיכה במפלגות השונות על פני החודש וחצי האחרונים.

בגרף אנחנו רואים תרשים פיזור נפרד לכל מפלגה. בציר ה- X אנחנו רואים את תאריך ביצוע הסקר, ובציר ה- Y את מספר המנדטים שקיבלה המפלגה מהסקר. כל נקודה מציגה תחזית מנדטים למפלגה חברת סקרים שונה. הקו שמולבש על גבי הגרף הוא סוג של "קו מגמה" (לא נכנס לאיך שהוא מחושב, אבל אפשר לחשוב עליו כמו על ממוצע מקומי לטווח ערכים מסויים).

הגרף עוזר לנו לזהות את טווח הוודאות של הסוקרים השונים לגבי המפלגות השונות, והאם לאורך זמן אנחנו רואים התחזקות או היחלשות של "מרכז" תחזית המנדטים של המפלגות השונות. ברשותכם, אציע פרשנות למגמת מספר המנדטים שמקבלים המפלגות השונות, על סמך מה שהגרף מראה לנו:

  • הליכוד – הייתה מגמת היחלשות של המפלגה במהלך פברואר. אבל בשבועיים האחרנים המצב די יציב.
  • המחנה הציוני – המפלגה איבדה קצת מכוחה בסוף ינואר, אבל מאז היא שומרת באופן יחסית יציב על אותו מספר מנדטים.
  • יש עתיד – מצליחה באופן עיקבי (ודי מרשים, אני מוכרח להודות) להתחזק בסקרים. בשבועיים האחרונים נראה שיש התייצבות בעליה.
  • הבית היהודי – נראה שהם רק נחלשו בחודש וחצי האחרונים, ובשבועיים האחרונים נראה שהם התייצבו.
  • יחד – בהתחלה הם התנדנדו על אי-מעבר של אחוז החסימה, אבל בשבועות האחרונים הם הצליחו לשמור על ה-4 מנדטים שלהם בסקרים באופן יחסית עיקבי.
  • שאר המפלגות נראות ללא מגמה – כולנו, ישראל ביתנו, שס, יהדות התורה, מרצ, רשימה משותפת ערבית – כולם שומרים על יחסית יציבות בתחזיות המנדטים.

הדבר שלא מופיע בסקרים, והוא בעל חשיבות עצומה, היא השאלה של אחוז ההצבעה במגזרים השונים. ייתכן והסקרים שיש לנו לא מצליחים לתפוס את ההשפעה של איחוד המפלגות הערביות, ושביום הבחירות נגלה שהמפלגה שלהם תקבל הרבה יותר קולות ממה שהופיע בכל הסקרים. באופן דומה, מפלגת יחד נמצאת על 4 מנדטים באופן די עיקבי, מה שאומר שעליה אפילו קטנה של אחוז ההצבעה, ומעט היסוס מצד המצביעים שלה – עשוי להותיר אותם מחוץ לכנסת.

וכמובן, יכול להיות שכל הסוקרים מפספסים תתי אוכלוסיות או תופעות, אשר יפתיעו אותנו ביום הבחירות עצמו (כמו שהיה עם ההצלחה המדהימה של יש עתיד בבחירות הקודמות) – מה שהסברתי בעבר במאמר על שגיאות שאפשר ושאי אפשר להציג.

הבחירות האלה חשובות ומעניינות – צאו עם המשפחה והחברים ולכו להצביע!

(חלק 2 של הפוסט יגיעו בעוד שבוע אחרי שתוצאות התחזיות של משתתפים בתחרות החיזוי יגיעו)

מפלגת עלה ירוק עותרת כנגד מכוני הסקרים וערוצי החדשות – זה מעניין

הפוסט הבא הוא פחות מהסוג של "אי תראו, שגיאה!", ועוסק בנושא עמוק. תביאו כוס קפה, ותקראו בהנאה.

בסוף פברואר, מפלגת עלה ירוק (עם עורכי הדין חגי קלעי ואוהד רוזן) הגישו עתירה כנגד עיתון "הארץ", ידיעות אחרונות, ישראל היום, NRG, וואלה!, רשות השידור, חברת החדשות, ערוץ הכנסת, ערוץ 10, ומכוני הסקרים. בעתירה ביקשו שערוצי החדשות יפסיקו לפרסם תוצאות סקרים מעובדות למנדטים, ויעברו לפרסום תוצאות הסקרים הגולמיות באחוזים.

לצערי לא הצלחתי למצוא את קובץ העתירה המקורית (למישהו יש קישור?), ולכן אני מסתמך על

עידכון: שלחו אלי את העתירה המקורית, אתם מוזמנים להוריד אותה מכאן: Document (158)

ואף הופיעו דיווחים שלה באתרי החדשות. לדוגמא כאן (וגם כאן וכאן).

בעתירה הועלו שלל טענות, בין השאר נכתב כי:

"המצג שיוצרים המשיבים אינו משקף את המציאות אלא מתערב בה, ומעודד את הבוחרים שלא להצביע למפלגות העומדות על סף אחוז החסימה. העדר הדיווח על העליה המתמדת במצביעים הפוטנציאליים של אותן מפלגות, והצגתן כמי שזוכות ל חמישה אחוזים מהקולות, מעביר מסר שגוי לציבור כי אין כל סיכוי לכניסת מפלגות אלו לכנסת. התנהלות זו, בין אם במחדל ובין אם בכוונת מכוון עומדת בניגוד לדין, פוגעת פגיעה קשה בעיקרון החוקתי של שיוויון הבחירות, ומשפיעה השפעה לא ראויה ומוטה על ציבור הבוחרים והבוחרות".

ובכן מסתבר שיו"ר ועדת הבחירות המרכזית, השופט סלימן ג'ובראן, השיב אתמול (04/03/2015) לעתירה. הנה מה שנכתב:

החלטת ביניים -סלים ג'ובראן

הסיכום שלי של תגובת השופט:

  1. השופט דחה את הטענה שאי הכללה של "עלה ירוק" בסקרים שמעבירים הופכים אותם לפסולים. זאת משום שהעותרים לא הביאו חוות דעת סטטיסטית מקצועית בנושא, ואי לכך אין השופט יכול לקבל את דעת העותרים בנושא, והוא דוחה את טענתם.
  2. העתירה חשובה, אך לא תספיק להשפיע על הבחירות הקרובות. המשך הדיון יהיה ב- 11/03/2015
  3. השופט חושב (אך "מבלי להכריע בדבר"!) שיש מקום להתייחס למידת קירבתן של מפלגות שלא עברו את אחוז החסימה בסקר בתוצאות שמוצגות.

הסיקור של הכלכלה האמיתית – ודעתי

בדיווח שהופיע היום באתר "הכלכלה האמיתית" נכתבו כמה דברים בנושא. אפשר להגיב להרבה דברים שנאמרו שם, אני אתמקד ואתייחס למשפט המסכם שאיני מסכים איתו. הם כתבו:

אתמול החליט יו"ר ועדת הבחירות המרכזית,סלימן ג'ובראן, לקבל את עיקרי הטענות בעתירה.ערוצי התקשורת יחויבו לפיכך לפרסם את תוצאות הסקרים האמיתיות באחוזים במקום בעיבוד למנדטים.

זו לחלוטין לא הפרשנות שלי למה שכבוד השופט כתב. לפי הבנתי, השופט דחה כמה טענות בעתירה, ולגביהטענה המרכזית על החשיבות של הצגת קירבת המפלגות לאחוז החסימה – הוא חושב שראוי לקבל חוות דעת מומחית (ולכך הוא מזמין את מכוני הסקרים להגיב).

כך או אחרת, אני מסופק שהתוצאה של העתירה הזו תהיה הצגה של תוצאות הסקרים באחוזים ולא במנדטים. היות ותוצאות הבחירות ימדדו במנדטים, סביר מאד להציג לציבור את תוצאות הסקרים במנדטים ולא באחוזים.

עם זאת, לגבי הביטוי "עיבוד למנדטים", כוונת הכותבים בכלכלה האמיתית (אני משער) היא לא רק להמרה של אחוזים ל- 120 מנדטים, אלא השינויים הדרושים בתוצאות הסקר כדי לתת משקל שונה לנתונים על מנת שאלו ישקפו נאמנה יותר את אוכלוסיית ישראל ואת תוצאות הבחירות (הסברתי על הנושא של הטייה יותר בהרחבה כאן). לדעתי – אני חושב שזה יהיה פסול מאד להציג בתקשורת את תוצאות הנתונים הגולמיים ללא עיבוד מתאים. אני מסכים שהתהליך הזה כולל שיקול דעת אישי, ולכן עלול לכלול טעויות והטיות. עם זאת, לצערי, אני לא יודע על דרך טובה יותר לקבל תחזית "סבירה" לתוצאות הבחירות (היות והתוצאות הגולמיות צפויות להיות מאד מאד לא מייצגות לתוצאות האמת).

מצד שני, יכול להיות מעניין לראות האם השופט יחייב את מכוני הסקרים להציג את הנתונים הגולמיים ואת שיטות הסקירה. מצד אחד, אני משוכנע שמכוני הסקרים ילחמו לגבי זה היות ודרכי העיבוד מהווים סודות מקצועיים עבורם. אני לא יודע איזה שיקול ינצח "זכות הציבור לדעת" או "חופש העיסוק" הכולל שמירה על סודות מסחריים.

אני לא יודע איך העתירה הזו תסתיים – אבל כבר עכשיו היא מעלה סוגיות מעניינות מאד לבחינה משפטית – שכשלעצמו זה דבר טוב.

129% מהציבור רוצים שר אוצר…

הפוסט הזה הגיע מהגולש שובל צורן אשר דיווח במסגרת תחרות הסקר המוזר (אתם גם מוזמנים להגיש דיווח כאן, והמדווח על הסקר ה"מוזר" ביותר יזכה ב- 500 ש"ח. אין עלות להשתתפות).

 

הגרף הבא פורסם בדף הפייסבוק של המחנה הציוני, ומגלה שסך הכל 127% מהציבור רוצים בשר אוצר:

2015-03-04 12_11_24-Clipboard

 

"הצעירים בישראל בחרו – מהפך" – אך ללא קשר בין מספרים לעמודות

הפוסט הזה הגיע מהגולש שובל צורן אשר דיווח במסגרת תחרות הסקר המוזר (אתם גם מוזמנים להגיש דיווח כאן, והמדווח על הסקר ה"מוזר" ביותר יזכה ב- 500 ש"ח. אין עלות להשתתפות).

הגרף הבא פורסם בדף הפייסבוק של יצחק הרצוג:

2015-03-04 08_57_12-Clipboard

על הסקר כתב שובל (בצדק):

אין כל פרופורציה בין המספרים והעמודות; למרות שההפרשים בין המפלגות למטה קבועים(1) המרחקים בין עמודותיהן שונים, וההפרש בין 9% ל-20% לחלוטין לא פרופורציונלי. בנוסף, כמובן שההצגה המגמתית ממשיכה כשהם מציגים את עצמם – כש30% הרבה יותר גדול ממה שאמור להיות. אפשר גם לשים לב שעמודת ה30% *רחבה* יותר.

ואני אוסיף שהעמודה של המחנה הציוני מופיעה בצבע אחר (ניחא), אבל יותר חשוב מזה, שהיו כמה סקרי תיכונים שונים, וכל אחד החליט לשקלל אותם אחרת (לדוגמא, יש תוצאות אחרות שבהם יש עתיד זוכה כמנצחת המועדפת).

 

תחרות לחיזוי תוצאות הבחירות – ההשתתפות בחינם – הפרס הוא 1250 ש"ח

האיגוד הישראלי לסטטיסטיקה, בחסות חברת איסתרא מחקר, הכריז על תחרות לניבוי תוצאות הבחירות לכנסת ה-20, כאשר הזוכה בתחזית הטובה ביותר יקבל 1,250 ש"ח. אם אתם מעוניינים להצטרף כנתוני חסות לתחרות הזו (אשר צפויה לזכות להד תקשורתי רב כאשר נפרסם את תוצאות התחזיות לפני הבחירות), אנא שילחו לי אימייל ([email protected]).

אני מעודד אתכם להפיץ את המידע על התחרות במוסדותיכם ובמקומות העבודה שלכם.

כדי להשתתף, כל שעליכם לעשות הוא לרשום כמה מנדטים תקבל כל מפלגה, לתת את פרטיכם האישיים (שם/אימייל/וכו'), ולהסביר כיצד להגיע לתחזיות המנדטים הללו (כולל פירוט ברור של המודלים הסטטיסטיים וההנחות לבחירתם). התאריך האחרון להגשה הוא 14 במרס, שלושה ימים לפני הבחירות (ומן הסתם, זה יהיה הזמן עם הכי הרבה מידע עדכני בשביל ביצוע התחזיות). את הפרטים עליכם למלא בטופס שכאן:

http://www.statistics.org.il/elections2015

בשביל נתוני סקרים עדכניים, אני מציע לכם להסתכל על הרשימה שמנהל נחמיה גרשוני, בכתובת:
https://docs.google.com/spreadsheets/d/13XIAgbVk_c2Zxxa5xsR0EJFb6W9HMQpAjBImtFxZdxo/edit#gid=0

מטרת התחרות היא לעודד חשיבה כמותית ושימוש בכלים סטטיסטים בבעיה אקטואלית, וכמובן להפיץ את החשיבות של סטטיסטיקה בקרב הציבור בישראל.

כתבה על התחרות גם פורסמה ב-ynet.

(גילוי נאות: אני חבר וועד באיגוד הסטטיסטיקאים הישראלי)