אילו הבחירות היו מתקיימות היום – אז בסקרי הבחירות 18 יהיה גבוה מ- 19 ששווה ל- 13

בסטטוס של דורון ביינהורן מופיע צילום מסך מהתוכנית "פגוש את העיתונות" אשר מציג סקר שערכו מנו גבע וד"ר מינה צמח, ממכון מדגם על מה היו תוצאות הבחירות אילו הן היו מתקיימות היום. הנה הגרף שהוצג (הוספתי עליו קווים כתומים כדי לסייע בפרספקטיבה):

12729215_1137404266300075_1660408740461820924_n

בתרשים שלפנינו 13=19<18, 26 גדול מ- 18 בערך בשתי נקודות.

נציין לשבח גם את ישי פלג שגם הוסיף קווים על התמונה להבהרה, וגם ל inforserviz, ואלון אנטין על הדיווח.

זה כנראה התרשים הגרוע ביותר שנתקלתי בו מאז סקר מעריב שבו המספר 10 היה שווה ל- 23 וגדול מ-10.

 

 

NRG כותבים "סקר: תחבורה ציבורית בשבת? הצעירים ביותר נגד" – ולא מדגישים שרוב הציבור (73%) דווקא בעד

אמ"לק: בדף הבית של NRG הופיעה הכותרת "תחבורה ציבורית בשבת? רוב הצעירים נגד", אשר מחביאה את זה שרוב הישראלים (בין 72% ל- 74%, תלוי בסקר) תומכים בתחבורה ציבורית בשבת!

10402516_10153592246239130_5003069439516510606_n

ליאור טל פירסם בפייסבוק את הטקסט הבא (בטקסט בוצעה עריכה שסומנה ב "[…]" כדי להוריד טענות לגבי כוונות הכותבים והתמקדות בעובדות):

[…]
בדף הבית של NRG הופיעה הכותרת "תחבורה ציבורית בשבת? רוב הצעירים נגד". מאחר ואני מכיר היטב את התחום, הופתעתי מאוד ונכנסתי לכתבה. גם בפנים הופיעה אותה הכותרת ומתחת הסברים על סקר חדש של מכון שערים. אם ממשיכים לקרוא רואים את נתוני האמת של הסקר – 73% בעד תחבורה ציבורית בשבת! (44% כן, 29% באופן חלקי לפני נתוני העיר) הו, זו כותרת. מצאנו תחום שזו דעת רוב מוחץ בציבור מתנגדת לחוק! לא לא, […]
אז מה עשו? הסתכלו על חלוקה לפי גילאים. גם בחלוקה לפי גילאים הייתה תמונה דומה. גם 70% מהצעירים בגילאי 21 עד 30 בעד תחבורה ציבורית בשבת. מדהים. למרות שאחוז הדתיים בקרב צעירים גבוה יותר, עדיין יש תמיכה מאסיבית בתח"צ. לא לא, [… גם נתון זה לא הוצג].
אז הסתכלו על גילאי 18-20 [אשר מהווים רק 7% ממדגם של 516 איש…] וראו ששם 52% נגד. טוב, זה כבר מתאים לכותרת! אבל [גם נוסף לכותרת] ניסוח מטעה. וכך כתבו שם: "מעניין לראות כי 52% מקרב הצעירים בין הגילאים 18-20, ועוד 30% מקרב הצעירים בני 21-30 השיבו בשלילה". מבינים? "ועוד 30%". לא, 52% מקרב בני 18-20 אבל רק 30% מבני 21-30 אלא ועוד 30%, כאילו 52+30=82.
הכתבה הזו ב NRG יהדות מביישת את האתר (אותו אני מכבד ואף מרבה לפרסם בו מאמרים). זו עיתונות [שבוחרת] כותרת שמתאימה לאג'נדה שלה [במקום להדגיש את עיקר המימצאים…].
החלטתי לכתוב משהו לכתב על זה אבל כיאה לכתבה מטעה- אין שם של כתב… חבל.

34.4% גדול מ- 44% (בתרשים העמודות של) דעותיהם של אנשים על חוק הצינון

באתר מאקו פורסם השבוע "סקר חדשות 2: הציבור מעדיף את גנץ על נתניהו". באתר נכתב:

בהקשר ישיר להעדפה שהביעו הנשאלים כלפי גנץ – סברו 44% מהם כי צריך להשאיר את תקופת הצינון בת ה-3 שנים על כנה. 34% חושבים שיש לקצר את תקופת הצינון ו-11% סבורים שדווקא יש להאריך אותה.

ובתרשים התקבל שהעמודה של 34.4% גדולה מזו של 44%
701129_C

הדיווח על המיסאינפוגרפיקה התקבלה מברי לוי. תודה ברי.

סטטיסטיפדיה – תחרות לכתיבת ערכים בנושא סטטיסטיקה עבור הוויקיפדיה העברית

statistipedia_banners

סטטיסטיפדיה היא תחרות נושאת פרסים של כתיבת ערכים בנושא סטטיסטיקה והסתברות עבור הוויקיפדיה העברית. התחרות נערכת בהשראת תחרות דומה בתחום הפיזיקה – פיזיוויקי. מטרת התחרות היא להנגיש ערכים בנושאים אשר מופיעים בקורסי מבוא לסטטיסטיקה בסיסיים.

במטרה להרחיב ולשפר את היצע הערכים העוסקה בסטטיסטיקה והסתברות בויקיפדיה העברית, האיגוד הישראלי לסטטיסטיקה גאה להכריז על תחרות סטטיסטיפדיה. התחרות תתחיל ביום הסטטיסטיקה הבינלאומי ב- 20 לאוקטובר, ותימשך חודשיים עד לסיומה.

התחרות זוכה לחסות ותמיכה מעמותת ויקימדיה ישראל, בית הספר למדעי מתמטיקה באוניברסיטת תל אביב וחברת איסתרא מחקר. פרסים כספיים בשווי של 8,000 שקלים יחולקו לזוכים:

  1. פרס ראשון בסך 3000 ש"ח,
  2. פרס שני של 2000 ש"ח,
  3. ועוד 6 פרסי הוקרה בסך 500 ש"ח האחד.

הפרסים הראשון והשני יוענקו לכותבי הערכים הטובים ביותר, וששת הפרסים על סך 500 ש"ח יוענקו או לכותבי ערכים טובים או לעורכים אשר תרמו משמעותית להכי הרבה ערכים (פרטים מדוייקים והרשמה מופיעים בדף התחרות). הערכים שייכתבו עבור התחרות ייבדקו מדעית על ידי תלמידי מחקר וחברי סגל, וידורגו לפי איכותם המדעית וכן על פי נגישותם לקהל הרחב.

סטטיסטיקה חשובה לאזרח בעידן המודרני כדי לפרש ולהפעיל חשיבה ביקורתית על זרם הטענות והנתונים המגיעים אליו בתקשורת ובכלל התרבות, החל בתוצאות מחקרים רפואיים וכלה בסקרי בחירות. מטרת התחרות היא לסייע ולהנגיש את עולם הסטטיסטיקה לדורות של תלמידי תיכון וסטודנטים בשפה העברית. אנו רוצים להכין את הקרקע כך שלתלמידי תיכון וסטודנטים יהיה משאב ציבורי וחופשי המסביר במקצועית ובפשטות מושגים יסודיים מהתחום.

בסיום התחרות מתוכנן כנס סיום בו יוכרזו הזוכים. הכנס יתקיים בבית הספר למדעי המתמטיקה באוניברסיטת תל אביב.

שופטים:

  • ד"ר תמר גדריך, מכללת אורט בראודה
  • ד"ר דוד עזריאל, טכניון
  • פרופ' עוזי וישנה, אוניברסיטת בר-אילן
  • טל גלילי, אוניברסיטת תל אביב.

מארגנים:

  • טל גלילי, אוניברסיטת תל אביב
  • אבנר קנטור, עמותת ויקימדיה ישראל ואוניברסיטת חיפה

לפרטים נוספים והשתתפות, פנו לדף התחרות

(הטקסט של פוסט זה פורסם במקור באתר של האיגוד הישראלי לסטטיסטיקה, והוא משוחרר תחת רישיון שימוש CC-BY. אתם מוזמנים להפיץ את הטקסט בכל אופן שנראה לכם סביר, בבלוג, בפייסבוק – וכן הלאה)

דה-מרקר "והטבלאות המפחידות שאנחנו 
לא רוצים להביט בהן"

תקציר: הפוסט מציע מבט ביקורתי על מעמדה של ישראל לפי בדו״ח התחרותיות שפירסם השבוע הפורום הכלכלי העולמי. ועל הדיווח של זה בעיתון דה-מרקר

הפירסום בדה-מרקר

בעיתון דה-מרקר פורסמה אתמול כתבתו של גיא רולניק תחת הכותרת "מונופול הגז והטבלאות המפחידות שאנחנו 
לא רוצים להביט בהן". בכתבה נכתב:

שש הטבלאות משמאל לא פורסמו השבוע בעיתונות הישראלית. ייתכן שהן יוכלו להסביר לכחלון את האכזבה שחשים רבים ממנו. ייתכן שהן יוכלו להסביר מדוע יש כאלה שלא מאוכזבים ממנו, אלא דווקא אדישים כלפי מה שהוא עושה או לא עושה.

הטבלאות האלה כלולות בדו״ח התחרותיות שפירסם השבוע הפורום הכלכלי העולמי. הן מבוססות על מאות סקרים וניתוחים שכלכלני הפורום וכלכלנים של ארגונים ציבוריים אחרים עורכים בכל מדינות העולם.

העיתונות הישראלית מפרסמת מדי שנה את הדירוג הכולל של ישראל במדד העולמי, מציינת אם עלינו או ירדנו ומדגישה את ההישגים המרשימים של ישראל בתחום החדשנות, הטכנולוגיה והיזמות. בתחומים האלה אכן יש במה להתגאות.

הציטוט הזה היה מלווה בטבלה הבאה:

1648511334

אז מה הבעיות בכתבה של דה-מרקר?

יש כמה בעיות

1) מאיפה מגיעים הנתונים – והאם הם מאפשרים לענות על השאלות שמעניינות אותנו?

הנתונים בטבלה מתבססים על דו״ח התחרותיות שפירסם השבוע הפורום הכלכלי העולמי. ניתן להוריד את הדו"ח מהקישור שכאן. ספציפית הנתונים שמופיעים בכתבה מדה-מרקר מתבססים על סקר של מנהלים מישראל אשר שאלו אותם לדרג מ- 1 עד 7 את ישראל לפי סידרה של שאלות. (הסקר מתואר החל מעמוד 85 בדו"ח, עמוד 101 ב PDF).

כלומר, הדירוג של ישראל מתבסס על מה מנהלים ישראלים חושבים על ישראל, לעומת מנהלים במדינות אחרות.

שימו לב שבדה-מרקר הציגו את דעותיהם של מנהלים לגבי השאלות הבאות:

  • הקצאת כספי ציבור
  • בזבזנות בוצאות הממשלה
  • אמון הציבור בפוליטיקאים
  • מידת הריכוזיות בשוק
  • העדפת מקורבים בהחלטות ממשלה
  • מידת התחרות בשוק המקומי

השאלה המתבקשת היא, מדוע שלמנהלים יהיה דרך סבירה להעריך את מיקומה של מדינת ישראל כחלק מהמדדים הללו? כיצד הם יכולים לדרג את ישראל במידת הריכוזיות של השוק? או במידת אמון הציבור בפוליטיקאים?!

2) דה-מרקר לא נותנים קישור למקור הנתונים – ולא מאפשרים לוודא את דיוק הדיווח

דה מרקר לא נותנים קישור ישיר למקור הנתונים שעל בסיסם הם פירסמו את מה שפירסמו. לדוגמא, כשחיפשתי את אחד מהמדדים שלהם "אמון הציבור בפוליטיקאים", אז גיליתי שבמסמך אליו קישרתי, הנתון שמופיע בכתבה שונה מזה שמופיע בדו"ח. בעמוד 409 (עמוד 425 ב PDF), ישראל מדורגת במקום 81 (ולא מקום 84).

האם זה אומר שכל הנתונים שדה-מרקר מציגים אינם נכונים? לא בהכרח. אבל זה מדגים את הקושי לגלות מה מקור הנתון שהם מציגים (והקושי לדעת האם הנתון שהם מביאים הוא נכון או שגוי).

3) מהו גודל המדגם?

בדבר אחד ישראל אחר נמצאת הכי נמוך בעולם (ביחד עם סווזילנד) – וזה במספר המנהלים שהסכימו להשתתף בסקר שעל בסיסו גיבשו את המסמך.

הסקר הועבר על 32 מנהלים. כלומר, כל השיחה הזאת, על איפה ישראל מדורגת בעולם, מתבסס על הדעות של בסך הכל 32 מנהלים (שלא ברור לנו מיהם, איך הם נבחרו להשתתף במדגם, איזה אוכלוסיה הם מייצגים, מה הכשירות שלהם להשיב על השאלות שנשאלו וכו').

הנה תרשים התפלגות מספר המשיבים על הסקר במדינות השונות (ראו כיצד ישראל מופיעה בתחתית, הוספתי חץ כדי להדגיש את מיקומה)

32IL

4) כיצד ישראל מוצגת וויזואלית

שימו לב שישראל תמיד מופיעה בסוף הרשימה. כלומר, לא משנה אם מיקומה של ישראל הוא 42 מתוך 144, או 133 מתוך 144, היא תמיד תופיעה בסוף הרשימה. היה עדיף להציג את ישראל על פני סקאלה קווית, כדי שנוכל בקלות לראות איפה היא באחוזים מ-0 עד 100%.

לזכותם של דה-מרקר, הטקסט עצמו שמופיע בכתבה מבהיר שיש לישראל במה להתגאות בנושאים כמו חדשנות. אבל הדבר הגרפי היחידי שמופיע הוא הצגה של מדדים מסויימים בלבד (ולא כולם, או תמונה מגוונות/מאוזנת).

5) אז איפה ישראל מדורגת בחלקים אחרים של המסמך?

לצערי, דה-מרקר לא מציגים הקשר רחב של תוצאות הסקר הזה, אלא רק מספר קטן של מדדים. ודווקא המדדים היותר בעיתיים שצצו מהסקר (ספציפית, הנושא של השכלה גבוהה, והשקעה בחינוך בישראל), בכלל לא צויינו.

הנה דוגמא לעוד כמה מדדים המתארים את ישראל מהדו"ח:

 

דוגמא לדירוג ישראל במדד Global Competitiveness Index

אז יש הרבה מדדים שמתוארים במסמך (מהקישור שכאן). לדוגמא, החל מעמוד 3 של המסמך (עמוד 19 ב PDF), מתוארת לנו שיטת מדידה בשם Global Competitiveness Index. פירוט הנתונים שהרכיבו את המדד הזה מפורטות בעמוד 11 (עמוד 27 ב- PDF). שימו לב לקטע שהדגשתי:

To measure these concepts, the GCI uses statistical data such as enrollment rates, government debt, budget deficit, and life expectancy. These data are obtained from internationally recognized agencies, notably the United Nations Educational, Scientific and Cultural Organization (UNESCO), the International Monetary Fund (IMF), and the World Health Organization (WHO). The descriptions and data sources of all these statistical variables are summarized in the Technical Notes and Sources at the end of this Report. Furthermore, the GCI uses data from the World Economic Forum’s annual Executive Opinion Survey (the Survey) to capture concepts that require a more qualitative assessment or for which internationally comparable statistical data are not available for the entire set of economies. The Survey process and the statistical treatment of data are described in detail in Chapter 1.3 of this Report.

מה שזה אומר הוא שמדובר בדו"ח שמנסה לעשות משימה קצת בלתי אפשרית. הוא מנסה לשפוט את מצב המדינות בעולם בהרבה סוגיות שקשה למדוד (ושגם כאלו שניתן למדוד, אין תמיד את המדידה העדכנית לאותה המדינה לשנה הנוכחית, אלא רק כמה שנים אחורה). עד כדי כך, שכדי להתמודד עם הקושי הזה – הם נדרשים להשתמש בסקר דעות המנהלים (שעליו נדבר בהמשך).

אז "איפה ישראל מדורגת?", בשביל לקבל קצת פרספקטיבה נציג את תוצאות ישראל במדד GCI.

בעמוד 14 של הדו"ח, בטבלה 4, ישראל מדורגת (במדד 'סה"כ') במקום 27 מתוך 144 (שזה בערך באחוזון ה- 80% של המדינות שבסקר – לא נשמע כל כך רע). אם היינו רוצים להציג את זה גרפית, יכולנו לצייר 10 מקפים ולהוסיף קו אופקי שיסמל איפה ישראל ממוקמת בין המקפים, בדירוג של מ- 1 עד 10 (רעיון של יוני סידי המופלא). אז במקרה של מדד הסך הכל, היינו מציירים  –|——–  (זה אומר שישראל בין ציון 8 ל- 9)

אם ניכנס לכל אחד מהמדדים שמתוארים בטבלה הזו, נבחין במיקומים הבאים (מספר גבוה יותר, ימינה יותר, זה "טוב יותר"):

דרישות בסיסיות —|——- 75
מעצים יעילות –|——– 81
חדשנות וגורמי תיחכום -|——— 93
מוסדות —|——- 70
תשתיות —|——- 76
סביבה מאקרואקונומית —-|—— 65
בריאות וחינוך בסיסי —-|—— 69
השכלה גבוה והכשרה —|——- 75
יעילות של שווקי מוצרים ——|—- 45
יעילות של שוק העבודה —–|—– 59
התפתחות שווקים פיננסיים –|——– 86
מוכנות טכנולוגית –|——– 89
גודל השוק —-|—— 66
תיחכום השוק –|——– 81
חדשנות -|——— 97

על פניו, כשמסתכלים על "גליון הציונים" שלנו, זה לא כזה נורא. אומנם אנחנו לא מתבלטים בתור "עם סגולה" שמופיע במקום ראשון בהכל, אבל זה גם בוודאי שלא "נכשל" גורף כשמתסכלים בסקאלה העולמית.

בעמוד 36, אף נותנים לנו סיכום מעניין של מצבה של ישראל (עם נקודות חוזק וחולשה ששווה לקרוא)

Israel retains the 27th position in this year’s GCI. The country’s main strengths remain its world-class capacity for innovation (3rd), which rests on innovative businesses that benefit from the presence of some of the world’s best research institutions (3rd), support by the government through public procurement policies (9th), and a favorable financial environment for start-ups (availability of venture capital is assessed at 9th place). Yet for the country’s innovation-driven competitiveness strategy to be successful and viable going into the future, Israel will have to address some basic competitiveness challenges. Israel’s institutions are in need of continued upgrading (43rd) and a stronger focus on raising the bar in education is needed. If not addressed, poor educational outcomes—particularly in math and science (79th) and in primary schools (86th)—could undermine the country’s innovative capacity over the longer term.
Room for improvement also remains with respect to the macroeconomic environment (50th), although improvements have taken place between 2012 and 2013 as the fiscal deficit and public debt were reduced. At the time of writing, the security situation in the country is once again fragile, which could potentially affect the country’s economy, although this has not been the case in the recent past.

בעמוד 236 ב PDF (עמוד 220 במסמך), יש סיכום של 2 עמודים על מדינת ישראל. הנה תרשים די ממצא של המימצאים (ישראל בכחול, ומדינה מפותחת "טיפוסית" באפור) – ככל שהקו של ישראל יותר קרוב למרכז העיגול ככה זה פחות טוב (לדוגמא, אפשר לראות שאנחנו פחות טובים במוסדות, תשתיות, השכלה גבוה ויעילות השוק – אבל הרבה יותר טובים בחדשנות):

IL_raadar

כאמור, לא מדהים, אבל גם לא רע בכלל.

לסיכום

מהדו"ח עולה שלישראל יש ייתרונות וחסרונות. הכתבה בדה-מרקר לא הציגה אותם באופן שמשקף את מה שכותבי הדו"ח הדגישו, וגם לא באופן שמאפשר לראות את הנקודות חוזק/חולשה השונות שתוארו בדו"ח.

אבל בכל מקרה, מדובר בדו"ח שהאמינות/ייצוגיות שלו לגבי מדינת ישראל היא בעיתית בלשון המעטה. להחליט על מיקומה של ישראל במדדים כל כך מורכבים כמו ריכוזיות הון, או שביעות רצון מפוליטיקאים, רק על סמך הדעות של 32 מנהלים מישראל (שלא ברור איך הם נבחרו) – נראית כמו הסקת מסקנות מאד דרמטית, שלא ברור עד כמה היא נכונה/משקפת את המציאות. להגנתם של כותבי הדו"ח יאמר שבאמת קשה לתת תשובה טובה לשאלות שהם שאלו – כי כנראה שאין הרבה נתונים "איכותיים" בשביל לענות על שאלות אלו.

אם עלי לתת המלצות לדה-מרקר (ולאחרים) הן יהיו שבכתבה מסוג זה הם יקפידו:

  1. לתת קישור למקור הנתונים!
  2. לציין את המיגבלות הדרמטיות של הנתונים (32 נשאלים בלבד, שלא ברור מה הם מייצגים)
  3. אם כבר מחליטים לסמוך על מסקנות הדו"ח – לציין את המסקנות המילוליות שכותביו מציעים, ולא רק בחירה נקודתית של מדדים מסויימים.
  4. ניסיון לתת הצגה מקיפה של המדדים שנמדדו (כנראה עם עדיפות על המדדים היותר אמינים, למרות שלזהות מי הן היו זה עבודה עיתונאית לא פשוטה בכלל)

 

קרדיטים: ברצוני להודות ליוני סידי ויהודה פורת על הפידבק שהם נתנו על הכתבה – מה שהוביל אותי לכתיבת פוסט זה.

התחלנו עם 27-27 סיימנו עם 24-30 (על פיספוסי התחזיות והאפשרות של זיוף בתוצאות הבחירות)

פוסט אורח של פרופסור קמיל פוקס על המרחק בין מדגמי הטלוויזיה לתוצאות האמת (הפוסט עודכן ב- 2015-07-27)

תזכורת: תחזיות מדגמי הטלוויזיה בשעה 10 בליל הבחירות הצביעו על שיוויון או כמעט שיוויון בין הליכוד למחנה הציוני (27-27 בערוצים 1 ו 10, 28-27 בערוץ 2). בתום ספירת הקולות התברר שהליכוד קיבל 30 מנדטים לעומת 24 למחנה הציוני. התחזיות עבור שאר המפלגות היו די מדויקות. ללא ספק, מבחינה פוליטית, תחזית שגויה. ובמידה פחותה אך משמעותית, התחזית די שגויה גם מבחינה סטטיסטית.

 

תחזיות ליל הבחירות עוררו שאלות מטרידות: איך קרה שהתחזיות סטו דווקא במפלגות הגדולות בכשלושה מנדטים לכל כיוון בעוד שהתחזיות ליתר המפלגות היו די קרובות לתוצאות הבחירות? וגם, איך קרה שהסטיות בשלושת הערוצים היו לאותן המפלגות ובאותו סדר גודל? התופעה הצליחה לעורר תהיות גם בקרב אנשים קרובים שחלקם אפילו העלו השערות שהתוצאות שונו על ידי יד זדונית.

שאלות טובות שמצדיקות ניתוח ותשובה. חלק מהתשובה טמונה בתוצאות ההצבעה ב 10,119 הקלפיות. 70 קלפיות מתוכן היוו את מדגם הטלוויזיה של ערוץ 10. התחזית שפורסמה בשעה 10 בליל הבחירות הייתה תוצאה של הרצת המודל הסטטיסטי על תשובות משתתפי במדגם באותן 70 קלפיות. כעת, כאשר בידינו נתוני ההצבעה של באותן 70 הקלפות ("תוצאות האמת"), הרצנו עליהן את המודל הסטטיסטי שהניב את התחזית של השעה 10. התוצאות היו בכדלקמן: הליכוד 30 מנדטים, המחנה הציוני 24, הרשימה הערבית המשותפת 12, יש עתיד 11, כולנו 10, הבית היהודי, ישראל ביתנו, ש"ס ואגודת ישראל 7 מנדטים כ"א, מרצ 5 (ראה צילום פלט המחשב). תחזית טובה לכל הדעות. אגב, בזאת, לדעתי, גם מופרכת ההשערה של מניפולציה ששינתה את התוצאות. הרי הניתוח הסטטיסטי של אותן 70 הקלפיות הניב תוצאה קרובה מאד לתוצאות הבחירות. והרי לא סביר שמישהו חיבל דווקא בתוצאות של אותן הקלפיות הספציפיות.

pic1

מסתבר שבמעבר בין תוצאות המשתתפים במדגם הטלוויזיה לתוצאות האמת של אותן הקלפיות שלושה מנדטים נעו מהמחנה הציוני לליכוד. במלים אחרות, במצב אידיאלי, לו כל המצביעים בקלפיות הטלוויזיה היו מסכימים להשתתף במדגם ולו תשובת כולם לשאלה "עבור מי הצבעת?" הייתה תשובת אמת, אזי התחזית שהייתה מתפרסמת הייתה בדיוק התחזית דלעיל.

לא מיותר לציין שהמרכיבים התחזית שבשליטת הסוקרים הם בחירת קלפיות המדגם וניתוח התוצאות. מה שכמובן לא בשליטתם הן תשובות המצביעים באותן הקלפיות. ברור שכאשר התפלגות הצבעתם של המסרבים להשתתף במדגם שונה מזו של משתתפי המדגם, נגרמת הטייה בתחזית. וכאשר שם המפלגה הנמסר לפוקד שונה משם המפלגה אליה הצביעו, נגרמת הטייה נוספת.

בבחירות קודמות התפלגות התוצאות של משתתפי קלפיות המדגם דמתה מאד להתפלגות ההצבעה בפועל באותן הקלפיות. הסטיות התאפיינו בעיקר במגזרים מוגדרים באוכלוסייה, כמו חרדים, עולים וערבים. אלה סטיות הניתנות להערכה סטטיסטית וניתן להתחשב בהשפעתן בעת חישוב התחזית. יתר על כן, בדרך כלל הסטיות היו ממוקדות בקלפיות מסויימות.

לא כן הפעם. נסתכל בתוצאות של שתי המפלגות בהן עסקינן. בעת סגירת 70 הקלפיות שבמדגם הטלוויזיה של ערוץ 10 (בשעה 20:45), מספר המצביעים בפועל עבור הליכוד והמחנה הציוני היו 6692 ו 5922, בהתאמה, הפרש של 770 קולות לטובת הליכוד. לעומת זאת, במדגם הטלוויזיה באותן הקלפיות 4414 אמרו שהצביעו ליכוד לעומת 4700 שאמרו שהצביעו המחנה הציוני, הפרש של 286 קולות לטובת המחנה הציוני.

במלים אחרות, גם מספר ניכר של מסרבים וגם התברר בדיעבד שבין משתתפי המדגם, שיעור האומרים שהצביעו עבור המחנה הציוני היה גדול משמעותית משיעור האומרים שהצביעו ליכוד. אולי רק בגלל שאכן התפלגות הצבעתם של המסרבים הייתה שונה משמעותית מזו של המשתתפים. ואולי גם בגלל שבין המשתתפים שהצבעתם בקלפי לא תאמה את אמירתם, היו לא מעט מצביעי ליכוד שהפכו במדגם למצביעי המחנה הציוני.

אין כמובן דרך להפריד במדוייק בין השפעת המסרבים להשפעתם של אלה ששינו את צורת הצבעתם בדרכם לפגישה עם פוקד הטלוויזיה. אבל ניתוח נתונים מאפשר הערכה של סידרי הגודל של ההשפעות.

נתחיל בנושא המסרבים: עד לסגירת 70 הקלפיות שהיוו את מדגם הטלוויזיה של ערוץ 10, נרשמו על ידי הסוקרים 27,372 מצביעים, ומתוכם 21,193 השתתפו במדגם והסוקרים וציינו את המפלגה לה הצביעו. דהינו, 23% מהצביעים סירבו להשתתף במדגם. בעת ספירת כלל הקולות באותן הקלפיות נרשמו 29,812 מצביעים.

הטבלה הבאה מציגה את תוצאות קיבוץ הקלפיות לפי שיעורי ההצבעה לליכוד (לפי מה שמשתתפי המדגם אמרו לסוקרים) ואת ממוצעי שיעורי המסרבים באותן הקלפיות:

שיעור מצביעי ליכוד 0%-10% 11%-20% 21%-30% 31%-40% מעל 40%
ממוצע אחוז מסרבים 18% 18% 26% 27% 28%

 

בכלל 70 הקלפיות, מקדם המתאם בין שיעורי ההצבעה לליכוד ובין שיעורי המסרבים באותן הקלפיות הוא 0.34+, שהוא כמובן מאד מובהק (p-value=.004). מאידך, מקדם המתאם בין מספר המצביעים ובין שיעורי ההצבעה לליכוד באותן הקלפיות הוא 0.06-, שהוא שלילי ומאד לא מובהק (p-value=.594).

במלים אחרות, לא עומס בקלפיות גרם לשיעור גבוה של מסרבים, וסביר שהייתה קורלציה בין הנטייה לסרב להשתתף במדגם לבין הנטייה להצביע עבור הליכוד.

וכעת לנושא התופעה של השינוי הוירטואלי של ההצבעה בדרך בין חדר הקלפי למועד הפגישה עם פוקד הטלוויזיה: כמובן, אין כל אפשרות לאמוד את היקף התופעה. לא נוכל אפילו להגיד ברמה מוחלטת של וודאות שאכן הייתה תופעה כזאת.  אך יש סימוכין לכך שהפעם הייתה כוונה מאורגנת לפגוע בתחזית  הטלוויזיה, כחלק מהפגיעה בתקשורת. הודעת וואטס-אפ שהסתובבה אצל רבים נוסחה כך: "בא לכם להראות לתקשורת שהיא לא קובעת את סדר היום ולא תוכל לחגוג כרצונה? ביום הבחירות אם יש מחוץ לקלפי שלכם קלפי של מדגם הטלוויזיה פשוט תשימו בה פתק הפוך ממה ששמתם בקלפי!! ורצוי פתק של מפלגת שמאל, כל שהתקשורת תלך לישון עם הדמיונות שלה ותקום עם המציאות שלנו. העתבק. להפיץ בכל הקבוצות!!!". (ראה צילום למטה).

pic

כמובן, זכותם של המסרבים לסרב, וגם זכותם של המשתתפים במדגם שרוצים בכך, להטות בכוונה את התחזית. זה כמובן עצוב, אבל זו המציאות.

עלינו להכיר אם כן בעובדה שבמיוחד בעת הזאת של מדיה חברתית, תיתכן פגיעה מכוונת ורבת היקף באמינות הסקרים, גם כאשר לתוצאות הסקר אין כל השפעה על החיים. סתם, כדי להוכיח שיכולים. נצטרך לחקור את התופעה ובמידת האפשר לבנות את הכלים המדעיים כדי להקטין את נזקה.

לסטטיסטיקאים ולחוקרי מדעי המדינה זה עשוי להיות מקרה מחקר חשוב ומרתק. עצוב, אך בכל זאת חשוב ומרתק. ובאשר להשפעות עתידיות על אמינות הסקרים, אני מציע שנצפור צפירת הרגעה. למרות הכל, לדעתי לפחות, זה היה מקרה מיוחד.

ראוי גם לציין את השפעתו של האילוץ לסגור את קלפיות המדגם לפני שמסתיימת ההצבעה בקלפיות. זהו אילוץ הנוכח בכל מערכות הבחירות, אך ניראה שהפעם השפעתו הייתה חריגה, הן בגלל היקף ההצבעה בשעות האחרונות והן בגלל התפלגות ההצבעה המשוערת באותן השעות.

ואכן, לפי נתוני הועדת הבחירות המרכזית, בבחירות האחרונות 13.1% מכלל המצביעים הצביעו בין השעות 20:00-22:00. זהו שיעור גבוה וחריג. בבחירות הקודמות מ 2013,  רק 4.4% מכלל המצביעים הצביעיו באותן השעות. בממוצע על פני 13 מערכות בחירות בין 1973 ל 2013, שיעור המצביעים בשעתיים האחרונות לפני סגירת הקלפיות עמד על 8.8%.

כעת, במדגם הטלוויזיה, עד לשעה 20:45, נרשמו  27,372 מצביעים ב 70 הקלפיות שבמדגם (משתתפים במדגם ומסרבים). באותן הקלפיות, בתוצאות האמת הסופיות היו 29,372 מצביעים, דהינו 8.2% מהמצביעים הצביעו באותן הקלפיות תוך שעה ורבע, עד 22:00.

אין כמובן דרך לוודא את התפלגות הצבעתם של המצביעים שהצביעו לאחר 20:45, אך ניתן לקבל אינדיקציה לגבי המגמה מתוך ניתוח הדיווחים על התפלגות ההצבעה לאורך היממה. בקלפיות של ערוץ 10, דווחו הנתונים שבע פעמים במשך יום הבחירות. בפעם השביעית והאחרונה דווחו הנתונים על המצביעים שבין השעות 20:00 ל 20:45.

להלן האחוזים של אלה שציינו בפני הסוקרים שהצביעי עבור הליכוד בדיווחים השונים. האחוזים הם מקרב המשתתפים במגדם (להוציא מסרבים):

דיווח שביעי דיווח שישי דיווח חמישי דיווח רביעי דיווח שלישי דיווח שני דיווח ראשון
26% 24% 23% 19% 20% 20% 21%

בהינתן המגמה הברורה, לא בלתי סביר להניח שאחרי 20:45, שיעור המצביעים עבור הליכוד היה שיעור גבוה במיוחד ואולי אף גבוה מהערך המירבי שבטבלה. שוב תופעה חריגה בעוצמתה לעומת מערכות הבחירות הקודמות.

לבסוף, מספר מלים על ההבדל בין הטעות הפוליטית והטעות הסטטיסטית בתחזית ליל הבחירות. נדמיין תחזית בבחירות האחרות עם 30 מנדטים לליכוד, 27 מנדטים למחנה הציוני ו 8 מנדטים ליש עתיד (לעומת 30, 24, 11 בתוצאות הבחירות). מבחינה פוליטית, הטעות הייתה יותר נסבלת, בכל זאת תחזית נכונה של נצחון הליכוד. מבחינה סטטיסטית, זו תחזית באותו סדר גודל כמו התחזית המקורית (ואפילו קצת יותר גדולה).

 

פוסט מורטם – מרחק הסקרים מתוצאות האמת

התחלתי את האתר סקר רע לפני כשלושה חודשים במטרה לעודד הצגה תקינה של סקרים בתקשורת, ולדון ביתרונות והמגבלות של כלי זה בפוליטיקה הישראלית. בפוסט זה אני לא אדון בפוליטיקה של הדבר, אלא אציג את הסקרים ברגע האחרון למול תוצאות האמת, כדי שנראה מה בהם יצא דומה ושונה.

אתמול אזרחי ישראל יצאו להצביע בהמוניהם (71.8%, אחוז ההצבעה הגבוה מאז 1999). ביום שישי פירסמתי פוסט שמסכם את תוצאות הסקרים בשבועיים של עד לפני הבחירות, כדי להדגים מה הסקרים "רואים" נכון ללפחות מועד פירסומם האחרון. הנה הצגה של תוצאות האמת (נכון ל- 99% קלפיות שנספרו), למול חציון תחזיות הסוקרים על פני השבועיים שלפני הבחירות:

2015-03-20 10_04_34-Clipboard

אפשר להבחין בשלושה הבדלים משמעותיים:

  1. הליכוד זינק מ- 22 מנדטים ל- 30. סביר שאלו 4 המנדטים של הבית היהודי ושאר ה-4 מנדטים, זה כנראה פיזור יותר מרוכזהיו הליכוד זכה היה סחף משמעותי של קולות מהבית היהודי לליכוד.
  2. הבית היהודי איבד 4 מנדטים מ- 12 ל- 8
  3. מפלגת יחד לא הצליחה לעבור את אחוז החסימה וקרסה מ-4 ל-0 מנדטים (היא זכתה רק ל- 2.98%, כשסף המטרה היה 3.25%). זה פיזר עוד 4 מנדטים מסביב (כאשר יותר מריכוז הקולות שנותרו הלך כנראה לליכוד).

למרות ההבדלים – התוצאות יצאו קרובות מאד. דרך פשוטה לתאר את הקשר זה עם הקורלציה של פירסון (נתעלם מסוגיות התלות וכו' של נתונים מנדטים), מקבלים קורלציה של 0.949 (זה כמעט זהה לתוצאות של תחזית אחד הסקרים עבור תוצאות הבחירות ב-2013 – שם הקורלציה הייתה 0.949). דרך נוספת היא לקחת את ממוצע הפרש הערך המוחלט של המנדטים – שהוא 1.8. להלן תרשים פיזור המציג את הקשר הלינארי בין תחזיות הסקרים לבין תוצאות האמת (סימנתי את שלושת המקרים הקיצוניים בנקודות אדומות):

2015-03-20 10_04_54-Clipboard

 

האם יכולנו לחזות מראש את התוצאות שקיבלנו?

כן ולא.

כן:

מצד אחד, את התוצאות של רוב המפלגות הסקרים הצליחו לחזות מאד מדוייק.

במקרה של מפלגת יחד, היה ברור שהיא כל הזמן על סף החסימה (4 מנדטים), ולכן הסיכון שהיא לא תיכנס היה ברור (למרות שבכל הסקרים בשבועיים שלפני היא הצליחה להכנס לכנסת).

לא:

את מעבר הקולות מהבית היהודי לליכוד היה אפשר להתחיל לראות בשבוע שלפני הבחירות, אם היינו מסתכלים על מגמות הסקרים של השבוע האחרון:

2015-03-18 15_15_13-Clipboard

 

אבל אני לא יכול לטעון שהמגמה שראינו הייתה כל כך קיצונית שמראש היה ברור שלשם אנו הולכים (היו מגמות עליה גם למחנה הציוני ולכולנו של כחלון – והם בסוף נשארו בטווח שנחזה מראש).

האם הסקרים פיספסו תופעה שכבר הייתה קיימת? אישית, קשה לי להאמין בזה. יותר סביר בעיני שהקמפיין של נתניהו בימים האחרונים הוא זה שעשה את העבודה.

עבורי, תוצאות כאלה הן תזכורת רועמת על כך שכאשר משתדלים לחזות את התנהגותם של אנשים, תמיד יש מקום לענווה רבה.

והערה קטנה לגבי סקרי דעת הקהל ביציאה מהקלפיות: אין לי מושג מדוע בהן היה 27 לליכוד ולמחנצ, כשבפועל היה כזה פער. את זה אני באמת שלא מבין, ומחכה להארות מהסוקרים.

אחוז המצביעים – לפי שעה ביום

מסקנות מהפוסט: אם אתם רוצים להצביע בלי לעמוד בטור, כנראה שעדיף להצביע בין 14:00 ל- 18:00 בצהריים.

מחר יתקיימו הבחירות. לקראת היום המותח שמצפה לנו מחר, חשבתי שיהיה נחמד להסתכל טיפה על אחוזי ההצבעה בישראל. לדוגמא: בשביל להחליט מתי יהיה פחות תור במקום ההצבעה, או בשביל לראות מחר במהלך היום האם נראה שאחוז ההצבעה גבוה מהרגיל (מה שאני מקווה שיקרה), או לא.

נתחיל מאחוז המצביעים לפי שנה:

2015-03-16 19_24_02-Clipboard

אפשר לראות שהחל מהבחירות ב-2001 הייתה ירידה חדה באחוז ההצבעה בישראל. האחוז הנמוך שב- 2001 מוסבר, לפי הערך בויקיפדיה:

בחרם שהטילו חלק מערביי ישראל על הבחירות, בשל אירועי אוקטובר 2000 שרבים מקרב האוכלוסייה הערבית ראו את אהוד ברק כאחראי להם, בעובדה כי הבחירות לא נערכו לכנסת אלא רק לראשות הממשלה, דבר שהביא לאי השתתפותו של "המצביע הסקטוריאלי", ובצפי ששרון ינצח בבחירות בכל מקרה, כך שההצבעה לא תועיל.

בשל האופי השונה של מערכות הבחירות השונות, נתמקד בלהציג את הנתונים רק של 2003 והילך. בטבלה הבאה מוצגים אחוז המצביעים שיצאו להצביע בכל שעה, לפי שנה. לדוגמא: ב- 2003, בשעה 12 (כלומר בין 10:00 ל- 12:00) הצביעו 13.9% מבעלי זכות הבחירה. הנה הנתונים:

שעה 2003 2006 2009 2013
10 10.1 9.9 10.3 11.4
12 13.9 11.8 13.1 15.3
14 11.3 9.2 10.6 11.6
16 8.9 8.1 7.9 8.3
18 8.6 8 8.4 8.9
20 10 10 9.4 8.2
22 5 6.2 5.5 2.9

והנה תרשים של הטבלה:

2015-03-16 19_35_29-Clipboard

 

אפשר לראות שרוב האנשים מצביעים בין השעות 10:00 בבוקר ל- 12:00 בצהריים. השעות השקטות יחסית הן בין 14:00 ל- 18:00 בצהריים, ואז יש עוד זינוק קל של מצביעים בין 18:00 ל- 20:00.

הנה מספר המצביעים המצטבר לאורך שעות היום:

2015-03-16 19_40_19-Clipboard

הצבעה נעימה 🙂

נספח

באתר ווינט פירסמו טבלה עם אחוז המצביעים, לפי שעה ביום, לפי שנה. להלן הנתונים הגולמיים:

להמשיך לקרוא

"איזו ממשלה אתה מעדיף שתקום אחרי הבחירות" 19% עולה על 27%

בסקר שפורסם אתמול באתר וואלה, הופיע התרשים הבא:

553263_10153796886027366_8958606933094572376_n

 

ראשית – 27% נמוך מ- 19%. וכמובן, היה נחמד לדעת לאן נעלמו עוד 18% מהאנשים. לזכות וואלה יאמר שלאחר כמה שעות (ויש לנחש, תלונות הגולשים), הם תיקנו את הגרף (למעט ה- 18%):

1872187-5

 

 

חשוב להדגיש שתוצאותיהן של כל סקרי הבחירות ששודרו או פורסמו עד ליום שישי הם כבר לא עדכניים ואין ללמוד מהם על דפוסי הצבעה או עמדות של הציבור היום או ביום הבחירות.

הסקרים של הבחירות לכנסת ה-20 – סיכום השבועיים האחרונים!

הודעה חשובה לפני שהפוסט יתחיל: איגוד הסטטיסטיקאים הישראלי מארגן תחרות לניבוי תוצאות הבחירות 2015 (תחרות עם פרס בגובה 1,250 ש"ח, ללא דמי השתתפות – לפרטים נוספים והשתתפות, קיראו עוד כאן). ונתחיל את הפוסט:

אתמול הגיעו הסקרים האחרונים שנראה עבור הבחירות לכנסת ה- 20, וזה זמן טוב לתת מבט אחרון אחורה לסקרים שפורסמו. חשוב להדגיש שתוצאותיהן של כל סקרי הבחירות ששודרו או פורסמו עד אתמול הם כבר לא עדכניים ואין ללמוד מהם על דפוסי הצבעה או עמדות של הציבור היום או ביום הבחירות. אז למה בכל זאת להסתכל אחורה? כי אם איננו יכולים לדעת מה יהיה ביום שלישי הקרוב, אז שלפחות נדע משהו על מה סביר שהיה המצב אתמול.

לשם כך, אני מציע לכם שני תרשימים אשר נוצרו בעזרת תוכנה שכתב יוני סידי (בעזרת שפת R לתכנות סטטיסטי), אשר מסתמך על נתוני הסקרים שאסף נחמיה גרשוני.

שני התרשימים מציגים את תוצאות הסקרים מהשבועיים האחרונים (לא כולל היום, כפי שהוסבר מעלה).

1) תרשים פיזור של מספר המנדטים לכל מפלגה לאורך זמן

התרשים הראשון מציג פיזור עם קו "ממוצע מוחלק". בציר ה- X יש לנו זמן (יש בעיה קלה בעברית, אני מתנצל), בציר ה- Y את מספר המנדטים. כל נקודה מציגה מנדטים שהביא מאחד מהסקרים. הקו בכל גרף מציג סוג של ממוצע מקומי של המנדטים. הצבע שמסביב לקו נותן תחושה כללית של פיזור הנקודות סביב הקו (הקליקו על התמונה לגירסה מוגדלת).

2015-03-13 22_49_17-Clipboard

עד לתאריך ביצוע הסקר האחרון (ראו את ההסתייגות שכתבתי בתחילת הפוסט!), נראה ש:

  • "הרשימה המשותפת" נשארה באותו מספר של מנדטים – בין 12 ל- 13.
  • הבית היהודי התחיל מגמת ירידה עד לכ- 11 מנדטים
  • המחנה הציוני התחיל מגמת עליה קלה עד לכ- 25 מנדטים
  • ישראל ביתנו במגמה קלה של ירידה לכ – 5 מנדטים
  • כולנו – במגמת עליה קלה לכ-9 מנדטים
  • ליכוד – במגמת עליה קלה לכ-22 מנדטים
  • מרצ – מגמה מעורבת, באיזור ה- 5 מנדטים
  • שס – מגמה מעורבת, באיזור ה- 7 מנדטים
  • יחד – מגמה מעורבת, באיזור ה- 4 מנדטים
  • יהדות התורה – בין 6 ל- 7 מנדטים
  • יש עתיד – יציבה יחסית סביב ה- 12 מנדטים

2) תרשים קופסא של מספר המנדטים לכל מפלגה

התרשים השני הוא "תרשים קופסא". בציר ה- X יש לנו את המפלגות השונות, בציר ה- Y את מספר המנדטים. הקו העבה בכל קופסא הוא חציון מספר המנדטים. וקצוות הקווים הן המקסימום והמינימום ה"לא חריגים" של כל תחזית (כדי להבין יותר איך זה נקבע, יש לקרוא את הערך תרשים קופסא בויקיפדיה).

כך לדוגמא, החציון של מספר המנדטים של הליכוד הוא 22. הכי הרבה שהוא קיבל היה 24 מנדטים והכי מעט 20 מנדטים. אצל המחנה הציוני, החציון היה 24, הכי מעט היה 23 והכי הרבה 25 (הנקודה של ה- 26 היא קצת חריגה ביחס לנתונים)
(הקליקו על התמונה לגירסה מוגדלת)

2015-03-13 22_29_15-Clipboard

החציונים של מספר המנדטים לכל מפלגה הן: (לפי סדר יורד)

  • המחנה הציוני – 24
  • הליכוד – 22
  • הרשימה המשותפת – 13
  • הבית היהודי – 12
  • יש עתיד – 12
  • כולנו – 8
  • שס – 7
  • יהדות התורה – 7
  • ישראל ביתנו – 6
  • מרצ – 5
  • יחד – 4

לסיכום

שאלות פתוחות וחשובות:

  • מה יהיה אחוז ההצבעה הכללי ובמגזרים השונים? ייתכן והסקרים שיש לנו לא מצליחים לתפוס את ההשפעה של איחוד המפלגות הערביות, ושביום הבחירות נגלה שהמפלגה שלהם תקבל הרבה יותר קולות ממה שהופיע בכל הסקרים. באופן דומה, מפלגת יחד נמצאת על 4 מנדטים באופן די עיקבי, מה שאומר שעליה אפילו קטנה של אחוז ההצבעה, ומעט היסוס מצד המצביעים שלה – עשוי להותיר אותם מחוץ לכנסת.
  • מה לגבי ה"לא משיבים"? קמיל פוקס אמר בראיון השבוע שרק כ- 24% מהנשאלים בסקרים משיבים. האם אלו שמשיבים מייצגים גם את שאר ה- 76% שלא הסכימו להשיב?  יכול להיות שכל הסוקרים מפספסים תתי אוכלוסיות או תופעות אשר יפתיעו אותנו ביום הבחירות עצמו (כמו שהיה עם ההצלחה המדהימה של יש עתיד בבחירות הקודמות) – מה שהסברתי בעבר במאמר על שגיאות שאפשר ושאי אפשר להציג.
  • מה לגבי המתלבטים? כמו בכל מערכת בחירות, גם כעת יש "הרבה" קולות מתנדנדים (ההערכות על כך משתנות). יכול להיות שיהיה סחף של קולות לכיוון מסויים. סחף כזה הביא את יש עתיד ל- 19 מנדטים בבחירות האחרונות. מה הוא יעשה הפעם? האם הוא ילך שוב ליש עתיד? לכחלון? למחנה הציוני? או למפלגה אחרת?

כמו שנילס בוהר אמר בזמנו (למרות שזו שאלה מי אמר זאת ראשון): "מאד קשה לבצע חיזויים, בעיקר לגבי העתיד".

מה אפשר להסיק מכל מה שנעשה עד כה לגבי יום הבחירות עצמו? אני בכנות לא יודע. אני מקווה שתחרות חיזוי הבחירות שאנחנו מקדמים, באיגוד הסטטיסטיקאים הישראלי, יעזור בתחום הזה בעתיד.

יהיה מה שיהיה, אני מתכנן להצביע – ואני מקווה שגם אתם! 🙂