החלום האמריקאי בגרפים

שני גרפים מ538, בעקבות מאמר שהתפרסם לאחרונה.

הסיכוי של אזרח אמריקאי להרוויח יותר מהוריו בגיל 30. (או 40)

עבור אמריקאים שנולדו בשנות ה40 (ציר הX) הסיכוי הוא ~90% ועבור כאלה שנולדו בשנות ה80 הסיכוי באזור ה50%.
כלומר פחות או יותר משנות ה80 אין מגמת השתפרות בחוויה האמריקאית הממוצעת.

ממה יכול לנבוע שינוי כזה?
או שפשוט כקבוצה ההכנסות סטטיות ולכן אי אפשר שכולם יקבלו יותר מההורים שלהם, אין מאיפה, אין צמיחה.
או שאולי דווקא יש צמיחה – כלומר יש יותר כסף לחלק – אבל מעטים לוקחים את כל הצמיחה וכל השאר חיים כאילו אין צמיחה.

.

הגרף  המבריק הבא מנסה לנתח ממה נובע השינוי:


(ליחצו כאן כדי לפתוח את הגרף בחלון חדש במקביל לתאור המילולי)

יש כאן 4 קווים שכל אחד מתאר סיטואציה אחרת.
העליון ביותר – המצב ב1940
ציר הX – הסטטוס הכלכלי של ההורים, ציר הY – הסכוי שתרוויח/י יותר מהם.
כלומר אפשר לראות שילדים למשפחות ענייות ירוויחו בסכוי מאוד גבוה יותר מהוריהם (הקו האפור בצד שמאל מעל ה90 %).
ובכלל ב1940 כמו שכבר הראה הגרף העליון – הסכויים שתרוויח יותר מהורייך גבוהים ולכן הקו האפור נשאר גבוה עבור כל קשת הסטטוס הכלכלי.

התחתון ביותר – המצב ב1980
ילדים למשפחות עניות עדיין בסכוי גבוה להרוויח יותר מהוריהם – צד שמאל של הכתום מתחיל באזור ה80%, אבל די מהר הוא צונח ועבור רוב האוכלוסיה הסכוי להרוויח יותר מהוריהם הוא 50% ומטה.

שני הקווים האמצעים הם ניסיון להבין מאיפה נובע הפער בין 1940 ל1980
הקו המקוקו התחתון הוא תאור המצב אילו הצמיחה הייתה זהה לצמיחה של של התקופה הראשונה (כלומר 1940 ואילך)
הקו הקוקו השני העליון יותר הוא תאור המצב אילו השוויון בחלוקת ההכנסות היה שווה לתקופה הראשונה.

כלומר אפשר לראות כמותית את התרומה של כל אחד משני המרכיבים לשחיקת החלום.

 

Weapons of math destruction

קאתי אוניל (AKA mathbabe) כתבה את הספר הזה לאחר קריירה שנעה בין אקדמיה (מתמטיקה) לוול סטריט ולבסוף לאקטביסטית באוקיופי. ( occupy movement)

הספר מציג את הנזק שגורמים מודלים מתמטים המתבססים על big data בתחומים רבים (ומתרבים) של חיינו.

מה יש שם?

פרסום – פרסומות להלוואות שמטרגטות את הנואשים ביותר, דרוג מורים על פי נוסחאות מבוססות ציונים, טבלת דרוג של קולג'ים אמריקאים איך היא נולדה ואיך היא מטלטלת שם את כל המערכת,
דרוג מסוכנות בענישה בבתי משפט, קבלה לעבודה, סידור משמרות, דרוג אשראי, ביטוח
ועוד כמה דברים שבטח שכחתי.

הנה תמצות (ותרגום) מראיון איתה.

"אני מגדירה בתור "Weapon of Math Destruction" אלגוריתמים עם שלושה מאפיינים עיקריים – הם נפוצים, מסתוריים והרסניים. נפוצים מאחר שאני מתעניינת רק באלגוריתמים שמשפיעים על אנשים רבים ויש להם השלכות משמעותיות לגביהם. כך שאם אלגוריתם מחליט אם מישהו יקבל עבודה, יכנס לכלא לתקופה ארוכה יותר או יקבל הלוואה זה עניין משמעותי.

אני קוראת לWMD מיסתוריים מכיוון שהאלגוריתמים שאני כותבת עליהם בספר סודיים. הם מגיעים מנוסחאות נסתרות ששייכות לחברות פרטיות ושומרים עליהם כאילו היו "רכיב סודי". זה אומר שאנשים שמושפעים על ידי הציונים שלהם לא יודעים איך הציונים שלהם חושבו ולעיתים הם אפילו לא יודעים שהם מדורגים בכלל.

יחד עם הסודיות הזו מגיע חוסר מחוייבות למתן דין וחשבון ( lack of accountability ) של הגופים שמפעילים את שיטות הדרוג האלו וכמובן שלא קיים תהליך ערעור. בסופו של דבר איך את יכולה לערער על ציון שלא ידעת שחושב ואיך את יכולה לטעון שהציון שגוי אם אין לך גישה לדרך שבה חושב הציון.

לבסוף האלגוריתמים האלו הם הרסניים, שיטות הדרוג שהם מפעילים הורסות חיים של אנשים."

כמה נקודות שאני זוכר:

הספר טוב, קריא, משכנע, מעורר כעס ומחשבה.
מומלץ במיוחד לאנשים שהם חסידי דאטה.

קצת הגיגים:
לפעמים הישום הוא פשוט רע
הרצון לעבוד על פי דאטה שמרגיש נכון ואוביקטיבי, גובר על העובדה שדאטה כזה לא קיים.
לדוגמא ישום נוסחאות כדי לדרג מורים.
נוסחאות ערך מוסף / Value Added
בגדול לראות מה היו ציוני הכניסה של כיתה שנכנסה אל המורה ומה היו הציונים בסוף השנה.
העניין הוא – שלא מדובר כאן על הרבה נתונים.
יכולה להיות כיתה שהגיעה מבית ספר שניפח ציונים – והמורה שקיבל אותם יקבל ציון נמוך מאוד בדרוג. מורים שמדורגים על ידי שיטות כאלו, מתארים חוסר יציבות בציון. (השנה אתה מורה מצויין, שנה הבאה כושל וחוזר חלילה)
יש כאן רעב פוליטי של המערכת לאיזה אורקל – מישהו שיפתור את הבעיה הקשה של טיוב מערכת החינוך.

בנוסף יש כאן התעלמות מחוק שצריך להיות אקסיומה בשדה הזה של מטריקות ומדידת אנשים
חוק קמפבל

"The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor."

או כמו שב the wire קוראים לזה, numbers game.

הדוגמא הכי חזקה בספר של הטלטלה שמייצרת מערכת מדידה היא דוגמת דירוג הקולג'ים האמריקאי. איך הוא נולד כמעט במקרה ואיך הוא מעצב את המערכת מאז.

קיצור, מומלץ.

לינקים נוספים:

1. אורקה – סוכנות יעוץ שהיא הקימה לחברות בקשר להגינות וחשיפה משפטית של האלגוריתמים שבהם הם משתמשים. algorithmic auditing

2. Data and Society :

research institute focused on the social and cultural issues arising from data-centric technological development

Forensic accounting / Neo4J 101

מסמכי פנמה הם כינוי להדלפת ענק של מסמכי משרד עורכי דין פנמי שמתעסק כנראה בעיקר בהקמת חברות קש במקלטי מס.
הכנראה מצביע על זה שאין לי כוונה לטעון בנחרצות דברים לגבי אף אחת מהישויות שיצוצו בקבצים. אם כבר נאמר משהו – הכל יהיה על פי מקורות זרים.
כוונת הפוסט היא רק לספק קרקע נוחה ומעניינת למשחק  hands on עם טכנולוגיית הGraphDB ואין בסיס נתונים מעניין יותר מאשר מסמכי פנמה לצורך העניין.
(ויקי אנגלית, ויקי עברית, האתר עצמו: Offshore Leaks Database )

הנתונים עצמם נמצאים כאן:
וניתנים להורדה בשתי צורות: CSV או DB מוכן של Neo4J בשני המקרים שמתי את הלינק לקובץ הטורנט.

הצעד הראשון הוא הורדה של הDB עצמו מכאן.
לאחר הורדה התקנה והרצה (next next)
יפתח לינק לBrowser מגניב מעל הDB הלוקאלי בכתובת: http://localhost:7474/browser

בכניסה הראשונה צריך להתחבר לשרת עם הסיסמא הדיפולטית, להגדיר חדשה ואז אתם בפנים.

Learn about  Neo4J נוגע קצת במונחים והJump into code מאפשר צלילה מאוד נוחה ליצירת DB סרטים ואז תיחקור שלו.
התחקור מתבצע בשפת Cypher שהיא חלק גדול מהיופי בכל העניין.

בהחלט ראוי לאזכר כאן את היפותזת ספיר-וולף שהשפה משפיעה על אופני החשיבה. גם אם אפשר לתחקר הכל בSQL, או בשפת תכנות הרי ששפת התחקור ללא ספק הופכת שאלות רבות לנגישות יותר לשאלה.

MATCH (actor:Person)-[:ACTED_IN]->(movie:Movie)
WHERE movie.title STARTS WITH "T"
RETURN movie.title AS title, collect(actor.name) AS cast
ORDER BY title ASC LIMIT 10;

השפה עצמה מאוד מזכירה SQL עם קצת לוגיקה של RegEx
השאילתא הבסיסית כפי שהיא מופיעה למעלה כוללת:
MATCH – חלק שבו נתאר תבנית שלפיה נפלטר דאטה שתואמת לה. (או מספר תבניות מופרדות בפסיק)

MATCH (_ALIAS_TO_BE_USED_LATER_IN_THE QUERY_:_NODE_TYPE_)-[:_RELATION_TYPE_]->(movie:Movie)

 WHERE – סטנדרטי כמו בSQL. (שימו לב לשימוש בmovie הalias שהוגדר בMATCH)

RETURN – אחרי שהגדרנו ופילטרנו אפשר להגדיר מה נרצה להחזיר. שימו לב שיש כאן בעצם implicit group by על פי השדות המוחזרים ושאינם aggregated (במקרה שלנו movie.title)
והפונקציה collect אוגדת לערך אחד מספר ערכים.


שיחקתם עם הMovie DB => בואו נעבור הלאה.

עכשיו הזמן להוריד  ולהשתמש ב DB של מסמכי פנמה שהורדתם. ( לינק )

סדר הפעולות הוא:
1. stop
2. choose the "panama-papers-windows\neo4j.data\panama.graphdb" directory
3. start

כדי לוודא שהכל עבד בוא נריץ את הquery :

MATCH (a)
where 
a.countries = 'Israel'
RETURN labels(a) , count(*)

ואנחנו אמורים לקבל:

count(*) labels(a)
1094 [Officer]
663 [Entity]
865 [Address]
146 [Intermediary]

ועכשיו אנחנו בתוך הDB של מסמכי פנמה, מוכנים לקצת Forensic accounting.

הquery הראשון שנריץ יהיה:

MATCH (a)-[*1..1]-(b)
where 
labels(a) <> 'Address'
and a.countries = 'Israel'
RETURN a.node_id,labels(a),a.name,count(*) as cnt 
ORDER BY cnt desc
limit 10

ונקבל:

a.node_id labels(a) a.name cnt
11013202 [Intermediary] OFIR TSHORNY, ADV (CPA) 215
10165699 [Entity] ParagonEX Limited 80
11003993 [Intermediary] MORDECHAI KUPERSCHMIDT, ADVOCATE 49
11006928 [Intermediary] MOSSACK FONSECA & CO. (ISRAEL) LIMITED 24
11009424 [Intermediary] BANK HAPOALIM SWITZERLAND 23
12223915 [Officer] SEMION BUKHMAN 17
10097850 [Entity] G.S.S. Group Ltd. 16
21957 [Officer] Tal Hackmey 15
11004430 [Intermediary] LAURENCE WIZEL FAMILY OFFICE 15

כל הישויות האלו מופיעות במסמכים.
ואפשר להתחיל לצלול ולראות איך נראה מה שנחשף.

נתמקד לדוגמא בישות השניה
השאילתא הבאה מגדירה תבנית של קשר אחד (a מקושר לb)
מגדירה את a כישות מסויימת ( node_id:10165699 ) ובעצם מחזירה את כל הקשרים שלו.

אחד הדברים שמאוד מקל על הבנת התוצאות זה הviewer שמציג גרפים ומאפשר גם לטייל בהם.
(מצד שני עבודה יותר משמעותית איתו מסבירה את הגדולה בממשק של פלנטיר)

MATCH (a)-[*1..1]-(b)
where 
a.node_id = "10165699"
RETURN a,b

מה שבעצם רואים כאן
זה ישות מרכזית אחת: ParagonEX Limited
עם כמה עשרות קשרים לישויות מסוג Officer שמוגדרות כ SHAREHOLDER ששימשו (אני מניח) לחלוקת אופציות בחלקן. (שמות כגון: ESOP for X)

חלק מהשמות צפו מאז הפרסום בעיתונות : ( לדוגמא כאן )

רוצים לדעת עוד?
תורידו ותשתעשעו
it's that simple