כשמתארים שפה, או עורכים מחקר כלשהו על שפה או שפות, יש צורך לקבל ממקום כלשהו את העובדות על השפה, בצורה הגולמית שלהן, לפני העיבוד בכלים מדעיים והמחקר המעמיק. ישנם שני מקורות מהם אפשר להשיג עובדות לשוניות: קורפוס (רצף נתון של פארול*) או תחקור של אינפורמנטים (דוברים ילידיים של השפה).
בפוסט הזה, שהתחיל מדואל שכתבתי, אציג את החסרונות של השימוש באינפורמנטים, ואת היתרון שבשימוש בקורפוס אל מול החסרונות האלה. הטקסט הוא פולמוסי במידת־מה: אל תצפו לאיזון. אשמח לשמוע דעות מנוגדות.
* ר' דה סוסיר.
תחילה, אתאר את שני מקורות המידע השונים לעובדות לשוניות:
- קורפוס.
קורפוס (מלטינית: corpus - גוף) הוא רצף נתון של התבטאות קונקרטית של המערכת הלשונית (הלאנג), כלומר - פארול נתון. רוב הקורפוסים שעובדים איתם בלשנים הם קורפוסים כתובים, בדרך כלל של השפה הכתובה (ולא תעתוק של מלל מדובר שוטף). עם זאת, יש בלשנים שעובדים עם קורפוס מוקלט או מצולם. - אינפורמנטים.
אינפורמנט הוא דובר ילידי של השפה, אותו מתחקר הבלשן לגבי השפה אותה האינפורמנט דובר. השאלות שאפשר לשאול אינפורמנט הן דברים כמו "איך אתה אומר X בשפה שלך?", "האם X הוא דבר שהיו אומרים?" (כלומר: האם X יכול להיות ביטוי של הלאנג? האם לדעתך יתכן פארול שבו X קיים?) או "מה המשמעות של X בשפה שלך?".
לענייננו חשוב להבחין בכך שבמקרה שבלשן מקליט אינפורמנט מספר סיפור, נאמר, באופן טבעי, כפי שהיה מספר אותו לבני החברה שלו, הרי שהחומר איתו הבלשן יעבוד הוא "קורפוס", שכן מדובר ברצף לשוני נתון שלא מכוון או מופרע על־ידי הבלשן: ההבדל בין קורפוס ממקור כזה (בלשן, או שלוחו, שמקליט דוברים ילידיים) לבין קורפוס אותו הדובר הילידי יוצר מטעם עצמו (ספר שכתב, סיפור שהקליט, וכו') הוא באמצעי בלבד, ואינו עקרוני יותר מדי.
ישנן כמה בעיות עיקריות שאני מוצא בקבלת עובדות לשוניות בשיטה של תחקור אינפורמנטים. אני לא מתיימר לחשוב שאני הראשון שחושב על הבעיות האלה. אלו הן, ללא יחס־סדר עקרוני ביניהן:
-
שפות קורפוס*.
נקודה פשוטה אבל חשובה: לשפות קורפוס אין אינפורמנטים. לא נוכל להקים לחיים אנגלו־סאקסונים עתיקים מאפרם ומקבריהם; לא נוכל לתפוס שיחה עם חמורבי. מובן מאליו שבשפות מתות הדרך היחידה לעבוד היא מול קורפוס. בשום מקרה אסור לבלשן לסמוך על ה־Sprachgefühl, התחושה הלשונית, שלו לשפה - גם אם יקרא את כל הטקסטים הלטיניים שיש בידינו (משימה שקשהבלתי אפשרי להשלים בתקופת חיים אחת), עדיין אסור לו לסמוך על התחושה הלשונית שלו לגבי לטינית ולהסיק ממנה מסקנות: הכל צריך להיות מגובה בטקסט מקורי.
* זה מונח אמיתי שמשתמשים בו לתיאור שפות שאין להן עוד דוברים ילידיים, אבל הוא נשמע כמו משחק־מילים, Lat. corpus > Eng. corpse: קורפוס = גופה = שפות מתות... -
האינפורמנט חייב לדבר בשפה אותה מכיר הבלשן.
כדי שתהיה תקשורת בין הבלשן והאינפורמנט, כדי שהבלשן יוכל לשאול את האינפורמנט שאלות, זה האחרון חייב לדעת את השפה שבה הבלשן מדבר. הבעיה כאן היא משולשת:- מאבדים המון דוברים פוטנציאליים שהיו יכולים אולי להיות מקור למידע לשוני חשוב, ומי שנשאר הוא מחתך מסויים באוכלוסיה, שהוא בי־ או מולטי־לינגוואלי ודובר את השפה של הבלשן. כשהבלשן דובר שפה שמדוברת באיזור מפותח־טכנולוגית ומושא המחקר שלו היא שפה שמדוברת על־ידי אנשים שחיים בסביבה שאינה מפותחת־טכנולוגית, לא בלתי סביר להניח שמי שיודע את השפה של הבלשן הוא בן ל"אליטה משכילה" - כך אנו מקבלים קבוצה מדי הומוגנית של אינפורמנטים, ומאבדים חלק גדול מהגיוון הלשוני.
- ההיכרות של האינפורמנט עם השפה של הבלשן יכולה להשפיע על הדרך שבה הוא משתמש בשפה שלו. לא פעם ולא פעמיים קרה לי שהשתמשתי במבנים אנגליים בעברית: דבר דומה קורה גם לאינפורמנטים.
-
כשהבלשן מתקשר עם האינפורמנט בשפה שונה מזו הנחקרת, נוצר פער של תרגום, שמקלקל לחלוטין את התוצר שמתקבל: כששואלים "איך אומרים X בשפה שלך?" התוצאה שתתקבל תושפע מהמבנה של השפה של הבלשן, ומההבחנות שהיא עושה. בצורה כזו לא תוכל להתקבל תמונה אמיתית של השפה הנחקרת.
בעיה דומה קיימת גם במחקר מבוסס־קורפוס, כשהקורפוס הוא מתורגם. למעשה, יש שפות, כמו גוטית, שכמעט כל המידע שיש לנו על השפה הוא ממקור מתורגם (במקרה של הגוטית: בעיקר טקסטים נוצריים, שתורגמו מיוונית).
-
ציפיות מסויימות שהאינפורמנט יכול לחוש כאילו הן חלות עליו.
בהחלט מתקבל על הדעת שהאינפורמנט ירגיש כאילו מצפים ממנו שידבר "נכון" או בשפה "גבוהה". אם תתחקרו דוברים של עברית, שקיבלו שטיפת־מוח נורמטיבית, הם יגידו ש־ani jagid lexa šaloš dvarim הוא "לא משפט קביל" בעברית, למרות שרגע אחרי שהבלשן ילך הם יגידו אותו בעצמם... -
הכוונה בלתי־מודעת של התוצאות לפי התפיסה של הבלשן.
רצף השאלות שהבלשן שואל, בין אם השאלות עצמן או הסדר שלהן, יכול להטות את התוצאה לכיוון מסויים. ההשכלה הבלשנית של הבלשן משפיעה על השאלות שהוא שואל, ובכך מטה את התוצאה. אם יש לבלשן תיאוריה מסויימת לגבי אופן הפעולה של השפה, והוא רוצה להוכיח אותה, לא בלתי סביר שהשאלות שישאל יכוונו כך שהן יוכיחו את התיאוריה שלו - לא בכוונת זדון של הבלשן (הו לא!), אלא בגלל שזה הטבע האנושי.
בעיה נוספת, אקסטרה־לינגוויסטית, שקשורה לבעיה הזו היא הרצון שיכול להיות לאינפורמנט לרצות את הבלשן. זה סידור שאינו בלתי נפוץ שהאינפורמנטים מקבלים כסף* מהבלשן עבור הזמן שלהם (שעה של אינפורמנטיקה זה n רופי/זלוטי/דולר/שקל...). זה לא בלתי סביר שהאינפורמנט ירצה לרצות את בלשן, אם במטרה שהבלשן המרוצה יחזור אליו לזמן־תשאול נוסף ואם סתם מהרצון האנושי לגרום לאנשים להיות שמחים, ולכן יענה על שאלות שלו בחיוב ("X קיים בשפה שלך? - כן! בטח שקיים!") ויטה את תשובותיו לרצון הבלשן. בנוסף, יש תרבויות שבהן זה לא כל־כך מקובל לשלול את הדברים של מי שאתה מדבר איתו, במיוחד אם מדובר באדם "מכובד".
* ההיבטים המוסריים של השימוש באינפורמנטים הם ממש לא מעניינו כאן. -
שוני בין המודע והלא־מודע בהתייחסות לשפה.
כשאדם מנסה להתבונן ברמת המודע בשפה שלו עצמו, מבעד לעדשת המודעות, התוצאה שהוא יקבל תהיה שונה, במידה זו או אחרת, משימוש שוטף וטבעי בשפה. יש דברים שיאמרו באופן טבעי, אבל בהסתכלות מודעת יראו מוזרים (נסו לקרוא תעתיקים לא ערוכים של שיחות. זו חוויה מעניינת, שמדגימה יפה את ההבדל שבין השימוש המודע והלא־מודע בשפה), ויש דברים שנראים טוב בהסתכלות מודעת אבל לעולם לא באמת יאמרו או יכתבו. הדרישה מהאינפורמנט להיות מודע, כך או אחרת, לתהליך הלשוני משבשת את התוצאה. -
דברים שקורים רק ברמת הטקסט או בצ'אנקים גדולים יותר.
כשמתחקרים אינפורמנט, בדרך כלל עושים את זה רק ברמה של סינטגמה קטנה: משפט או שניים, ואולי פחות (צירופים קטנים יותר). קשה לתחקר אינפורמנט על מקטעים גדולים של מלל. אולם, יש הרבה מאפיינים מעניינים של השפה שאפשר לראות אותם רק בצ'אנקים גדולים של מלל.
בנוסף לבעיה הפשוטה של אורך הפארול הנבחן, יש גם את הבעיה של טקסטמות שלא ניתן לחקור, לפחות לא בקלות, בעזרת אינפורמנטים, וקל לחקור בעזרת קורפוס.
אלו בעיות שקיימות במחקר לשוני שמתבסס על תשאול של אינפורמנטים. כמובן שלשימוש בקורפוס יש את החסרונות שלו, אבל עדיין, לעניות דעתי, הוא המקור העדיף, אם לא היחיד, לאיסוף של עובדות לשוניות. הוא זה שממנו אפשר באמת להפיק משהו שניתן להסתכל עליו באופן רציני מנקודת מבט מדעית. שימוש באינפורמנטים, כמו שראינו, הוא כלי מסוכן, ששימוש בו יכול להביא לתוצאות עקומות ובלתי־מדעיות.
אם להשתמש בקריטריון ההדירות לתיאוריה מדעית (היכולת לחזור על "ניסוי" ולקבל תוצאות זהות, או דומות מספיק, שמאששות את התיאוריה), הרי שהקורפוס עומד בו והשימוש באינפורמנטים לא. בהנתן קורפוס, שאף אחד לא יכחיש שהוא ביטוי אמיתי לחלוטין של לאנג, ממקור אידיולקטלי, תמיד אפשר לבדוק תיאוריות על השפה אל מול הקורפוס. מצד שני, אחרי ששאלתם שאלות את האינפורמנט, לעולם לא יהיה ניתן לחזור שוב על אותו התהליך: בין אם בגלל שהאדם הנשאל אינו זמין יותר, ובין אם בגלל שעצם התחקור השפיע עליו. כשמקבלים תוצאות של מחקר בלשני שמקורו בתשאול אינפורמנט, אין לנו אלא להאמין לבלשן, וזהו - אי אפשר לעשות שום דבר נוסף, ודאי שלא לחזור על ה"ניסוי".
גם קריטריון ההפרכה לתיאורה מדעית (כדי שתיאוריה תחשב כמדעית, עליה להיות, ברמה התיאורטית, ניתנת להפרכה) עובד לטובת השימוש בקורפוס. נתון קורפוס מסויים: אפשר להפריך את דרכי ההיסק של הבלשן או להביא ראיות מקורפוס לכך שמה שהוא מסיק שגוי. כשמקבלים תשובה של אינפורמנט, אין מה לעשות מולה: חזקה עלינו לקבל את הדברים שלו כמות שהם, בלי יכולת לערער עליהם או להתבונן בהם לעומק.
כמובן שהבעיה קריטית אפילו יותר כשהבלשן משתמש בעצמו כאינפורמנט, אפילו הוא דובר ילידי של השפה. הכל נעשה מוטה ועקום כך.
באופן כללי, השימוש בקורפוס לא לוקה באותם חסרונות שהוזכרו כאן, לפחות לא באותה מידה שקיימת בשימוש באינפורמנטים. כמובן שאסור לקורפוס להווצר על־ידי הבלשן (אדם לא יכול לעשות עבודה מחקרית רצינית על פארול שהוא מייצר). אני משאיר לקורא לראות לבד איך בשימוש בקורפוס הבעיות האלו מתגמדות, או פשוט לא קיימות - זה טריוויאלי.
(נהגה ונכתב בשעה ומשהו של להט־כתיבה...)